Cloudflare réduit le temps moyen d'action à quelques secondes avec PagerDuty

PagerDuty image

Taille: 415+ employés

Industrie: Technologies de l'information et services

Emplacement: San Francisco, Californie

Client depuis : 2016

En tant que solution globale de sécurité et de performance basée sur le cloud pour plus de 6 000 000 d'actifs Internet, Cloudflare garantit que les sites Web, les applications et les API des clients sont sécurisés, performants et hautement disponibles. En desservant plus de 10 % du trafic Internet mondial, il est impératif que les services de Cloudflare restent en ligne pour les clients à grande échelle, tout en garantissant la disponibilité des SLA en identifiant et en résolvant les incidents, bien avant que les opérations ne soient interrompues. L'équipe d'ingénierie de fiabilité des sites (SRE) de Cloudflare, dirigée par Michael Daly, recherchait une solution de résolution des incidents qui aiderait Cloudflare à accroître la stabilité de ses opérations, tout en offrant une expérience sans faille à chaque client.

Défis : visibilité, communication et escalade

Cloudflare a dû faire face à trois défis avant d'adopter PagerDuty. Le premier concernait l'optique. « Nous ne savions pas immédiatement quand quelque chose était cassé, car l'équipe d'ingénierie ne recevait pas d'alertes automatiques en cas d'incident », explique Michael.

Le deuxième défi était la gestion des incidents. Une fois le problème détecté, l’équipe d’ingénierie s’appuyait sur des processus manuels pour le résoudre. Les ingénieurs passaient du temps à diagnostiquer la cause du problème et, si une solution nécessitait l’aide d’un autre service, les SRE devaient contacter cette personne par téléphone, SMS ou chat – une tâche qui devenait difficile si les incidents survenaient après les heures de travail ou le week-end.

Compte tenu de la croissance rapide de Cloudflare, avec moins de 800 000 clients en 2013 et plus de 6 millions en 2016, il devenait difficile pour l'équipe de Michael de séparer les incidents critiques exploitables du volume croissant de données générées par les outils de surveillance. Bien que l'équipe ait refusé de se débarrasser d'informations potentiellement utiles, elle devait regrouper les symptômes associés afin d'obtenir des informations exploitables. Sans l'aide de la gestion et du tri dynamiques des événements, de l'automatisation et des autres fonctionnalités disponibles sur PagerDuty, Michael et son équipe devaient évaluer manuellement la gravité de chaque incident, un processus qui devenait trop lent pour servir au mieux le nombre exponentiellement croissant de clients.

« Le temps moyen d’action est passé de quelques minutes à quelques secondes. »

– Michael Daly , Responsable ingénierie, Cloudflare

Augmenter la stabilité et le temps de réponse avec PagerDuty

En adoptant PagerDuty, Cloudflare a résolu tous ces problèmes. PagerDuty garantit que Michael et son équipe sont toujours informés des incidents dès qu'ils se produisent et, si un incident doit être traité par une autre équipe, PagerDuty transmet automatiquement la notification pour gagner du temps.

L'équipe SRE de Cloudflare utilise également le Console de commande des opérations , et bénéficient de fonctionnalités telles que la mise en évidence des incidents hautement urgents dans l'application Incidents majeurs. Par conséquent, grâce à une visibilité complète sur leur infrastructure et à la détection des modèles et des anomalies, ils ne passent plus à côté d'événements graves. Michael explique : « Lorsque nous avons adopté PagerDuty, nous avons pu prendre certaines alertes et nous dire que celle-ci était vraiment importante. Nous devons la traiter maintenant. »

De plus, d'autres fonctionnalités telles que PagerDuty Intégration HipChat PagerDuty a permis à l'équipe SRE de Cloudflare de rationaliser la communication, de collaborer, d'automatiser les tâches liées aux opérations avec des commandes, d'apprendre ensemble et bien plus encore lors de la réponse aux incidents. PagerDuty a également éliminé la nécessité pour les SRE de rechercher manuellement les coordonnées du bon expert, car les individus, les équipes ou les parties prenantes de l'entreprise peuvent être informés et recrutés pour un incident en un seul clic. Avec PagerDuty, ils peuvent entrer en contact instantanément.

Plus important encore, PagerDuty a réduit le temps nécessaire à Michael et à son équipe pour réagir aux incidents, à une petite fraction de ce qu'il était auparavant. « Le temps moyen d'intervention est passé de quelques minutes à quelques secondes », a déclaré Michael, ajoutant qu'un temps de réponse plus rapide se traduit par une plus grande fiabilité du service et de meilleurs résultats pour les clients, ce qui est l'objectif ultime et la raison pour laquelle Cloudflare a choisi PagerDuty en premier lieu.

« Nous avions plusieurs options, mais nous avons choisi PagerDuty parce que nous avions moins de travail à faire pour que PagerDuty fonctionne avec nos systèmes. Il était très bien formaté, l'API fonctionnait parfaitement et le résultat de l'application était très facile à interpréter. »

– Michael Daly , Responsable ingénierie, Cloudflare