Blog

Maintenir PagerDuty toujours actif grâce à la réponse aux incidents à distance

par Dave Bresci 31 juillet 2020 | 4 minutes de lecture

Au début du mois, de nombreux secteurs d'Internet ont connu un incident majeur causé par une mauvaise configuration du routeur d'un fournisseur de services très utilisé. Cela a entraîné des pannes de service en cascade, provoquant des pannes et des perturbations généralisées pour plusieurs organisations SaaS bien connues.

Lorsque la panne s'est produite, nos équipes de PagerDuty ont immédiatement constaté une augmentation mondiale des événements et des incidents. Bien qu'il ne soit pas inhabituel de constater une augmentation des alertes ou des incidents au sein de quelques organisations, dans ce cas, nous avons constaté une série d'événements clients provenant de plusieurs régions. Cela était source d'inquiétude.

Dans les scénarios où nous constatons une augmentation inhabituelle du volume d’incidents, nous lançons de manière proactive une Réponse aux incidents majeurs Par mesure de précaution, nous avons tout le monde sur le pont pour lutter contre ce problème. Pour nous assurer que nos intervenants sont informés en temps opportun, nous utilisons l'application mobile PagerDuty pour contacter instantanément les intervenants concernés, où qu'ils se trouvent.

Comme ce problème particulier s'est produit alors que nous travaillions tous à distance, nous avons utilisé Slack et Zoom pour coordonner une réponse. Grâce à l'intégration Slack de PagerDuty, nous avons pu disposer d'une équipe entièrement distante composée de commandants d'incident, d'experts en la matière, de parties prenantes et de rédacteurs, tous orchestrant une réponse collaborative à un incident majeur depuis San Francisco, Toronto et Atlanta, le tout en moins de trois minutes.

Nos commandants d'incident ont coordonné la réponse tandis que le support client gérait les mises à jour internes et externes, les experts en la matière ont discuté des mesures nécessaires à prendre et les scribes ont documenté la progression de la réponse et la communication.

Heureusement pour nous, nous avons pu rapidement déterminer que nos systèmes étaient capables de gérer l’augmentation soudaine du trafic d’incidents et avons interrompu l’appel.

L’importance de la réponse aux incidents à distance

Des incidents majeurs comme celui-ci dans un environnement de travail entièrement à distance soulignent l'importance et le caractère critique de pouvoir reconnaître, réagir et répondre rapidement en équipe à un incident, quel que soit le lieu. Chez PagerDuty, une culture de travail et de réponse distribués est ancrée dans nos processus depuis le premier jour. En fait, si vous jetez un œil à notre documentation de réponse aux incidents , vous ne trouverez aucun protocole unique qui nécessite la proximité physique d'un intervenant lors d'une intervention. Avec la plateforme PagerDuty , vous pouvez véritablement répondre et traiter les incidents instantanément, où que vous soyez.

Nous nous appuyons également sur des outils de collaboration comme Slack et Zoom pour communiquer en temps réel lors d'un incident. Dans ce cas particulier, PagerDuty Intégration Slack est devenu notre plateforme centrale pour l'état des incidents et les mises à jour des parties prenantes. Dans Slack, les membres de notre équipe ont pu informer les principales parties prenantes, attribuer des rôles et réellement travailler sur l'incident dans un emplacement virtuel centralisé.

De plus, en dehors de cet incident, Slack est bénéfique pour notre processus de réponse même lorsqu'un incident est résolu, car il nous aide dans notre processus d'autopsie. Le scribe utilise l'intégration Slack pour documenter et enregistrer tout ce qui s'est passé pendant la réponse ; par exemple, « formulation approuvée par le commandant de l'incident pour les mises à jour de statut externes ». Cela est utile car tout le monde peut voir tout ce qui s'est passé : qui a répondu, qui ne l'a pas fait, pourquoi les choses ont dégénéré comme elles l'ont fait, etc. Cela nous donne une image et une compréhension complètes d'un incident et nous permet d'améliorer nos processus pour réagir et résoudre encore plus rapidement lorsque de futurs incidents se produisent inévitablement.

Notre culture de l'ingénierie distribuée C'est ce qui nous permet de garantir que PagerDuty est toujours disponible pour nos clients, quoi qu'il arrive. En utilisant PagerDuty comme source unique de vérité, en plus des outils de collaboration et des pratiques bien définies, nous sommes en mesure de répondre efficacement aux incidents depuis pratiquement n'importe où. Dans de nombreux cas, on pourrait penser que passer d'une orchestration au bureau à une réponse virtuelle serait difficile, mais avec PagerDuty, c'est vraiment, pour la plupart, comme d'habitude.

Pour en savoir plus sur la façon dont votre équipe peut utiliser PagerDuty pour répondre aux incidents à distance, lire ce blog sur la communication distribuée et essayez PagerDuty par vous-même avec un Essai gratuit de 14 jours.