Blog

Comment nous utilisons PagerDuty pour les interventions d'urgence

par Ryan Hoskin 17 mars 2020 | 4 minutes de lecture

PagerDuty est connue comme la plate-forme permettant de piloter le travail en temps réel, et avec la propagation mondiale actuelle du COVID-19, beaucoup de nos clients se demandent comment nous exploitons PagerDuty en interne pour coordonner intelligemment une réponse aux situations d'urgence (comme celle-ci) comme ils surgissent.

Les clients PagerDuty exploitent principalement notre plateforme pour coordonner un processus de réponse aux incidents lorsque des problèmes techniques surviennent, comme un mauvais déploiement, une dégradation du réseau ou une panne matérielle. Beaucoup de nos clients ont également réalisé que ce processus de réponse aux incidents peut être appliqué à d'autres incidents ayant un impact sur l'entreprise et ont commencé à utiliser PagerDuty pour d'autres cas d'utilisation, tels que la gestion de tickets d'assistance client de haut niveau, des problèmes de sécurité ou même des urgences. des situations comme celle que nous rencontrons avec l’épidémie de COVID-19.

Dans le cadre de notre plan de communication de crise , nous avons identifié plusieurs scénarios qui bénéficieraient de l'utilisation de PagerDuty pour accélérer notre capacité à répondre aux incidents majeurs chez PagerDuty:

  • Informez notre équipe de communication de crise qu’il existe potentiellement un problème urgent qui nécessite son attention.
  • Informez nos employés de l’état d’un incident majeur.

Scénario 1 : Notifier un problème urgent à notre équipe de communication de crise

Il est essentiel que notre équipe de communication de crise soit informée des incidents ayant un impact sur l'entreprise afin que nous puissions minimiser les perturbations internes et nous assurer que nous pouvons tenir les parties prenantes externes informées. Notre équipe de communication de crise est un groupe composé de personnes issues de nos équipes Opérations du personnel, Direction générale, Juridique, Marketing et Installations.

Dans PagerDuty, la configuration pour notifier le groupe Crisis Communications est relativement simple.

  • Nous avons une politique de service et d'escalade dédiée à ce groupe. Une adresse e-mail lui est associée afin que les utilisateurs puissent facilement déclencher un incident par e-mail (ainsi que via nos applications mobiles ou Web).

  • Tous les membres de l'équipe de communication de crise sont installés au premier niveau d'une politique d'escalade , et tous ont règles de notification multiples qui sont configurés pour les avertir immédiatement si un incident se produit. Remarque : il est important que tous les utilisateurs disposent de plusieurs règles de notification qui les avertiront immédiatement à des fins de redondance, ainsi que pour garantir qu'ils soient informés de l'incident même lorsque l'un de leurs pairs reconnaît l'incident avant de recevoir sa notification.
  • Le service est également configuré avec un pont de conférence , ce qui permet de réunir plus facilement l'équipe pour résoudre les problèmes en temps réel via des outils comme Zoom.
  • Notre Intégration Slack est utilisé pour tenir les parties prenantes informées dans un canal Slack privé.

Scénario 2 : Tenir nos employés informés d'un incident majeur

Lors d’événements majeurs comme l’épidémie de COVID-19, il est important de veiller à communiquer avec tous nos employés à mesure que la situation évolue rapidement. Étant donné que PagerDuty est une entreprise mondiale, nous avons conçu une configuration dans laquelle nous pouvons communiquer avec chaque région selon nos besoins. Vous trouverez ci-dessous quelques détails sur la façon dont il est configuré.

  • Nous avons mis en place deux services pour chaque région : un pour communiquer avec la direction et un pour communiquer avec tous les employés. Nous avons également mis en place des services pour communiquer avec nos équipes de direction et de haute direction.
  • Chaque service dispose d'une intégration de messagerie électronique afin que les incidents puissent être déclenchés par courrier électronique, ou via notre application Web ou application mobile.
  • Nous avons trois niveaux d'escalade pour chaque région. Ces personnes sont censées faciliter et coordonner une réponse à chaque incident, de la même manière que les Commandant d'incident rôle en cas d'incident technique.
  • Tous les employés de chaque région sont répartis en équipes.
  • Chaque service est également configuré pour exécuter automatiquement un jeu de réponse lors de la création d'un ticket. Le jeu de réponse est configuré pour ajouter l'équipe régionale comme utilisateurs parties prenantes , et ils seront immédiatement avertis lorsqu'il y aura une mise à jour.

  • Au fur et à mesure que la situation progresse, les propriétaires de l’incident enverront des mises à jour de statut, qui informeront tous les employés (abonnés).
  • Une fois l'incident résolu, le propriétaire de l'incident résoudra l'incident PagerDuty .

Grâce à ces deux flux de travail, nous pouvons garantir que nous pouvons rapidement et efficacement mobiliser la bonne équipe sur le problème, et que nous pouvons tenir toutes les parties concernées informées. Si vous avez des questions ou avez besoin d'aide pour configurer votre compte PagerDuty afin de permettre à votre équipe de répondre à des problèmes critiques, veuillez nous contacter à support@pagerduty.com .