Chronologie des interruptions de service pour le 21 octobre 2016
Le vendredi 21 octobre 2016, PagerDuty a subi une panne suivie d'une période de dégradation de service. Nous prenons les pannes très au sérieux, surtout lorsqu'elles impactent nos clients.
Dans cet article, nous résumons la chronologie des événements et les mesures prises par nos ingénieurs pour atténuer le problème. Dans un article complémentaire demain, nous détaillerons les mesures que nous prendrons pour réduire le risque de pannes similaires à l'avenir.
Utilisation du DNS chez PagerDuty
PagerDuty utilise le DNS à deux fins. Notre principal usage est de fournir à nos clients les informations de routage nécessaires à l'accès aux services PagerDuty . Nous utilisons également le DNS pour la communication interne entre nos serveurs. Au moment de la panne, nous utilisions notre fournisseur principal pour alimenter nos informations de routage externes et internes.
Ce qui s'est passé
Chronologie des événements (toutes les heures sont en UTC)
16h00 – Les ingénieurs de PagerDuty sont alertés des échecs de recherche du fournisseur DNS principal
16h04 – Les ingénieurs de PagerDuty confirment des échecs de recherche intermittents pour pagerduty.com
16h06 – Le fournisseur DNS principal révèle une dégradation de service
16h40 – Le site Web PagerDuty , les API, les notifications, les expériences mobiles et les webhooks présentent une dégradation de service pour un sous-ensemble de notre clientèle.
17h00 – Publication des serveurs DNS secondaires pour pagerduty.com, soit 8 serveurs au total.
17:16 – 2 des 4 serveurs DNS principaux supprimés de pagerduty.com
17:17 – Les serveurs internes de PagerDuty ne peuvent pas communiquer entre eux en raison de l'indisponibilité du service DNS principal.
17:18 – Le site Web, les API, les notifications, les expériences mobiles et les webhooks de PagerDuty ne sont pas disponibles pour tous les clients.
17:38 – Les serveurs internes de PagerDuty peuvent communiquer entre eux en remplaçant les fichiers /etc/hosts locaux sur tous les serveurs PagerDuty.
17h40 – Le site Web PagerDuty , les API, les notifications, l'expérience mobile et les webhooks commencent à se rétablir pour la plupart des clients
17:57 – 3 des 4 serveurs DNS principaux supprimés de pagerduty.com
19h00 – Tous les serveurs DNS primaires ont été supprimés de pagerduty.com et le trafic DNS externe a été transféré vers le fournisseur DNS secondaire.
19h04 – Le site Web PagerDuty , les API, les notifications, les expériences mobiles et les webhooks commencent à récupérer pour tous les clients
20:22 – Les accusés de réception/résolutions de notification PagerDuty sont restaurés à leur pleine fonctionnalité
Mesures d'atténuation prises en cas de panne
Pendant la panne, les ingénieurs de PagerDuty ont migré de notre fournisseur DNS principal vers notre fournisseur secondaire. Nos clients ont ainsi pu bénéficier d'informations de routage correctes. Les problèmes affectant encore les serveurs internes ont été résolus en mettant à jour les fichiers sur tous nos serveurs afin de contourner le DNS.
Mesures immédiates prises après la panne
Après la panne et la reprise initiale, les ingénieurs de PagerDuty ont pris des mesures pour résorber notre accumulation d'événements et de notifications. Pendant la panne, des notifications redondantes ont été envoyées. Pour y remédier, nos ingénieurs ont supprimé ces notifications. Pendant environ deux heures après le rétablissement du service, nous nous sommes concentrés sur l'envoi de notifications à nos clients.
Suivi
Demain, nous publierons les mesures que nous mettrons en œuvre dans les jours et semaines à venir pour renforcer notre infrastructure DNS. Bien qu'il s'agisse d'un événement unique, nous avons des attentes élevées quant au niveau de service que nous fournissons et nous travaillons à améliorer la fiabilité et la disponibilité de nos systèmes.
En attendant, si vous avez des questions supplémentaires, n'hésitez pas à contacter notre équipe d'assistance.