Blog

Calendrier des interruptions de service pour le 21 octobre 2016

par Tim Armandpour 24 octobre 2016 | 3 minutes de lecture

Le vendredi 21 octobre 2016, PagerDuty a connu une panne suivie d'une période de dégradation du service. Nous prenons les pannes très au sérieux, surtout lorsqu'elles affectent nos clients.

Dans cet article, nous résumons une chronologie des événements et des mesures prises par nos ingénieurs pour atténuer le problème. Dans un article de suivi demain, nous décrirons les mesures que nous prendrons pour réduire la probabilité de pannes similaires à l'avenir.

Utilisation du DNS chez PagerDuty

PagerDuty utilise DNS à deux fins. Notre utilisation principale du DNS est de fournir à nos clients des informations de routage afin d'accéder aux services PagerDuty . De plus, nous utilisons également DNS pour la communication interne entre nos serveurs. Au moment de la panne, nous exploitions notre principal fournisseur pour alimenter nos informations de routage externes et internes.

Ce qui s'est passé

Chronologie des événements (Toutes les heures sont en UTC)

16h00 – Les ingénieurs de PagerDuty sont alertés des échecs de recherche du fournisseur DNS principal

16h04 – Les ingénieurs de PagerDuty confirment des échecs de recherche intermittents pour pagerduty.com

16h06 – Le fournisseur DNS principal révèle une dégradation de service

16h40 – Le site Web PagerDuty , les API, les notifications, les expériences mobiles et les webhooks présentent une dégradation du service pour un sous-ensemble de notre clientèle.

17h00 – Publication des serveurs de noms du fournisseur DNS secondaire pour pagerduty.com pour un total de 8 serveurs de noms

17:16 – 2 des 4 serveurs DNS principaux supprimés de pagerduty.com

17h17 – Les serveurs internes de PagerDuty ne peuvent pas communiquer entre eux en raison de l'indisponibilité du service DNS principal.

17h18 – Le site Web PagerDuty , les API, les notifications, les expériences mobiles et les webhooks ne sont pas disponibles pour tous les clients

17h38 – Les serveurs internes de PagerDuty sont capables de communiquer entre eux en remplaçant les fichiers locaux /etc/hosts sur tous les serveurs PagerDuty

17h40 – Le site Web PagerDuty , les API, les notifications, l'expérience mobile et les webhooks commencent à récupérer pour la plupart des clients

17:57 – 3 des 4 serveurs de noms du fournisseur DNS principal ont été supprimés de pagerduty.com

19h00 – Tous les serveurs de noms du fournisseur DNS principal ont été supprimés de pagerduty.com et le trafic DNS externe a été transféré vers le fournisseur DNS secondaire

19h04 – Le site Web PagerDuty , les API, les notifications, les expériences mobiles et les webhooks commencent à récupérer pour tous les clients

20h22 – Les accusés de réception/résolutions de notification PagerDuty sont restaurés avec toutes leurs fonctionnalités

Mesures d'atténuation prises pendant la panne

Pendant la panne, les ingénieurs de PagerDuty sont passés de notre fournisseur DNS principal à notre fournisseur secondaire. Cela a fourni des informations d’acheminement appropriées à nos clients. Les problèmes affectant encore les serveurs internes ont été résolus en mettant à jour les fichiers sur tous nos serveurs pour contourner le DNS.

Mesures prises immédiatement après la panne

Après la panne et la récupération initiale, les ingénieurs de PagerDuty ont pris des mesures afin d'éliminer notre retard d'événements et de notifications. Pendant la panne, des notifications redondantes ont été envoyées. Pour résoudre ce problème, nos ingénieurs ont supprimé les notifications redondantes. Pendant environ deux heures après avoir pu rétablir le service, nous nous sommes concentrés sur l'envoi de notifications à nos clients.

Suivi

Demain, nous publierons les mesures que nous allons prendre au cours des prochains jours et des prochaines semaines pour renforcer notre infrastructure DNS. Bien qu'il s'agisse d'un événement unique, nous avons de grandes attentes quant au niveau de service que nous fournissons et nous travaillons à améliorer la fiabilité et la disponibilité de nos systèmes.

En attendant, si vous avez des questions supplémentaires, n'hésitez pas à contacter notre équipe d'assistance.