Blog

Rapport de panne initiale

par Alex Salomon 22 octobre 2016 | 3 minutes de lecture

Hier a été une mauvaise journée pour le cloud. PagerDuty, ainsi que nombre de nos clients et collègues, ont subi des pannes importantes à la suite de plusieurs attaques DDoS sophistiquées contre un fournisseur DNS populaire.

Nous avons subi une panne majeure hier, vendredi 21 octobre, qui a duré près de 3 heures, de 10 h à 13 h, heure normale du Pacifique. Pendant cette période, nous avons été complètement indisponibles pendant environ 30 minutes, suivies d'une période de disponibilité limitée en raison d'une charge très élevée, le temps de supprimer un important arriéré de notifications en file d'attente et de résoudre d'autres problèmes liés au DNS dans nos systèmes.

Notre mission est d'être votre partenaire fiable et de confiance en matière de réponse et de résolution des incidents TOUJOURS . Cela inclut les moments où vous rencontrez des problèmes mineurs, les moments où vous avez une panne majeure et les moments où la moitié de l'Internet est en panne. Hier, nous n’avons pas répondu aux attentes élevées que nous nous étions fixées. Je suis personnellement déçu et regrette notre mauvaise performance et notre temps d'arrêt lors de cet incident majeur. Moi-même et toute l'équipe de PagerDuty sommes vraiment désolés.

Tous nos services ont été rétablis et fonctionnent normalement depuis hier, vendredi 21 octobre à 13 heures, heure du Pacifique. Depuis, nous avons tout mis en œuvre pour procéder à une analyse approfondie de la situation. Nous communiquerons régulièrement avec vous pour vous tenir au courant de ce qui s'est passé, de ce que nous avons fait pour y remédier et de ce que nous faisons pour éviter que cela ne se reproduise. Dans les prochains jours, nous publierons les deux articles de suivi suivants :

  • Le lundi 24 octobre : une chronologie complète des événements décrivant ce qui s'est passé et ce que nous avons fait pour résoudre la panne
  • Le mardi 25 octobre : le plan d'action pour la résolution des causes profondes qui décrit l'ensemble des mesures que nous entreprendrons pour aider à prévenir de tels problèmes à l'avenir

Les pannes d'hier ont été causées par un événement cygne noir majeur, un événement auquel beaucoup d'entre nous dans le secteur n'étaient pas préparés. Vous comptez sur nous pour être préparés et nous aurions dû l'être. Peu importe à quel point cet événement était unique, il n'y a pas d'excuses . Nous ne rejetons pas la faute sur d'autres partis et nous ne disons pas « nous ne l'avons pas vu venir ». Tout simplement, nous devons être prêts à faire face à ce genre de situations. Nous devons être opérationnels lorsque vous êtes en panne. En fait, vous comptez sur nous lorsque vos systèmes sont en panne. Chez PagerDuty, nous sommes tous déçus et désolés de cette panne.

Cela a été un signal d’alarme pour nous. Nous ferons cela pour vous et pour votre entreprise. Nous travaillerons avec diligence pour tirer les leçons de cet incident et nous nous engageons à devenir un partenaire meilleur, plus fort, plus résilient et plus fiable. Toute l'équipe de PagerDuty, de nos équipes de développeurs et d'exploitation au support client, en passant par les ventes, les services et notre équipe de direction, est passionnée par le fait de vous fournir le meilleur service, et nous ferons tout notre possible pour prouver que vous pouvez toujours compter sur nous. aller de l'avant.

N'hésitez pas à Contactez moi directement ou contactez notre équipe de soutien Si vous avez des questions ou des préoccupations, restez à l'écoute de notre prochain article, le lundi 24 octobre, qui couvrira la chronologie complète des événements.

Sincèrement,

Alex Salomon
Directeur technique et cofondateur