Se tenir sur les épaules de géants et trébucher avec eux : les statistiques « douloureuses » de la panne d'Amazon AWS
Aujourd'hui, vers 1h du matin, heure du Pacifique, Amazon a commencé à rencontrer des problèmes majeurs avec certaines de ses infrastructures cloud, notamment avec ses offres EC2, EBS et RDS. Les problèmes persistent et bon nombre de vos sites ou services Internet préférés sont probablement toujours hors service ou fonctionnent avec des fonctionnalités réduites à cause de cela.
Ce type de panne est l'un des grands « moments » de PagerDuty ; lorsqu'une grande partie des services sur Internet disent : « Hey PagerDuty, je suis en panne, alors réveille quelqu'un pour me réparer ! »
Il existe déjà de nombreux articles sur ce sujet, nous n'entrerons donc pas dans les détails de la situation d'AWS elle-même. Nous aimerions toutefois partager quelques statistiques sur les alertes que nous avons envoyées - par téléphone ou par SMS - pendant la panne. Nous pensons que ces chiffres pourraient nous éclairer sur la proportion d'Internet qui a été affectée par les problèmes. Nous ne présumons pas que nous sommes utilisés (pour l'instant !) par une proportion « énorme », « modérée » ou même « statistiquement significative » de sites Internet ou de fournisseurs SaaS, mais nous pensons que ces chiffres sont certainement intéressants et peuvent être considérés dans leur ensemble comme une sorte de mesure de la douleur pour cette panne d'AWS.
Depuis le début de la panne, nous avons acheminé des notifications à environ 36% de notre clientèle. En d'autres termes, 36 % des clients de PagerDuty ont rencontré des problèmes (des problèmes suffisamment importants pour qu'ils contactent l'un de leurs administrateurs système ou ingénieurs afin qu'il travaille sur le problème) depuis le début des problèmes d'AWS.
La plupart des comptes clients PagerDuty ont plus d'un utilisateur – administrateur système, ingénieur, « responsable des opérations », etc. – impliqué dans leurs rotations d'astreinte. Nous avons appelé plus de dix% de l'ensemble de notre base d'utilisateurs. En d'autres termes, plus de 10 % de l'ensemble du personnel d'exploitation de nos clients a été réveillé et/ou appelé par nos systèmes pour travailler sur leurs problèmes. Ce n'est probablement que la pointe de l'iceberg, car nous ne traitons généralement que la première alerte ; ces problèmes AWS sont probablement à l'origine de nombreuses situations de type « tout le monde sur le pont » où l'ensemble des équipes d'exploitation (et plus) seront appelées à lutter contre les incendies après que l'astreinte ait été réveillée par PagerDuty.
Vous trouverez ci-dessous un graphique du nombre d'alertes (téléphone, SMS et e-mail) que nous avons envoyées au cours des 48 dernières heures. Il y a eu une forte augmentation des alertes sortantes au moment de la panne d'AWS, et les niveaux d'alerte sont restés élevés depuis.
Vous trouverez ci-dessous un graphique du nombre d'« événements » envoyés à PagerDuty par les systèmes de surveillance de nos clients, via notre API ou par e-mail. Nous n'envoyons pas d'alertes par téléphone/SMS/etc. pour chaque « événement » qui nous est envoyé par les systèmes de surveillance, mais nous les dédupliquons afin de ne pas submerger nos utilisateurs déjà harcelés et aux yeux larmoyants. Comme vous pouvez le constater, nous avons été inondés d'un nombre considérable d'événements au début de la panne, et les niveaux d'événements entrants sont toujours élevés.