- PagerDuty /
- Der Blog /
- Zuverlässigkeit /
- Auf den Schultern von Riesen stehen und mit ihnen stolpern – die „schmerzhaften“ Statistiken zum Amazon AWS-Ausfall
Der Blog
Auf den Schultern von Riesen stehen und mit ihnen stolpern – die „schmerzhaften“ Statistiken zum Amazon AWS-Ausfall
Heute, gegen 1 Uhr Pacific Time, hat Amazon angefangen, große Probleme mit einigen seiner Cloud-Infrastrukturen zu haben: insbesondere mit seinen EC2-, EBS- und RDS-Angeboten. Die Probleme bestehen weiterhin, und viele Ihrer bevorzugten Websites oder Dienste sind deswegen wahrscheinlich immer noch nicht erreichbar oder nur mit eingeschränkter Funktionalität verfügbar.
Diese Art von Ausfall ist einer der großen „Momente“ von PagerDuty. Dann sagt ein großer Teil der Dienste im Internet: „Hey PagerDuty, ich bin down, also weck jemanden auf, der mich repariert!“
Zu diesem Problem gibt es bereits zahlreiche Berichte, daher werden wir nicht näher auf die AWS-Situation selbst eingehen. Wir möchten jedoch einige Statistiken zu den Warnungen veröffentlichen, die wir während des Ausfalls per Telefon oder SMS verschickt haben. Wir glauben, dass diese Zahlen Aufschluss darüber geben könnten, welcher Anteil des Internets von den Problemen betroffen war. Wir gehen nicht davon aus, dass wir (noch) von einem „riesigen“, „moderaten“ oder sogar „realistisch statistisch signifikanten“ Anteil von Internet-Websites oder SaaS-Anbietern verwendet werden, aber wir glauben, dass diese Zahlen definitiv interessant sind und insgesamt als eine Art Schmerzmetrik für diesen AWS-Ausfall angesehen werden können.
Seit Beginn des Ausfalls haben wir Benachrichtigungen an etwa 36 % unserer Kundenbasis. Mit anderen Worten: 36 % der PagerDuty Kunden haben seit Beginn der AWS-Probleme Probleme – solche, die so groß waren, dass sie tatsächlich einen ihrer Systemadministratoren oder Techniker zur Problemlösung rufen mussten.
Die meisten PagerDuty Kundenkonten haben mehr als einen Benutzer – Sysadmin, Ingenieur, „Ops-Typ“ usw. – die an ihren Bereitschaftsrotationen beteiligt sind. Wir haben mehr als 10 % unserer gesamten Benutzerbasis. Mit anderen Worten, mehr als 10 % aller Betriebsmitarbeiter unserer Kunden wurden von unseren Systemen geweckt und/oder gerufen, um an ihren Problemen zu arbeiten. Dies ist wahrscheinlich auch nur die Spitze des Eisbergs, da wir normalerweise nur den ersten Alarm bearbeiten. Diese AWS-Probleme verursachen wahrscheinlich viele Situationen vom Typ „Alle Mann an Deck“, in denen die gesamten Betriebsteams (und mehr) zur Brandbekämpfung gerufen werden, nachdem der Bereitschaftsdienst von PagerDuty geweckt wurde.
Unten sehen Sie eine Grafik mit der Anzahl der Warnmeldungen (Telefon, SMS und E-Mail), die wir in den letzten 48 Stunden verschickt haben. Zum Zeitpunkt des AWS-Ausfalls gab es einen großen Anstieg der ausgehenden Warnmeldungen, und die Warnstufen sind seitdem hoch geblieben.
Unten sehen Sie eine Grafik mit der Anzahl der „Ereignisse“, die von den Überwachungssystemen unserer Kunden über unsere API oder per E-Mail an PagerDuty gesendet werden. Wir versenden keine Telefon-/SMS-/usw.-Warnmeldungen für jedes „Ereignis“, das uns von Überwachungssystemen gesendet wird, aber wir entfernen Duplikate, um unsere bereits gestressten und übermüdeten Benutzer nicht zu überfordern. Wie Sie sehen, wurden wir zu Beginn des Ausfalls mit einer riesigen Anzahl von Ereignissen überschwemmt, und die Anzahl der eingehenden Ereignisse ist immer noch hoch.