Der Blog

Erster Ausfallbericht

von Alex Solomon 22. Oktober 2016 | 3 Minuten Lesezeit

Gestern war ein schlechter Tag für die Cloud. Sowohl PagerDuty als auch viele unserer Kunden und Kollegen hatten aufgrund mehrerer ausgeklügelter DDoS-Angriffe auf einen beliebten DNS-Anbieter mit erheblichen Ausfällen zu kämpfen.

Gestern, am Freitag, den 21. Oktober, kam es bei uns zu einem größeren Ausfall, der fast 3 Stunden dauerte, von ungefähr 10 bis 13 Uhr Pacific Standard Time. Während dieser Zeit waren wir etwa 30 Minuten lang überhaupt nicht erreichbar, gefolgt von einer Zeit eingeschränkter Verfügbarkeit aufgrund einer sehr hohen Auslastung, da wir einen großen Rückstand an Benachrichtigungen in der Warteschlange abgearbeitet und zusätzliche DNS-bezogene Probleme in unseren Systemen gelöst haben.

Unsere Mission ist es, Ihr vertrauenswürdiger und zuverlässiger Partner für die Reaktion und Lösung von Vorfällen zu sein STETS . Dazu gehören Zeiten, in denen Sie kleinere Probleme haben, Zeiten, in denen Sie einen größeren Ausfall haben, und Zeiten, in denen das halbe Internet ausfällt. Gestern haben wir die hohen Erwartungen, die wir uns gesetzt haben, nicht erfüllt. Ich bin persönlich enttäuscht und bedauere unsere schlechte Leistung und die Ausfallzeiten während dieses großen Vorfalls. Mir und dem gesamten Team von PagerDuty tut es aufrichtig leid.

Alle unsere Dienste wurden wiederhergestellt und funktionieren seit gestern, Freitag, 21. Oktober, 13:00 Uhr pazifischer Zeit, wieder normal. Seitdem sind wir mit allen Kräften dabei, eine gründliche Nachuntersuchung durchzuführen. Wir werden Sie regelmäßig darüber informieren, was passiert ist, was wir dagegen unternommen haben und was wir tun, um zu verhindern, dass so etwas noch einmal passiert. In den nächsten Tagen werden wir die folgenden beiden Folgebeiträge veröffentlichen:

  • Am Montag, 24. Oktober: eine vollständige Zeitleiste der Ereignisse mit einer Übersicht darüber, was passiert ist und was wir getan haben, um den Ausfall zu beheben
  • Am Dienstag, den 25. Oktober: der Aktionsplan zur Behebung der Grundursache, in dem die Maßnahmen beschrieben werden, die wir ergreifen werden, um solche Probleme in Zukunft zu vermeiden.

Die gestrigen Ausfälle wurden durch ein großes Black-Swan-Ereignis verursacht, ein Ereignis, auf das viele von uns in der Branche nicht vorbereitet waren. Sie verlassen sich darauf, dass wir vorbereitet sind, und das hätten wir auch sein sollen. Es spielt keine Rolle, wie einzigartig dieses Ereignis war – Es gibt keine Ausreden . Wir schieben die Schuld nicht auf andere Parteien und sagen auch nicht: „Wir haben das nicht kommen sehen.“ Ganz einfach: Wir müssen darauf vorbereitet sein, mit solchen Situationen umzugehen. Wir müssen verfügbar sein, wenn Sie nicht erreichbar sind – tatsächlich verlassen Sie sich auf uns, wenn Ihre Systeme nicht erreichbar sind. Wir alle bei PagerDuty sind enttäuscht und bedauern diesen Ausfall.

Dies war ein Weckruf für uns. Wir werden das für Sie und Ihr Unternehmen in Ordnung bringen. Wir werden fleißig daran arbeiten, aus diesem Vorfall zu lernen, und wir sind entschlossen, ein besserer, stärkerer, widerstandsfähigerer und zuverlässigerer Partner zu werden. Das gesamte Team bei PagerDuty, von unseren Entwicklern und Betriebsteams über den Kundensupport bis hin zu Vertrieb, Service und unserem Führungsteam, ist bestrebt, Ihnen den besten Service zu bieten, und wir werden alles tun, um zu beweisen, dass Sie auch in Zukunft auf uns zählen können.

Bitte zögern Sie nicht, kontaktiere mich direkt oder kontaktieren Sie unseren Support-team wenn Sie Fragen oder Bedenken haben. Und bleiben Sie dran für unseren nächsten Beitrag am Montag, den 24. Oktober, in dem wir den gesamten zeitlichen Ablauf der Ereignisse behandeln werden.

Aufrichtig,

Alex Solomon
CTO & Mitgründer