Der Blog

Zeitplan für Dienstunterbrechungen am 21. Oktober 2016

von Tim Armandpour 24. Oktober 2016 | 3 Minuten Lesezeit

Am Freitag, den 21. Oktober 2016, kam es zu einem Ausfall von PagerDuty , gefolgt von einer Zeit der Leistungsbeeinträchtigung. Wir nehmen Ausfälle sehr ernst, insbesondere wenn sie unsere Kunden betreffen.

In diesem Beitrag fassen wir eine Zeitleiste der Ereignisse und Schritte zusammen, die unsere Ingenieure unternommen haben, um das Problem zu beheben. In einem Folgebeitrag morgen werden wir darlegen, welche Schritte wir unternehmen werden, um die Wahrscheinlichkeit ähnlicher Ausfälle in Zukunft zu verringern.

DNS-Nutzung bei PagerDuty

PagerDuty nutzt DNS für zwei Zwecke. Wir nutzen DNS hauptsächlich, um unseren Kunden Routing-Informationen für den Zugriff auf PagerDuty -Dienste bereitzustellen. Darüber hinaus nutzen wir DNS auch für die interne Kommunikation zwischen unseren Servern. Zum Zeitpunkt des Ausfalls nutzten wir unseren primären Anbieter für die Bereitstellung unserer externen und internen Routing-Informationen.

Was ist passiert

Zeitleiste der Ereignisse (Alle Zeiten in UTC)

16:00 – PagerDuty -Techniker werden über Fehler bei der Suche nach primären DNS-Providern informiert

16:04 – PagerDuty -Techniker bestätigen zeitweise fehlgeschlagene Suchanfragen für pagerduty.com

16:06 – Primärer DNS-Anbieter gibt Serviceverschlechterung bekannt

16:40 – PagerDuty Website, APIs, Benachrichtigungen, mobile Erlebnisse und Webhooks führen bei einem Teil unserer Kundenbasis zu Serviceeinbußen

17:00 – Sekundäre DNS-Provider-Nameserver für pagerduty.com veröffentlicht, insgesamt 8 Nameserver

17:16 – 2 von 4 Nameservern des primären DNS-Providers von pagerduty.com entfernt

17:17 – Die internen Server von PagerDuty können nicht miteinander kommunizieren, da der primäre DNS-Dienst nicht verfügbar ist

17:18 – PagerDuty Website, APIs, Benachrichtigungen, mobile Erlebnisse und Webhooks sind nicht für alle Kunden verfügbar

17:38 – Interne PagerDuty Server können miteinander kommunizieren, indem sie lokale /etc/hosts-Dateien auf allen PagerDuty Servern überschreiben.

17:40 – PagerDuty Website, APIs, Benachrichtigungen, mobiles Erlebnis und Webhooks erholen sich für die meisten Kunden

17:57 – 3 von 4 Nameservern des primären DNS-Providers von pagerduty.com entfernt

19:00 – Alle Nameserver des primären DNS-Providers wurden von pagerduty.com entfernt und der externe DNS-Verkehr wurde auf den sekundären DNS-Provider umgestellt

19:04 – PagerDuty Website, APIs, Benachrichtigungen, mobile Erlebnisse und Webhooks werden für alle Kunden wiederhergestellt

20:22 – PagerDuty Benachrichtigungsbestätigungen/-lösungen sind wieder voll funktionsfähig

Während des Ausfalls ergriffene Maßnahmen zur Schadensbegrenzung

Während des Ausfalls wechselten die PagerDuty -Techniker von unserem primären DNS-Anbieter zu unserem sekundären Anbieter. Dadurch erhielten unsere Kunden die richtigen Routing-Informationen. Probleme, die sich immer noch auf interne Server auswirkten, wurden behoben, indem Dateien auf allen unseren Servern aktualisiert wurden, um DNS zu umgehen.

Sofortige Maßnahmen nach einem Ausfall

Nach dem Ausfall und der anfänglichen Wiederherstellung haben die Techniker von PagerDuty Maßnahmen ergriffen, um unseren Rückstand an Ereignissen und Benachrichtigungen aufzuarbeiten. Während des Ausfalls wurden einige redundante Benachrichtigungen gesendet. Um dies zu beheben, haben unsere Techniker redundante Benachrichtigungen entfernt. Ungefähr zwei Stunden lang, nachdem wir den Dienst wiederherstellen konnten, konzentrierten wir uns darauf, Benachrichtigungen an unsere Kunden zu versenden.

Nachverfolgen

Morgen werden wir Maßnahmen veröffentlichen, die wir in den kommenden Tagen und Wochen ergreifen werden, um unsere DNS-Infrastruktur zu stärken. Obwohl dies ein einmaliges Ereignis war, haben wir hohe Erwartungen an die Qualität unserer Dienstleistungen und arbeiten daran, die Zuverlässigkeit und Verfügbarkeit unserer Systeme zu verbessern.

Wenn Sie in der Zwischenzeit weitere Fragen haben, wenden Sie sich bitte an unser Supportteam.