- PagerDuty /
- Der Blog /
- Ankündigungen /
- Zeitplan für Dienstunterbrechungen am 21. Oktober 2016
Der Blog
Zeitplan für Dienstunterbrechungen am 21. Oktober 2016
Am Freitag, den 21. Oktober 2016, kam es zu einem Ausfall von PagerDuty , gefolgt von einer Zeit der Leistungsbeeinträchtigung. Wir nehmen Ausfälle sehr ernst, insbesondere wenn sie unsere Kunden betreffen.
In diesem Beitrag fassen wir eine Zeitleiste der Ereignisse und Schritte zusammen, die unsere Ingenieure unternommen haben, um das Problem zu beheben. In einem Folgebeitrag morgen werden wir darlegen, welche Schritte wir unternehmen werden, um die Wahrscheinlichkeit ähnlicher Ausfälle in Zukunft zu verringern.
DNS-Nutzung bei PagerDuty
PagerDuty nutzt DNS für zwei Zwecke. Wir nutzen DNS hauptsächlich, um unseren Kunden Routing-Informationen für den Zugriff auf PagerDuty -Dienste bereitzustellen. Darüber hinaus nutzen wir DNS auch für die interne Kommunikation zwischen unseren Servern. Zum Zeitpunkt des Ausfalls nutzten wir unseren primären Anbieter für die Bereitstellung unserer externen und internen Routing-Informationen.
Was ist passiert
Zeitleiste der Ereignisse (Alle Zeiten in UTC)
16:00 – PagerDuty -Techniker werden über Fehler bei der Suche nach primären DNS-Providern informiert
16:04 – PagerDuty -Techniker bestätigen zeitweise fehlgeschlagene Suchanfragen für pagerduty.com
16:06 – Primärer DNS-Anbieter gibt Serviceverschlechterung bekannt
16:40 – PagerDuty Website, APIs, Benachrichtigungen, mobile Erlebnisse und Webhooks führen bei einem Teil unserer Kundenbasis zu Serviceeinbußen
17:00 – Sekundäre DNS-Provider-Nameserver für pagerduty.com veröffentlicht, insgesamt 8 Nameserver
17:16 – 2 von 4 Nameservern des primären DNS-Providers von pagerduty.com entfernt
17:17 – Die internen Server von PagerDuty können nicht miteinander kommunizieren, da der primäre DNS-Dienst nicht verfügbar ist
17:18 – PagerDuty Website, APIs, Benachrichtigungen, mobile Erlebnisse und Webhooks sind nicht für alle Kunden verfügbar
17:38 – Interne PagerDuty Server können miteinander kommunizieren, indem sie lokale /etc/hosts-Dateien auf allen PagerDuty Servern überschreiben.
17:40 – PagerDuty Website, APIs, Benachrichtigungen, mobiles Erlebnis und Webhooks erholen sich für die meisten Kunden
17:57 – 3 von 4 Nameservern des primären DNS-Providers von pagerduty.com entfernt
19:00 – Alle Nameserver des primären DNS-Providers wurden von pagerduty.com entfernt und der externe DNS-Verkehr wurde auf den sekundären DNS-Provider umgestellt
19:04 – PagerDuty Website, APIs, Benachrichtigungen, mobile Erlebnisse und Webhooks werden für alle Kunden wiederhergestellt
20:22 – PagerDuty Benachrichtigungsbestätigungen/-lösungen sind wieder voll funktionsfähig
Während des Ausfalls ergriffene Maßnahmen zur Schadensbegrenzung
Während des Ausfalls wechselten die PagerDuty -Techniker von unserem primären DNS-Anbieter zu unserem sekundären Anbieter. Dadurch erhielten unsere Kunden die richtigen Routing-Informationen. Probleme, die sich immer noch auf interne Server auswirkten, wurden behoben, indem Dateien auf allen unseren Servern aktualisiert wurden, um DNS zu umgehen.
Sofortige Maßnahmen nach einem Ausfall
Nach dem Ausfall und der anfänglichen Wiederherstellung haben die Techniker von PagerDuty Maßnahmen ergriffen, um unseren Rückstand an Ereignissen und Benachrichtigungen aufzuarbeiten. Während des Ausfalls wurden einige redundante Benachrichtigungen gesendet. Um dies zu beheben, haben unsere Techniker redundante Benachrichtigungen entfernt. Ungefähr zwei Stunden lang, nachdem wir den Dienst wiederherstellen konnten, konzentrierten wir uns darauf, Benachrichtigungen an unsere Kunden zu versenden.
Nachverfolgen
Morgen werden wir Maßnahmen veröffentlichen, die wir in den kommenden Tagen und Wochen ergreifen werden, um unsere DNS-Infrastruktur zu stärken. Obwohl dies ein einmaliges Ereignis war, haben wir hohe Erwartungen an die Qualität unserer Dienstleistungen und arbeiten daran, die Zuverlässigkeit und Verfügbarkeit unserer Systeme zu verbessern.
Wenn Sie in der Zwischenzeit weitere Fragen haben, wenden Sie sich bitte an unser Supportteam.