Der Blog

PagerDuty mit Remote Incident Response immer eingeschaltet lassen

von Dave Bresci 31. Juli 2020 | 4 Minuten Lesezeit

Anfang des Monats kam es in vielen Bereichen des Internets zu einem schwerwiegenden Zwischenfall, der durch eine Fehlkonfiguration des Routers eines häufig genutzten Dienstanbieters verursacht wurde. Dies führte zu kaskadierenden Dienstausfällen und verursachte bei mehreren bekannten SaaS-Organisationen weitreichende Ausfälle und Störungen.

Als der Ausfall auftrat, bemerkten unsere Teams bei PagerDuty sofort einen globalen Anstieg von Ereignissen und Vorfällen. Während es nicht ungewöhnlich ist, dass es innerhalb einiger Organisationen zu einem Anstieg von Warnungen oder Vorfällen kommt, sahen wir in diesem Fall eine ganze Reihe von Kundenereignissen aus mehreren Regionen. Das war besorgniserregend.

In Fällen, in denen wir einen ungewöhnlichen Anstieg der Anzahl an Vorfällen feststellen, richten wir proaktiv ein Reaktion auf schwerwiegende Vorfälle als Vorsichtsmaßnahme, um sicherzustellen, dass wir alle Mann zur Verfügung haben, um das Problem zu bekämpfen. Um sicherzustellen, dass unsere Helfer rechtzeitig benachrichtigt werden, verwenden wir die mobile App PagerDuty , um die erforderlichen Beteiligten sofort zu kontaktieren, wo auch immer sie sich befinden.

Da dieses spezielle Problem auftrat, während wir alle remote arbeiteten, nutzten wir Slack und Zoom, um eine Reaktion zu koordinieren. Mithilfe der Slack-Integration von PagerDuty hatten wir ein komplett remote arbeitendes Team aus Einsatzleitern, Fachexperten, Beteiligten und Schreibern, das von San Francisco, Toronto und Atlanta aus eine kollaborative Reaktion auf einen größeren Vorfall orchestrierte – und das alles in weniger als drei Minuten.

Unsere Einsatzleiter koordinierten die Maßnahmen, während der Kundensupport interne und externe Aktualisierungen verwaltete, Fachexperten die notwendigen Schritte diskutierten und Protokollanten den Reaktionsverlauf und die Kommunikation dokumentierten.

Glücklicherweise konnten wir schnell feststellen, dass unsere Systeme den abrupten Anstieg des Vorfallverkehrs bewältigen konnten, und den Anruf herunterfahren.

Die Bedeutung der Remote-Reaktion auf Vorfälle

Schwere Vorfälle wie dieser in einer vollständig dezentralen Arbeitsumgebung unterstreichen die Bedeutung und Kritikalität der Fähigkeit, einen Vorfall unabhängig vom Standort schnell zu erkennen, zu reagieren und als Team darauf zu reagieren. Bei PagerDuty ist eine Kultur der verteilten Arbeit und Reaktion seit dem ersten Tag in unsere Prozesse integriert. Wenn Sie sich unsere Dokumentation der Reaktion auf Vorfälle , Sie werden kein einziges Protokoll finden, das die physische Nähe eines Helfers während eines Einsatzes erfordert. Mit der PagerDuty -Plattform können Sie wirklich sofort auf Vorfälle reagieren und sie bearbeiten, egal wo Sie sind.

Wir nutzen außerdem Collaboration-Tools wie Slack und Zoomen um während eines Vorfalls in Echtzeit zu kommunizieren. In diesem speziellen Fall ist PagerDutys Slack-Integration wurde zu unserem zentralen Knotenpunkt für den Vorfallstatus und Stakeholder-Updates. Innerhalb von Slack konnten unsere Teammitglieder wichtige Stakeholder benachrichtigen, Rollen zuweisen und den Vorfall tatsächlich an einem zentralen, virtuellen Ort bearbeiten.

Abgesehen von diesem Vorfall kommt Slack unserem Reaktionsprozess zugute, selbst wenn ein Vorfall gelöst ist, da es uns bei unserem Post-Mortem-Prozess hilft. Der Schreiber verwendet die Slack-Integration, um alles zu dokumentieren und zu protokollieren, was während der Reaktion passiert ist; z. B. „vom Einsatzleiter genehmigte Formulierung für externe Statusaktualisierungen“. Dies ist nützlich, da jeder alles sehen kann, was passiert ist: wer reagiert hat, wer nicht, warum die Dinge auf diese Weise eskaliert wurden und so weiter. Dies gibt uns ein vollständiges Bild und Verständnis eines Vorfalls und ermöglicht es uns, unsere Prozesse zu verbessern, um noch schneller zu reagieren und zu lösen, wenn zukünftige Vorfälle unvermeidlich auftreten.

Unser Kultur des verteilten Engineerings ermöglicht es uns, sicherzustellen, dass PagerDuty für unsere Kunden immer verfügbar ist, egal was passiert. Indem wir PagerDuty als einzige Quelle der Wahrheit neben Kollaborationstools und klar definierten Praktiken verwenden, können wir von praktisch überall aus effektiv auf Vorfälle reagieren. In vielen Fällen könnte man meinen, dass der Übergang von der Orchestrierung im Büro zu einer virtuellen Reaktion eine Herausforderung wäre, aber mit PagerDuty ist es – größtenteils – wirklich alles wie gewohnt.

Um mehr darüber zu erfahren, wie Ihr Team PagerDuty für die Remote-Reaktion auf Vorfälle nutzen kann, Lesen Sie diesen Blog zur verteilten Kommunikation und probieren Sie PagerDuty selbst aus mit einem 14 Tage kostenlos testen.