Der Blog

So nutzen wir PagerDuty für Notfallmaßnahmen

von Ryan Hoskin 17. März 2020 | 4 Minuten Lesezeit

PagerDuty ist als Plattform für die Durchführung von Echtzeitarbeit bekannt und angesichts der aktuellen weltweiten Verbreitung von COVID-19 haben viele unserer Kunden gefragt, wie wir PagerDuty intern nutzen, um eine Reaktion auf Notfallsituationen (wie diese) intelligent zu koordinieren, sobald diese auftreten.

PagerDuty Kunden nutzen unsere Plattform in erster Linie für die Koordination eines Vorfallreaktionsprozess wenn technische Probleme auftreten, wie z. B. eine fehlerhafte Bereitstellung, eine Verschlechterung des Netzwerks oder ein Hardwarefehler. Viele unserer Kunden haben auch erkannt, dass dieser Vorfallreaktionsprozess auf andere geschäftsbeeinträchtigende Vorfälle angewendet werden kann, und haben begonnen, PagerDuty für andere Anwendungsfälle zu verwenden, z. B. für die Arbeit mit hochkarätigen Kundensupporttickets, Sicherheitsproblemen oder sogar Notfallsituationen wie der, die wir derzeit beim Ausbruch von COVID-19 erleben.

Im Rahmen unserer Krisenkommunikationsplan haben wir mehrere Szenarien identifiziert, in denen der Einsatz von PagerDuty von Vorteil wäre, um unsere Reaktionsfähigkeit auf größere Vorfälle bei PagerDuty zu beschleunigen:

  • Benachrichtigen Sie unser Krisenkommunikationsteam, dass möglicherweise ein dringendes Problem vorliegt, das seine Aufmerksamkeit erfordert.
  • Informieren Sie unsere Mitarbeiter über den Status eines schwerwiegenden Vorfalls.

Szenario 1: Benachrichtigung unseres Krisenkommunikationsteams über ein dringendes Problem

Es ist von entscheidender Bedeutung, dass unser Krisenkommunikationsteam über geschäftsbeeinträchtigende Vorfälle informiert wird, damit wir interne Störungen minimieren und sicherstellen können, dass wir externe Stakeholder auf dem Laufenden halten können. Unser Krisenkommunikationsteam besteht aus Mitarbeitern unserer Teams für Personalwesen, Geschäftsführung, Recht, Marketing und Einrichtungen.

Innerhalb von PagerDuty ist die Konfiguration zur Benachrichtigung der Krisenkommunikationsgruppe relativ unkompliziert.

  • Wir haben eine Service- und Eskalationsrichtlinie speziell für diese Gruppe. Sie ist mit einer E-Mail-Adresse verknüpft, sodass die Leute einen Vorfall ganz einfach per E-Mail (sowie über unsere Mobil- oder Webanwendungen) auslösen können.

  • Alle Mitglieder des Krisenkommunikationsteams sind auf der ersten Ebene eines Eskalationsrichtlinie , und alle haben Mehrere Benachrichtigungsregeln die so eingerichtet sind, dass sie sofort benachrichtigt werden, wenn ein Vorfall ausgelöst wird. Hinweis: Es ist wichtig, dass alle Benutzer über mehrere Benachrichtigungsregeln verfügen, die sie aus Redundanzgründen sofort benachrichtigen und sicherstellen, dass sie über den Vorfall benachrichtigt werden, auch wenn einer ihrer Kollegen den Vorfall bestätigt, bevor sie ihre Benachrichtigung erhalten.
  • Der Dienst ist außerdem konfiguriert mit einem Konferenzbrücke , das dabei hilft, das Team zusammenzubringen, um Probleme in Echtzeit über Tools wie Zoom zu lösen.
  • Unser Slack-Integration wird verwendet, um Stakeholder in einem privaten Slack-Kanal auf dem Laufenden zu halten.

Szenario 2: Unsere Mitarbeiter über einen schwerwiegenden Vorfall auf dem Laufenden halten

Bei Großereignissen wie dem Ausbruch von COVID-19 ist es wichtig, dass wir mit allen unseren Mitarbeitern kommunizieren, während sich die Situation schnell ändert. Da PagerDuty ein globales Unternehmen ist, haben wir eine Konfiguration entwickelt, mit der wir bei Bedarf mit jeder Region kommunizieren können. Nachfolgend finden Sie einige Details zur Einrichtung.

  • Wir haben für jede Region zwei Dienste eingerichtet: einen für die Kontaktaufnahme mit der Unternehmensleitung und einen für die Kommunikation mit allen Mitarbeitern. Wir haben auch Dienste für die Kommunikation mit unseren leitenden und leitenden Führungsteams eingerichtet.
  • Jeder Dienst verfügt über eine E-Mail-Integration, sodass Vorfälle per E-Mail oder über unsere Webanwendung oder mobile App ausgelöst werden können.
  • Wir haben drei Eskalationsstufen für jede Region. Von diesen Leuten wird erwartet, dass sie eine Reaktion auf jeden Vorfall erleichtern und koordinieren, ähnlich wie die Einsatzleiter Rolle bei einem technischen Vorfall.
  • Alle Mitarbeiter einer Region werden in Teams eingeteilt.
  • Jeder Dienst ist außerdem so konfiguriert, dass er automatisch einen Antwort spielen bei der Ticketerstellung. Das Antwortspiel ist so konfiguriert, dass das regionale Team als Stakeholder-Benutzer , und sie werden sofort benachrichtigt, wenn ein Update vorliegt.

  • Im weiteren Verlauf der Situation versenden die Vorfallverantwortlichen Statusaktualisierungen, durch die alle Mitarbeiter (Abonnenten) benachrichtigt werden.
  • Sobald der Vorfall behoben ist, wird der Vorfallbesitzer den PagerDuty Vorfall beheben.

Durch diese beiden Arbeitsabläufe können wir sicherstellen, dass wir schnell und effizient das richtige Team mit dem Problem beauftragen und alle betroffenen Parteien auf dem Laufenden halten können. Sollten Sie Fragen haben oder Hilfe bei der Konfiguration Ihres PagerDuty Kontos benötigen, damit Ihr Team auf kritische Probleme reagieren kann, kontaktieren Sie uns bitte unter support@pagerduty.com .