Der Blog

So führen Sie mit Slack und PagerDuty Automatisierung in die Reaktion auf Vorfälle ein

von Locker 24. Juni 2021 | 5 Minuten Lesezeit

Krisenmanagement-Räume für Großereignisse sind gleichbedeutend mit Stress. Druck von Führungskräften, die Suche nach der Nadel im Heuhaufen, zu viel Lärm – all das ist eine Belastung für Ihre hart arbeitenden technischen Teams.

Incident Responder benötigen eindeutig eine effektivere Methode zur Zusammenarbeit zwischen verschiedenen technischen Teams. Eine Methode, die Unterbrechungen minimiert und die Beteiligten auf dem Laufenden hält und gleichzeitig sicherstellt, dass jeder über den richtigen Kontext verfügt, um seine Arbeit zu erledigen.

Viele Organisationen verwenden bereits PagerDuty und Slack zusammen, um Bereitschaftskräfte schnell zu alarmieren, sind sich jedoch nicht bewusst, dass die Integration der beiden Apps die Lösung von der Meldung des Vorfalls bis zur Post-Mortem-Analyse beschleunigen kann. Engineering- und IT-Betriebsteams können:

  • Schnelles Aufbereiten von Vorfällen mit vollständigem Kontext für neue Einsatzkräfte
  • Optimieren Sie die Fehlerbehebung und minimieren Sie Unterbrechungen
  • Verwandeln Sie Erkenntnisse aus der Vorfallprüfung in sofortige Maßnahmen

Das kumulative Ergebnis ist eine kürzere durchschnittliche Reparaturzeit, weniger gestresste Techniker und letztlich zufriedenere Kunden. Sehen wir uns an, wie Benutzer von Slack und PagerDuty Vorfälle und Ausfallzeiten erfolgreich minimieren können.

Schnelles Einleiten eines Vorfalls

Sobald ein Vorfall gemeldet wurde, verkürzt die PagerDuty Integration für Slack die Zeit bis zum Beginn der Fehlerbehebung erheblich. Viele dieser Verbesserungen sind auf die Automatisierung zurückzuführen. Und so funktioniert es:

  1. Überwachungs- und APM-Tools senden Warnmeldungen über PagerDuty und in verschiedene Slack-Kanäle, die normalerweise einem bestimmten Team oder einer bestimmten App gewidmet sind (z. B. #team-web-app). Alternativ könnte Ihr Team einen einzelnen Warnmeldungskanal erstellen (z. B. #alerts-infra).
  2. Jemand, der Auswirkung und Schweregrad angemessen einschätzen kann, wird den Vorfall manuell melden und der Gruppe zusätzlichen Kontext bereitstellen. Dies kann ganz einfach per Mausklick im Slack-Kanal für Warnungen erfolgen.
  3. PagerDuty richtet automatisch einen neuen Vorfallkanal ein, der einfach nach Datum oder eindeutiger Kennung (z. B. #incident-___) durchsucht werden kann, und lädt alle Bereitschaftshelfer ein, die über Slack und andere Methoden (z. B. SMS) angepingt werden. Ein Zoom-Anruf wird automatisch gestartet und eine Nachricht (mit Links zum spezifischen Vorfallkanal und Zoom-Anruf) wird automatisch an einen allgemeinen #incidents-Kanal gesendet, um sicherzustellen, dass auch Nicht-Responder sichtbar sind.

Optimieren Sie die Fehlerbehebung

Vorfälle sind oft komplex und erstrecken sich über mehrere Systeme – Beobachtungsmetriken, Traces und Protokolle bieten viele verschiedene Perspektiven auf die Grundursache. Eine effektive teamübergreifende Zusammenarbeit und die Reduzierung von Störungen sind entscheidend, um Vorfälle schnell und richtig zu lösen. Zu diesem Zweck gibt es drei Möglichkeiten, wie Slack den Helfern dabei helfen kann, schnell auf den neuesten Stand zu kommen und gleichzeitig die Ablenkung ihrer Kollegen zu minimieren:

  1. Wenn neue Einsatzkräfte dem Vorfallkanal in Slack beitreten, können sie einfach nach oben scrollen und den vollständigen Verlauf dessen sehen, was bereits untersucht, ausgeschlossen und erreicht wurde, ohne laufende Untersuchungen zu unterbrechen. Alle wichtigen Statusaktualisierungen, Nachrichten und Dokumente werden übersichtlich oben im Kanal angeheftet, damit Sie schnell darauf zugreifen können. Neue Mitarbeiter kommen schnell auf den neuesten Stand, Troubleshooter konzentrieren sich auf die Lösung und Einsatzleiter verwalten den Vorfallprozess, nicht einzelne Anforderungen.
  2. In-Channel-Threads werden für schnelle und detaillierte Gespräche zu Unterthemen wie Leistungseinbußen oder Cloud-Infrastruktur gestartet. Durch das Threading dieser tieferen Einblicke können die Antwortenden parallele Untersuchungen durchführen, während der Hauptkanal sich auf wichtige Updates konzentriert. Wenn in einem Thread eine wichtige Erkenntnis oder Entscheidung getroffen wird, wird sie für alle sichtbar zurück in den Kanal gepostet.
  3. Emojis können Spaß machen, sind aber auch unglaublich schnell und informativ, wenn es darum geht, bei Vorfällen Eingaben und Genehmigungen einzuholen. Um kurze Notizen zu übermitteln, ohne unnötigen Lärm zu verursachen, können die Antwortenden Nachrichten einfach mit Emojis markieren. Beliebte Konventionen sind 👀 für „Ich schaue mir das an“, 👍 für „Ich stimme zu“ und ✅ für „Ich bin damit fertig.“

Verwandeln Sie Vorfallüberprüfungen in sofortige Maßnahmen

Effektive Vorfallüberprüfungen erfordern die Beteiligung mehrerer Teams, was bedeutet, dass ihre Organisation im besten Fall mühsam ist. Schlimmer noch: Bei der Durchführung von Überprüfungen führt mangelnde Gewissheit häufig zu Vermutungen, Voreingenommenheit und Schuldzuweisungen. So sollte es ablaufen:

  1. In der Hitze eines Vorfalls können die Helfer Nachrichten mit 📮 markieren, um eine Erkenntnis oder Aktion zu signalisieren, die während der Vorfallüberprüfung zu verfolgen ist. Wenn alles klar ist, kann ein Vorfallprüfer einfach in diesem bestimmten Kanal nach jeder Nachricht suchen, die mit diesem bestimmten Emoji markiert ist. Ihr Team könnte auch einen einfachen Workflow erstellen, der diese Nachrichten automatisch in einem dedizierten Kanal postet (z. B. #inc-review-insights). Es kann ein Thread oder sogar ein Kanal gestartet werden, um jede Erkenntnis zu diskutieren und sicherzustellen, dass darauf reagiert wird.
  2. Zur Durchführung der Überprüfung durchsucht ein Vorfallprüfer den Vorfallkanal, um einen zeitgestempelten Prüfpfad anzuzeigen, der genau zeigt, was passiert ist, welche Entscheidungen getroffen wurden, wer beteiligt war und welche Beobachtungsmetriken vorliegen. Vorfallüberprüfungssitzungen sind unkompliziert und handlungsorientiert, ohne Vermutungen oder Diskussionen über die Wahrheit.
  3. Jeder Vorfallkanal wird archiviert und aufbewahrt, sodass jeder (auch neue Mitarbeiter) schnell danach suchen und darauf verweisen kann, wenn in Zukunft ein ähnliches Problem auftritt.

Wandeln Sie vom reaktiven zum proaktiven Vorfallmanagement um

Ein effektiver Vorfallmanagementprozess ist nicht kompliziert oder schwer zu konfigurieren, kann aber für IT-Betriebs- und Engineering-Teams eine Menge Veränderungen bedeuten. Machen Sie den ersten einfachen Schritt und Installieren Sie die PagerDuty -App für Slack, um die Erstellung von Vorfallkanälen und die Einladung von Bereitschaftshelfern zu automatisieren. Von dort aus können Sie Ihren virtuellen Kriegsraum genauso betreiben wie heute und wichtige Entscheidungen und Zusammenfassungen zurück in den Kanal posten, wo alle Beteiligten und Helfer Einblick haben.

Wenn Sie mit der Echtzeit-Zusammenarbeit mit Slack vertrauter werden, können Sie nach und nach mehr Kommunikation und Teams (sogar Geschäftspartner) in den Prozess einbeziehen. Schon bald werden Sie mit PagerDuty und Slack MTTR und Ausfallzeiten deutlich reduzieren.

Kontaktieren Sie jemand bei Slack für einen maßgeschneiderten Plan, der die Art und Weise verändert, wie Sie Vorfälle bewältigen, bevor der nächste „große Vorfall“ passiert.