Blog

Verbessern Sie die Reaktion auf Vorfälle, indem Sie die Kontrolle über Ihren (unintelligenten) Schwarm erlangen.

von Mandi Walls 18. Januar 2022 | 9 Minuten Lesezeit

Zwischenfälle passieren. Dinge laufen schief. Systeme versagen. Manchmal versagen sie auf unerwartete und dramatische Weise und führen zu schwerwiegenden Zwischenfällen. PagerDuty unterscheidet sehr genau zwischen einem Vorfall und ein Vorfall Auch Ihre Organisation kann eine solche Unterscheidung treffen.

Die Beurteilung, ob ein Vorfall schwerwiegend ist oder nicht, hängt von einer Reihe von Faktoren oder einer bestimmten Kombination von Faktoren ab, wie beispielsweise der Anzahl der betroffenen Dienste, den Auswirkungen auf die Kunden und der Dauer des Vorfalls.

Diese Faktoren setzen voraus, dass Ihre Organisation über grundlegende Telemetriedaten verfügt und die Beziehungen zwischen den Diensten Ihres technischen Ökosystems versteht. Ohne diese Basisdaten lassen sich die tatsächlichen Auswirkungen nur schwer abschätzen und die Ursachenforschung bei einem Vorfall ist schwierig.

Was passiert, wenn einer Organisation wichtige Daten fehlen? Ohne die folgenden Informationen wird es einer Organisation schwerfallen, auf Vorfälle zu reagieren:

  • Welche Dienste sind betroffen?
  • Wie stark sind sie betroffen?
  • Wem gehören diese Dienste?

Mangels dieser Daten entscheiden sich einige Organisationen für die Verwendung von Schwarm Vorgehensweise bei der Reaktion auf Zwischenfälle.

Schwarmverhalten vs. intelligentes Schwarmverhalten

Swarming ist ein Ansatz zur Reaktion auf Sicherheitsvorfälle, bei dem alle Mitarbeitenden der Organisation über ein Problem informiert werden und ein großer Krisenraum oder eine Telefonkonferenz eingerichtet wird, an der alle teilnehmen können, unabhängig von ihrem Potenzial, zur Problemlösung beizutragen. Um die Auswirkungen eines Vorfalls zu minimieren, ist es entscheidend, dass die richtigen Personen zum richtigen Zeitpunkt mobilisiert werden. Swarming ist das Gegenteil davon, die richtigen Personen zur richtigen Zeit am richtigen Ort zu haben – es betrifft einfach alle, und zwar die ganze Zeit.

Der Begriff intelligent Schwärmen wird verwendet, um einen Arbeitsablauf für die Bearbeitung von Kundendienstanfragen, insbesondere von VIPs, zu bezeichnen, worüber wir bereits gesprochen haben. Anfang dieses Monats Es handelt sich um einen etwas anderen Ansatz, der vorsieht, dass das Teammitglied, das den Fall zuerst übernommen hat, ihn bis zur Lösung begleitet und Ressourcen aus dem gesamten Unternehmen zur Problemlösung hinzuziehen kann. Obwohl er mit einem allgemeinen Reaktionsschwarm verwandt ist, konzentriert sich ein intelligenter Schwarm in der Regel auf einen einzelnen Kunden und dessen Kundenerlebnis.

Bei der Reaktion auf einen allgemeinen technischen Vorfall ist das Zusammenwirken aller Beteiligten vergleichbar mit dem Auslösen eines Feueralarms: Jeder ist in höchster Alarmbereitschaft und wird zur Reaktion aufgefordert. Im Wesentlichen wird eine Benachrichtigung an alle Personen gesendet, die auch nur über irgendwelche Kenntnisse verfügen könnten, mit der Bitte, sich an der Reaktion zu beteiligen. Anschließend beginnt der mühsame Prozess, herauszufinden, wer die Prioritäten setzen und das Problem beheben kann.

Organisationen reagieren oft überhastet, weil ihnen Informationen über ihre Dienstleistungen und ihr Ökosystem fehlen oder ihre Kommunikationsprozesse zur Information der Stakeholder unzureichend sind. Im Fehlerfall weiß niemand genau, worin das Problem besteht, wo es auftritt oder wer es beheben kann. Daher wird jeder mobilisiert, in der Hoffnung, wichtige Informationen beisteuern zu können. Dies führt zu enormen Kosten. Arbeitsabläufe werden gestört, Aufgaben und Meetings verschoben, und Ressourcen werden ungenutzt gelassen. Hunderte von Menschen werden mobilisiert, um auf einen Vorfall zu reagieren, den nur wenige tatsächlich bewältigen können, anstatt ungestört weiterzuarbeiten und die notwendigen Informationen zu erhalten.

Auch das Schwarmverhalten ist problematisch. Große Einsätze mit vielen Helfern können unübersichtlich und verwirrend sein. Das Schwarmverhalten verlangsamt die Wiederherstellung nach Vorfällen, da es keine klare Koordination oder Verantwortlichkeiten gibt. Informationen strömen aus allen Richtungen ohne zentrale Organisation oder Entscheidungsinstanz. Teams versuchen möglicherweise, ihre eigenen Dienste zu reparieren, ohne die Auswirkungen auf andere Dienste vollständig zu verstehen. Das Schwarmverhalten ist einer der Gründe, warum wir eine explizite Einsatzleitungspraxis – um Verwirrung zu vermeiden und eine möglichst schnelle Lösung des Vorfalls zu ermöglichen, ohne die Situation zu verschlimmern.

Das sogenannte „Schwarmverfahren“ kann beruhigend wirken, da das Team glaubt, bei einem Vorfall vom ersten Alarm an alle benötigten Personen zur Verfügung zu haben, anstatt erst dann weitere hinzuzuziehen, wenn sich herausstellt, dass ihre Systeme betroffen sind. Eine Verbesserung des Bereitschaftsverhaltens mindert die Befürchtung, dass niemand zur Behebung des Problems verfügbar sein könnte. Eine klar definierte Bereitschaftsrotation mit festgelegten Verantwortlichkeiten ist für die Einsatzkräfte weniger stressig als die ständige Sorge, dass jederzeit ein Alarm ausgelöst werden könnte. Wenn Einsatzkräfte wissen, dass sie an bestimmten Tagen und zu bestimmten Zeiten Bereitschaftsdienst haben, können sie im Voraus planen. Auch im Schwarmverfahren besteht die Möglichkeit, dass die benötigte Person nicht verfügbar ist – schließlich kann niemand rund um die Uhr, 365 Tage im Jahr, Bereitschaftsdienst leisten.

Weiter geht es mit dem Schwarm.

Um Ihre Prozesse von unstrukturiertem Arbeiten zu optimieren, müssen Sie die Denkweise Ihres Teams in Bezug auf Services und die zuständigen Teams ändern. Bei PagerDuty bezeichnen wir diese Vorgehensweise als „Vollständige Serviceverantwortung“. Weitere Informationen dazu finden Sie in unserer [Website/Dokumentation/etc.]. Operationsleitfaden Im Kontext einer koordinierten Reaktion auf einen Vorfall bedeutet die Zuständigkeit für einen Dienst Folgendes:

  1. Ein einzelnes Team trägt die volle Verantwortung für den Service, einschließlich seiner Leistungsfähigkeit in der Produktionsumgebung.
  2. Dieses Team verfügt über einen dokumentierten Prozess zur Meldung von Problemen mit diesem Dienst. Im Allgemeinen entspricht dies Ihrem Bereitschaftsplan.
  3. Die vom Dienst verwendeten Abhängigkeiten sind dokumentiert.

Ihre Organisation verfügt möglicherweise über Dienste, denen derzeit kein eindeutiger Verantwortlicher zugeordnet ist. Dabei kann es sich um ausgereifte oder ältere Projekte handeln, die keine aktive Weiterentwicklung oder Betreuung mehr erfordern. Es können Standardsoftwareprodukte (COTS) sein, die in Zusammenarbeit mit dem Anbieter gewartet werden, SaaS-Lösungen oder auch interne Dienste, die aufgrund von Organisationsänderungen nicht mehr benötigt werden. Befinden sich diese Dienste in Ihrer Produktionsumgebung, sollten Teams mit deren Überwachung beauftragt werden, selbst wenn dies zunächst nur die Anmeldung des Teams zu den Updates des Anbieters erfordert. Jeder in Ihrer Umgebung laufende Dienst sollte einem explizit verantwortlichen Team zugeordnet sein – diese Dienste können weiterhin von Störungen betroffen sein oder Wartungsarbeiten wie Sicherheitsupdates benötigen. Einige Organisationen verfügen über Legacy-Engineering-Teams oder Plattform-Engineering-Teams, die für diese Dienste zuständig sind.

Die Zuordnung von Diensten zu einem einzigen Team reduziert die Verwirrung darüber, wer in der IT-Umgebung wofür zuständig ist. Teams können neue Mitglieder in den von ihnen betreuten Diensten schulen und sie gemäß den wichtigsten Service-Level-Objectives (SLOs) verwalten. Ein Dienstverzeichnis mit einer entsprechenden Team-Verantwortlichkeitsstruktur, das die zu benachrichtigenden Ansprechpartner auflistet, bietet jedem im Unternehmen eine Anlaufstelle bei Problemen. In PagerDuty setzen wir dies um mit Teams Und Eskalationsrichtlinien befestigt an Dienstleistungen Die

Die Eskalationsrichtlinie legt fest, wer bei Störungen eines Dienstes zur Verfügung stehen soll. Der zuständige Mitarbeiter sollte über Kenntnisse des betroffenen Dienstes verfügen und die erforderlichen Zugriffsrechte besitzen, um das Problem zu analysieren und zu beheben.

Ein klares Abhängigkeitsmodell stellt die Beziehungen zwischen den Diensten dar, sodass Einsatzkräfte, Support und Stakeholder ein klares Bild davon erhalten, wie sich ein Vorfall bei einem Dienst auf andere Dienste in der Umgebung auswirken kann. PagerDuty geht noch einen Schritt weiter und bietet Geschäftsdienstleistungen , das die technischen Dienste nicht nur untereinander, sondern auch mit den kundenorientierten Funktionen, zu denen sie beitragen, verknüpft. Alle technischen und geschäftlichen Dienste werden auf der Servicegraph sowie ein praktischer Link zu dem Teammitglied, das aktuell für diesen Service im Bereitschaftsdienst ist.

Der Aufbau dieser Infrastrukturdaten, insbesondere des Abhängigkeitsmodells, kann sehr aufwendig sein, wenn sie für einen Dienst nicht aktuell gehalten wurden. Die vollen Auswirkungen eines Vorfalls auf einen Backend-Dienst zu ermitteln, ist jedoch unmöglich, wenn das Team nicht weiß, welche anderen Dienste den betroffenen Dienst nutzen.

Auch der Kundensupport profitiert von dieser Arbeit. Intelligentes Schwarmmanagement setzt voraus, dass alle relevanten Informationen dem Supportteam jederzeit zur Verfügung stehen. Wenn Ihre Kunden eine Lösung benötigen, muss Ihr Team alle relevanten Informationen schnell finden und die richtigen Ansprechpartner mobilisieren können.

Verbesserung der Kommunikation bei Zwischenfällen

Die Reaktion auf Sicherheitsvorfälle ist alles andere als spannend – die Behebung eines Vorfalls ist oft wenig aufregend. Es kann lange dauern, bis Prüfungen und Prozesse abgeschlossen sind, Fehlermeldungen verfolgt oder Neustarts durchgeführt werden. Währenddessen ändert sich nicht viel. Doch auch diejenigen, die nicht direkt an der Behebung beteiligt sind, möchten wissen, was vor sich geht. Das Fehlen eines soliden Kommunikationsplans für Sicherheitsvorfälle ist ein weiterer Grund, warum Teams auf Massenkommunikation zurückgreifen. Wer wissen will, was los ist, kann nur durch die Teilnahme an der Telefonkonferenz und das Zuhören informiert werden, egal wie lange die Behebung dauert.

Ein gut durchdachter, im Voraus festgelegter Kommunikationsplan für größere Vorfälle erfüllt zwei Funktionen: Er hilft internen Nutzern, über die aktuelle Lage informiert zu bleiben, und hält externe Nutzer auf dem Laufenden. In unserem Leitfaden zur Reaktion auf Zwischenfälle Wir legen zwei Rollen für die Kommunikation während eines Vorfalls fest: die Kundenbetreuung und die interne Verbindung Es ist zu erwarten, dass Sie für diese beiden Gruppen unterschiedliche Updates bereitstellen. Je nach Organisation müssen die öffentlichen Veröffentlichungen zu einem Vorfall möglicherweise geprüft werden oder eine bestimmte Formulierung verwenden. Die Erstellung von Vorlagen und die Zuweisung von Kommunikationsbeauftragten an bestimmte Teammitglieder erleichtern dies. Ihre interne Kommunikation wird wahrscheinlich detailliertere Informationen enthalten, damit andere Teams feststellen können, ob ihre Dienste betroffen sein könnten.

Die besten Pläne basieren darauf, alle Beteiligten regelmäßig zu informieren. Durch frühzeitige und häufige Kommunikation wissen alle, dass an der Situation gearbeitet wird und dass sie informiert werden, sobald die Probleme behoben sind.

Man muss nicht mit einem NOC zusammenkommen.

Die Umstellung auf ein modernes Incident-Response-Modell ist möglich, wenn Ihr erstes Reaktionsteam ein allgemeines NOC-Team ist. Durch die explizite Zuständigkeit für bestimmte Services kann das NOC komplexe Probleme an die Serviceteams eskalieren, wenn es selbst einen Vorfall nicht beheben kann. Das NOC hat somit einen direkten Draht zu den zuständigen Fachexperten – die Kontaktaufnahme mit dem diensthabenden Mitarbeiter des Teams, das für Service A zuständig ist, ist wesentlich einfacher, als eine Vielzahl von Mitarbeitern aus dem gesamten Unternehmen zusammenzutrommeln.

Zusammenfassung

Die Modernisierung Ihrer Reaktionsmethoden spart Ihrem Unternehmen Zeit und Ressourcen. PagerDuty-Kunden mögen SAFT ernten die Vorteile, nur die benötigten Einsatzkräfte zum richtigen Zeitpunkt zu mobilisieren, um sich auf eine möglichst effektive Reaktion konzentrieren zu können.

Wenn Ihr Team nach einer Möglichkeit sucht, die Lösungszeiten zu verkürzen und die Notwendigkeit umfangreicher Schwarminitiativen zu reduzieren, schauen Sie sich unsere Ressourcen in unserem Bereich an. Leitfaden für die Reaktion auf Vorfälle Ich bin mir nicht sicher, was alles benötigt wird für Vollservice-Besitz Schauen Sie sich unsere Video und schauen Sie doch mal bei uns vorbei Community-Foren um sich mit Gleichgesinnten auszutauschen.