Der Blog

Die vier Vereinbarungen der Vorfallreaktion

von Matt Stratton 4. März 2019 | 10 Minuten Lesezeit

(Dieser Blogbeitrag ist inspiriert von dem Vortrag, den ich halten werde bei DevOps Talks-Konferenz Melbourne Und DevOps Talks-Konferenz in Auckland . Hoffe Sie dort zu sehen!)

Haben Sie schon einmal an einem dieser Telefongespräche mit mehreren anderen Menschen teilgenommen, bei denen Sie sich gegenseitig fast anschreien, während Sie versuchen, ein Problem zu beheben, bei dem etwas schief läuft, das sofort behoben werden muss? Hat Ihnen diese Erfahrung wirklich Spaß gemacht und möchten Sie das immer wieder tun?

Ich vermute nein.

Die Lösung von Vorfällen kann ein wirklich schwieriger Prozess sein, aber es gibt Möglichkeiten, ihn weniger stressig zu gestalten – und die Rolle des Einsatzleiters spielt dabei eine Schlüsselrolle.

In seinem Buch Die vier Versprechen , Don Miguel Ruiz stellt einen auf der alten Weisheit der Tolteken basierenden Verhaltenskodex vor, der dabei hilft, selbstbeschränkende Strukturen und Überzeugungen abzubauen.

Die vier Vereinbarungen sind:

  1. Seien Sie tadellos mit Ihrem Wort
  2. Nehmen Sie nichts persönlich
  3. Machen Sie keine Annahmen
  4. Gib immer dein bestes

Jede der Vereinbarungen kann uns helfen, einen ausgereifteren, effektiveren und menschlicheren Ansatz für die Reaktion auf Vorfälle in unseren Organisationen zu verstehen. Die Vereinbarungen können als Modalität für die Reaktion auf Vorfälle ausgedrückt werden. Mithilfe der Vereinbarungen ist es einfacher, moderne Ansätze zur effektiven Lösung von Vorfällen zu verstehen und sogar Burnout vorzubeugen!

Seien Sie tadellos mit Ihrem Wort

Stakeholder benachrichtigen

Es ist von entscheidender Bedeutung, die Beteiligten weiterhin in den Vorfallreaktionsprozess einzubinden, indem man ihnen die Möglichkeit gibt, auf dem Laufenden zu bleiben.

Bei PagerDuty haben wir einen separaten Slack-Raum nur für Vorfall-Updates . Es ist weniger laut als in unserem Hauptantwortraum und die Leute können hier, wenn sie es wünschen, prägnante Updates erhalten, die vom internen Verbindungsmann (der für die Überwachung und Aktualisierung des Kanals verantwortlich ist) bereitgestellt werden. So können Führungskräfte auf dem Laufenden bleiben und Fragen stellen, ohne die Hauptantwort zu beeinträchtigen.

Jeder kann eine Reaktion auf einen Vorfall auslösen

Bei PagerDuty kann jeder unseren Vorfallreaktionsprozess auslösen. Wir machen das mit einem Chat-Befehl in Slack, aber es ist eigentlich egal, wie Sie das implementieren. Wichtig ist, dass Sie eine Methode haben, um Ihren Vorfallreaktionsprozess auszulösen – eine, die schnell, einfach und für jeden verfügbar ist. Sie möchten nicht herumsitzen und Zeit damit verschwenden, herauszufinden, ob etwas eine Antwort erfordert, denn bis Sie es tun, werden Sie definitiv feststellen, dass eine Antwort erforderlich ist.

Streiten Sie nicht über die Schwere

Diskutieren Sie während des Anrufs nicht über den Schweregrad des Vorfalls. Das ist Zeitverschwendung. Wenn Sie mit der Diskussion fertig sind, ob es sich um einen SEV-1 oder SEV-2 handelt, wird es definitiv ein SEV-2 sein. Best Practice: Wenn Sie sich nicht entscheiden können, ob es sich um einen SEV-1 oder SEV-2 handelt, gehen Sie immer davon aus, dass es sich um die Option mit dem höheren Schweregrad handelt, und fahren Sie fort.

Nehmen Sie nichts persönlich

Umstellung der Denkweise

Sobald ein Vorfall ausgelöst wird, muss das Team eine mentale Umstellung vornehmen – mit anderen Worten, jeder muss seine Denkweise ändern. Man könnte dies als den Unterschied zwischen „Friedenszeiten und Kriegszeiten“ oder „Normalzustand und Notfall“ betrachten. Dinge, die im Alltagsbetrieb nicht akzeptabel sind, werden im Notfall akzeptabel.

Das bedeutet, dass sich während eines Vorfalls vieles ändert. Und eines dieser Dinge hat mit der Art und Weise zu tun, wie Sie kommunizieren. Das bedeutet nicht, dass Sie einander schlecht behandeln sollten. Aber Sie sollten sich auf Ihr Ziel konzentrieren, nämlich die Situation so zu handhaben, dass der Schaden begrenzt und Wiederherstellungszeit und -kosten reduziert werden.

Der Einsatzleiter ist die höchste Autorität

Wenn Ihr Team einem Vorfallreaktionsprozess ähnlich dem von PagerDuty wird jemandem eine Rolle zugewiesen, die als Einsatzleiter (IC).

Eines der wichtigsten Dinge, die Sie über den IC wissen sollten, ist, dass er die höchste Autorität bei dem Anruf ist. Er ist die ultimative Quelle der Wahrheit während eines Vorfalls, und keine Maßnahmen sollten ohne seine Zustimmung erfolgen. Dies ist für eine erfolgreiche Reaktion auf Vorfälle von entscheidender Bedeutung, kann jedoch einige Zeit dauern, bis man sich daran gewöhnt hat. Bereiten Sie Ihre Organisation unbedingt darauf vor, bevor es während eines Vorfalls passiert. Nehmen Sie das nicht persönlich – es ist die Funktion dieser Rolle.

Der Einsatzleiter ist kein Problemlöser

Bei PagerDuty basiert unser Vorfallreaktionsprozess auf dem Incident Command System, einem nationalen Modell, das von lokalen, staatlichen und bundesstaatlichen Notfallhelfern verwendet wird. Bei Feuerwehren trägt der Einsatzleiter einen weißen Helm, um ihn als solchen zu identifizieren. Es gibt ein Sprichwort, das besagt: Wenn Sie jemanden mit einem weißen Helm einen Schraubenschlüssel aufheben sehen, nehmen Sie ihn ihm weg und schlagen Sie ihm damit auf den Kopf.

Dasselbe Konzept gilt bei PagerDuty während eines Vorfalls. (Vielleicht abzüglich des Schlags auf den Kopf.) Die Aufgabe des IC besteht darin, zu delegieren und zu koordinieren, nicht die Arbeit zur Lösung des Vorfalls zu erledigen. Es ist entscheidend, dass der IC nicht in die Rolle eines Fachexperten schlüpft, der sich bei Servern anmeldet oder Protokolle überprüft.

Auch wenn Sie Ihre ICs nicht mit einem Schraubenschlüssel schlagen sollten, ist es dennoch angebracht, sie manchmal daran zu erinnern, dass sie nicht direkt versuchen sollten, den Vorfall zu lösen. Wenn Sie ein IC sind und jemand Sie daran erinnert, nehmen Sie es nicht persönlich!

Führungswechsel

Während eines Vorfalls versuchen Führungskräfte möglicherweise, die Leitung zu übernehmen, was den Einsatzkräften die Arbeit erschwert. Die Lösung dieses Problems ist einfach: Lassen Sie sie die Leitung übernehmen. Der IC sollte fragen: „Übernehmen Sie die Leitung des Anrufs?“ Wenn die Antwort „Ja“ lautet, ist das großartig. Meistens sagen sie jedoch nichts und das Team kann sich auf die Lösung des Vorfalls konzentrieren.

Dieser Ansatz kann schwierig sein, da nicht alle Mitglieder der Geschäftsleitung positiv auf einen IC reagieren, der bei der Telefonkonferenz einen höheren Rang hat als sie. Deshalb ist es wichtig, die Geschäftsleitung im Voraus vorzubereiten! Bedenken Sie jedoch, dass auch nach einer Besprechung noch einige Anpassungen erforderlich sein können.

Es kann auch vorkommen, dass ein Vorgesetzter verlangt, dass der Vorfall „innerhalb der nächsten 10 Minuten“ gelöst wird. Auch wenn das wirklich demotivierend klingen kann, wenn es passiert, bleiben Sie professionell. Sagen Sie: „Wir sind gerade dabei, einen Vorfall zu lösen. Bitte heben Sie Ihre Kommentare bis zum Schluss auf“ oder leiten Sie sie an den entsprechenden Kommunikationskanal/Kontakt weiter.

Denken Sie daran, dass Ihre Führungskräfte nicht versuchen, die Situation zu verschlimmern, sondern Ihnen helfen wollen. Nehmen Sie es nicht persönlich.

Machen Sie keine Annahmen

Konsens ist schwer

Es kann schwierig sein, bei einem Anruf die Zustimmung einer großen Gruppe von Problemlösern zu erhalten. Sie möchten daher die Mehrheit optimieren. Anstatt zu fragen, ob alle mit einer Aktion einverstanden sind, sollten Sie daher besser fragen: „Gibt es starke Einwände?“. Dies kann auch den Rückschaueffekt („Ich wusste, dass das nicht funktionieren würde“) verhindern und betonen, dass wir nicht nach der perfektesten Lösung suchen.

Klar ist besser als prägnant

Wenn wir viel Fachjargon verwenden (z. B. „Lasst uns den IC auf den RC bringen und ein paar BLTs für alle KMU besorgen“), verursachen wir eine große kognitive Überlastung. Das kann auch dazu führen, dass sich Neulinge ausgeschlossen fühlen. Bevorzugen Sie klare Kommunikation statt knapper.

Weisen Sie Aufgaben einer bestimmten Person zu und legen Sie dafür Zeitrahmen fest

Im obigen Screenshot sind einige wichtige Punkte zu beachten:

  • Aufgaben werden bestimmten Personen und nicht einer Gruppe zugewiesen.
  • Legen Sie für die Aufgaben eine Zeitbegrenzung fest, damit der Antwortende weiß, wann Sie nach einem Update suchen, und nicht überrascht wird.
  • Stellen Sie sicher, dass die Abtretung bestätigt wurde.

Wenn Sie diese bewährten Vorgehensweisen befolgen, können Sie den „Zuschauereffekt“ vermeiden. Denken Sie daran, dass bei einem Vorfall der Satz „Kann jemand…“ tödlich sein kann.

Gib immer dein bestes

Es ist besser, die falsche Entscheidung zu treffen als keine Entscheidung

Dies ist eine wirklich kontroverse Aussage, aber denken Sie daran, dass wir die Regeln während eines Vorfalls ein wenig ändern. Wenn Sie eine falsche Entscheidung treffen, erhalten Sie mehr Informationen, weil Sie aus Ihren Fehlern lernen können. Wenn Sie hingegen keine Entscheidung treffen, bleiben Sie in einer Analyselähmung stecken.

Schnell sammeln, schneller auflösen

Ressourcen, die nicht benötigt werden, am Telefon zu halten, kann sehr kostspielig werden, sowohl in Bezug auf Geld als auch Energie. Sobald Sie jemanden nicht mehr brauchen, fordern Sie ihn auf, das Gespräch zu beenden (Sie können ihn jederzeit wieder einladen, wenn Sie ihn wieder brauchen). Wenn Leute am Telefon sind, die nicht aktiv an dem Vorfall arbeiten, ist das für die Leute, die aktiv arbeiten, stressig, da sie wissen, dass viele Leute in der Leitung sitzen und ungeduldig werden. Behalten Sie die Ressourcen, die Sie brauchen, aber haben Sie keine Angst, Leute gehen zu lassen.

Übergaben werden gefördert

Werden Einsatzkräfte müde? Werden ICs müde? Natürlich werden sie das! Wir sind alle nur Menschen. Deshalb fördern wir bei PagerDuty Übergaben. Die Übergabe der Verantwortung an einen neuen IC ist ganz einfach: Bringen Sie den neuen IC dazu, Sie ein wenig zu begleiten, damit er sich einarbeiten kann, was vor sich geht, und informieren Sie alle, dass eine Übergabe stattfindet. So einfach ist das wirklich.

Nützliche Postmortem-Analysen

Egal, ob Sie es Obduktion, Vorfallbericht, Lernerfolgsüberprüfung (oder anders) nennen: Wichtig ist, sie bei jedem Vorfall durchzuführen.

Postmortem-Analysen sollten einem schuldlosen Ansatz folgen , aber es ist auch wichtig, dass Ihre Organisation und Ihr Team daraus lernen. Füllen Sie nicht einfach nur das Formular aus. Überprüfen Sie die Berichte. Teilen Sie die Geschichten innerhalb Ihrer Organisation (vielleicht sogar außerhalb Ihres Teams). Dies fördert eine Lernkultur und hilft, Stress abzubauen. Postmortems, die nur aus schriftlichen Berichten bestehen, helfen niemandem.

Weitere Einzelheiten zur Durchführung einer erfolgreichen Post-Mortem-Analyse finden Sie in unserem neuen Postmortem-Leitfaden .

Überprüfen Sie Ihren Prozess

Kontinuierliche Verbesserung ist wichtig! Egal, ob Sie Ihren Prozess vierteljährlich oder jährlich überprüfen, es ist wichtig, dass Sie dies tun, um sich kontinuierlich zu verbessern. Machen Sie das Beste aus Überprüfungen, indem Sie die richtigen Fragen stellen, um sicherzustellen, dass Ihr Prozess für Ihr Unternehmen geeignet ist, während Sie wachsen und reifen.

In einer kleineren Organisation kann es beispielsweise sinnvoll sein, bei jedem kritischen Vorfall alle Mitarbeiter zu benachrichtigen (wenn Sie beispielsweise nur eine Handvoll Ingenieure haben) und dann die Leute zu entlassen, die nicht benötigt werden. Dies ist jedoch nicht skalierbar, wenn die Organisation größer wird, und es ist wichtig, den Prozess anzupassen. Stellen Sie weiterhin Fragen zu Ihrem Prozess und scheuen Sie sich nicht, ihn zu verfeinern.

Keine Panik

Es ist ganz natürlich, bei einem größeren Vorfall in Panik zu geraten. Mitten in der Nacht von Alarmen geweckt zu werden, kann ziemlich stressig sein. Aber egal, wie nervös und aufgeregt Sie innerlich sind, versuchen Sie Ihr Bestes, es sich nicht anmerken zu lassen. Panik ist ansteckend, und wenn Sie als IC Symptome davon zeigen, kann dies auch bei anderen, die an dem Problem arbeiten, Panik auslösen. Dies behindert den Prozess der Vorfalllösung.

Bleiben Sie ruhig, und andere werden es Ihnen gleichtun. Erfahrene Leute bleiben ruhig, und das kann den Unterschied zwischen einem chaotischen Vorfall und einem Vorfall ausmachen, der reibungslos abläuft. Also keine Panik!

Welche Best Practices für die Reaktion auf Vorfälle haben Ihre Teams? Teilen Sie sie auf unserer Community-Foren —wir freuen uns auf Ihre Nachricht!