Der Blog

Verantwortung für die Reaktion auf Vorfälle: Es geht um iterative Verbesserungen

von Eric Sigler 17. August 2017 | 3 Minuten Lesezeit

Kürzlich habe ich Trainingsmaterial für unseren nächsten Track zum Thema „ Verantwortung für die Reaktion auf Vorfälle übernehmen“ bei PagerDuty Universität , und ich hörte mir die Aufzeichnungen von Notrufen aus vielen Jahren PagerDuty -Geschichte an. Mehrere Stunden, in denen ich meinen Kollegen mit doppelter Geschwindigkeit zuhörte, führten zu zwei Beobachtungen: Erstens sollte ich mir meine Kopie von Weihnachten mit den Chipmunks ; und zweitens erforderte die Entwicklung unserer Vorfallprozesse Zeit, Mühe und Konzentration. Jedes Unternehmen, unabhängig von der Größe seiner Teams und Infrastruktur, kann einen großen Vorfallreaktionsprozess , aber es passiert nicht zufällig und auch nicht über Nacht.

Vor vielen Jahren verwendete PagerDuty intern den einfachen, aber mühsamen Prozess: „Jeden mit einem allgemeinen Alarm benachrichtigen und alle über eine Telefonbrücke verbinden.“ Dies führte selbst mit erfahrenen Mitarbeitern in der Betriebsabteilung zu viel Chaos. Aufgaben wurden ohne Koordination erledigt, es herrschte oft Verwirrung über das Ausmaß der Auswirkungen auf die Kunden usw.

Eines der ersten Dinge, die wir verbessern wollten, war die Überarbeitung der Sprache, die im Telefonat verwendet wurde, wenn jemand Informationen lieferte oder eine Anfrage an jemand anderen gestellt wurde. Wir nahmen uns die Zeit, ein gemeinsames Vokabular zu entwickeln, mit Ausdrücken wie „ Gibt es starke Einwände? ?“ konnten wir die Zeit, die wir für die Reaktion auf Vorfälle benötigten, verkürzen und so die Zeitspanne verkürzen, in der die Kunden betroffen waren.

Eine weitere große Verbesserung ergab sich, als wir begannen, Rollen im Stil des Incident Command Systems . Vereinbaren Sie im Voraus, wer sich um das Problem kümmert (Fachexperten) und wer für die Bewältigung des Vorfalls selbst zuständig ist (Einsatzleiter und ähnliches).

Dadurch konnten wir auch die anfängliche Antwort auf nur die Techniker beschränken, die am Anruf teilnehmen mussten. Vorbei sind nun die Tage der Verwirrung und der Leute, die mit „Was ist los?“ auf die Brücke kamen. Im Laufe der Zeit haben wir unsere eigenen Workarounds entwickelt für Anti-Patterns bei der Reaktion auf Vorfälle , beispielsweise indem störende und nicht beitragende Personen aus der Konferenz ausgeschlossen werden, selbst wenn es sich dabei um den CEO handelt.

Viele Informationen zu „Operationen“ oder „Standortzuverlässigkeit“ werden über Stammeswissen verbreitet, oder mündliches Erzählen . Es sollte nicht allzu schwer sein, einen gut vorbereiteten, umfassenden und humanen Vorfallreaktionsprozess zu entwickeln. Unternehmen sollten nicht jeden Teil einer guten Vorfallreaktion selbst herausfinden müssen, aber um sich insgesamt zu verbessern, muss jeder diesen Bereich zu seinem Schwerpunkt machen.