Der Blog

6 Best Practices für ein besseres Vorfallmanagement

von David Hayes 15. Mai 2018 | 10 Minuten Lesezeit

Moderne Unternehmen verwalten heute zunehmend komplexe Technologieportfolios und stehen unter dem Druck, Innovationen zu liefern – und das alles, während die Aufrechterhaltung der Serviceleistung und -zuverlässigkeit weitaus höhere Anforderungen stellt als je zuvor. Diese Anforderungen mögen paradox erscheinen, doch viele Unternehmen haben erfolgreich Prozesse implementiert, die es ihnen ermöglichen, sowohl Agilität als auch Risiko auszugleichen. In diesem Beitrag gehe ich auf die Bedeutung der Integration der Vorfallreaktion in Ihr ITSM-Tool ein und führe Sie durch die Schritte, wie Sie Agilität und Risiko effektiv ausbalancieren können.

Schritt 1: Incident Response und ITSM integrieren

Während eines Ausfalls können Sie keine Minuten hinzufügen. Daher ist es wichtig, Ihre geplanten Arbeiten außerhalb eines Vorfalls effektiv zu priorisieren. Dazu gehört auch die Verwendung einer Enterprise-Vorfallmanagementplattform wie PagerDuty , um Ihre ungeplanten Arbeiten zu verwalten und mit den geplanten Arbeiten zu verknüpfen, die in Ihrem ITSM-Tool wie Jira, ServiceNow oder Remedy verfolgt werden.

Wie hilft das? Zunächst fließen Informationen von ITSM in PagerDuty , damit die Einsatzkräfte wissen, was sich geändert hat und wer Auswirkungen meldet. Anschließend werden Folgeelemente von PagerDuty zurück an ITSM gesendet, einschließlich der Ergebnisse der Post-Mortem-Analyse, die priorisiert werden müssen.

Ein bestimmter Mitarbeiter kann in einem ITSM-Tool Dutzende priorisierte Tickets haben, aber ihm sollte in PagerDuty immer nur 1 (oder idealerweise 0) Ticket zugewiesen sein, damit er sich auf kundenbezogene Probleme konzentrieren kann, die sofortige Antworten erfordern. Ebenso existiert das Konzept nicht zugewiesener Vorfälle in PagerDuty nicht – wenn es ein Problem gibt, ist jemand für dieses Problem verantwortlich.

Schritt 2: Proaktive Mobilisierung

Einfach ausgedrückt: Der einfachste Weg, Ihre Reaktion zu beschleunigen, besteht darin, früher damit zu beginnen. Der beste Weg, dies zu tun, besteht darin, nicht zu verfolgen, was Ihre Maschinen betrifft, sondern was Ihre Kunden betrifft. Organisationen, die Real User Monitoring verwenden, können verfolgen, ob Benutzer ihre Tools erfolgreich laden, herunterladen oder kaufen können. Da Sie in erster Linie Probleme erkennen möchten, bevor sie Benutzer betreffen (allerdings auf Kosten einiger falscher Positivmeldungen), ist die Überwachung der zugrunde liegenden Infrastruktur ebenso wichtig, um die Ursache eines Kundenproblems zu ermitteln.

Automatisierung trägt auch dazu bei, die Reaktion auf Vorfälle zu beschleunigen, und Ihr Überwachungstool sollte Probleme automatisch einem Eigentümer zuweisen. In diesem Sinne sollte das Überwachungstool auch eine Person zuweisen und über alle Probleme über einer bestimmten Priorität umgehend benachrichtigen, und zwar über die bevorzugte Kommunikationsmethode dieser Person (Telefon, E-Mail, SMS usw.), um zu verhindern, dass sich ein Problem auf Ihren Umsatz auswirkt.

Um die Automatisierung zu vereinfachen, lässt sich PagerDuty in Hunderte von Überwachungstools integrieren. Wenn Ihr Überwachungstool beispielsweise feststellt, dass Ihr Einkaufswagen von langsam bis gar nicht mehr reagiert, kann PagerDuty automatisch einen Vorfall mit der richtigen Priorität erstellen, um sicherzustellen, dass der Responder über alle Informationen verfügt.

Erstellen Sie in diesem Sinne, wann immer möglich, automatisierte Workflows. Wenn ein Sev1-Prozess die Einbeziehung von Stakeholdern aus der Führungsebene erfordert, automatisieren Sie das Reaktionsspiel .

Schritt 3: Definieren Sie einen Prozess

Beseitigen Sie Mehrdeutigkeiten, Verwirrungen und Zeitverschwendung während einer Reaktion, indem Sie Ihren Prozess definieren und die verschiedenen beteiligten Rollen klären. Wir empfehlen, die folgenden Rollen einzuschließen: Einsatzleiter + Stellvertreter, Schreiber, Kundenkontakt und Fachexperten. (Weitere Einzelheiten zu den einzelnen Rollen finden Sie unter https://response.pagerduty.com/before/different_roles/ .)

Während eines Ausfalls kann es zu einem Irrenhaus werden und die organisatorische Hierarchie tritt gegenüber den Reaktionsrollen in den Hintergrund. Wenn Führungskräfte beginnen, den definierten Prozess zufällig zu gestalten, müssen Sie sie aus dem Prozess entfernen und klar und präzise kommunizieren, warum bestimmte Prozesse befolgt werden – und wenn der CEO den Prozess spontan ändern möchte, kann er entscheiden, die Rolle des Leiters zu übernehmen. Einsatzleiter .

Damit alle die Übersicht behalten, beachten Sie Folgendes:

  • Umfrage bei starken Einwänden. Bitten Sie um Einwände, nicht um Konsens. So stellen Sie sicher, dass Sie nicht auf nicht dringende Diskussionen und Konsensbildung warten müssen, anstatt Maßnahmen zur Lösung des Problems zu ergreifen.
  • Legen Sie Zeitrahmen fest und weisen Sie Aufgaben einzelnen Personen zu. Bei einem Vorfall gehen viele Informationen ein, und in Krisenzeiten ist eine klare, präzise Kommunikation von entscheidender Bedeutung. Durch die Zuweisung von Aufgaben und Zeitlimits für Aufgaben kann sich jede Rolle auf eine Sache konzentrieren. Dies reduziert Verwirrung und Doppelarbeit und verkürzt im Idealfall die Zeit bis zur Lösung.
  • Standardisieren Sie Fachsprache und Etikette. Stellen Sie sicher, dass jeder weiß, wann und wie er sich zu Wort melden kann. Der Schlüssel zu effektiver Kommunikation und Reaktion besteht darin, einen sachlichen Ton anzuschlagen und die Diskussion ohne Emotionen auf das Thema zu konzentrieren.

Schritt 4: Entwickeln Sie Ihre Kommunikationsstrategie

Es ist wichtig, einen Prozess für die Kommunikation mit Personen außerhalb des zentralen Reaktionsteams zu definieren. Je nach Art des Vorfalls könnten Sie es mit internen Kunden (wir nennen sie oft Stakeholder), externen Kunden und sogar dem Markt im Allgemeinen zu tun haben. Wenn Sie beispielsweise auf einen Sicherheitsvorfall reagieren, müssen Sie möglicherweise zusätzlich zu anderen Führungskräften auch die Rechtsabteilung einbeziehen.

Diese Gruppen müssen alle bei Bedarf auf dem Laufenden gehalten werden, aber der falsche Ort dafür ist dort, wo die Einsatzkräfte arbeiten. Das Letzte, was Sie wollen, ist, dass sich jemand in den Anruf einschaltet und nach einem Status-Update fragt, da dies die Leute stört, die während des Anrufs versuchen, Lösungen zu besprechen. Um auf meinen vorherigen Punkt zurückzukommen: Sie wollen nicht, dass ein Manager in einen Anruf einsteigt und verlangt, dass das Team den Ausfall in 10 Minuten behebt. Das bedeutet, dass das Team nicht bereits so schnell arbeitet, wie es kann. Das ist demotivierend und trägt nichts Hilfreiches zur Reaktion bei. Hier kommt der Kundenkontakt ins Spiel – mit einer Funktion wie PagerDutys Stakeholder Engagement kann der Kundenbetreuer relevante Stakeholder im gesamten Unternehmen mit optimierten Updates in Echtzeit versorgen.

Hier sind einige weitere Möglichkeiten zur Verbesserung der Echtzeitkommunikation:

  • Nutzen Sie eine Konferenzbrücke für interne Diskussionen. Der Mensch ist ein soziales Wesen und dies scheint das natürlichste Format zu sein. Verwenden Sie das Konferenzgesprächstool, mit dem Ihre Benutzer bereits vertraut sind – ein Ausfall ist nicht der richtige Zeitpunkt, um ein neues Tool zu erlernen. Bei größeren Vorfällen fügen Sie die Konferenzgesprächsinformationen automatisch an.
  • Richten Sie einen Chatroom zum Protokollieren von Aktionen ein. Dadurch können diejenigen, die direkt antworten, schnell reagieren, ohne sich wiederholende Fragen stellen zu müssen, und die Antwort wird mit einem Zeitstempel versehen. Darüber hinaus beginnen viele Unternehmen damit, Antwortaktionen direkt von Bots im Chatroom auszulösen.
  • Stellen Sie Ihren Stakeholdern proaktive, geplante Updates bereit. Richten Sie eine Seite mit dem Vorfallstatus ein, damit die Beteiligten über relevante Informationen in Echtzeit auf dem Laufenden bleiben. Dies ist wichtig, um zu verhindern, dass Stakeholder eingreifen und so zu Hindernissen werden.
  • Legen Sie Benachrichtigungen im Voraus fest. Entscheiden Sie, nach welchen Kriterien und in welchem Zeitrahmen die Beteiligten Ihre Stakeholder, Kunden oder nachgelagerten Benutzer benachrichtigen sollen.

Schritt 5: Postmortem-Analyse

Postmortems sind die Methode, mit der Sie ein langfristiges Problem lösen. Sie geben den Leuten nach einem besonders stressigen Ereignis einen Abschluss und garantieren, dass Ihr Team einige der sofortigen Patches, die Sie in der Hitze des Augenblicks zur Lösung eines Problems erstellt haben, gut durchdacht und produktiv umsetzen kann.

Wie sieht also eine effektive Obduktion aus? Sie sollte:

  • Konzentrieren Sie sich auf Prävention und Lernen. Ihr Team möchte herausfinden, was geändert werden kann, um dieses Problem in Zukunft zu vermeiden.
  • Seien Sie transparent, schuldlos und unpolitisch. Das Ziel besteht darin, alle relevanten Informationen zu erhalten, und das Letzte, was Sie tun möchten, ist, Groll zu schüren. Schuldzuweisungen behindern den Informationsfluss. Die einzige akzeptable Schuldzuweisung ist, wenn Sie einen vorsätzlich böswilligen Mitarbeiter entlarvt haben, was äußerst selten vorkommt.
  • Orientieren Sie sich an Verbesserungen. Dies gilt sowohl für die Belastbarkeit des Systems als auch für den Reaktionsprozess. Das Ziel ist, immer besser zu werden.
  • Gehen Sie auf die Grundursache ein. Wir finden die „ fünf Warums “ hier hilfreich.
  • Bei größeren Vorfällen erforderlich und rationalisiert, um Zeit zu sparen. Niemand möchte Postmortems durchführen, aber sie sind ein wichtiges Werkzeug, um die Wirkung Ihrer geplanten Arbeit zu maximieren. Um sie einfacher zu machen, haben wir ein integriertes Postmortem-Tool nach dem Vorbild der bestehenden Prozesse unserer Kunden. Es kann Ihnen stundenlanges Wechseln zwischen Tools zum Zusammentragen von Informationen ersparen, da es automatisch eine Zeitleiste mit relevanten PagerDuty und Chat-Aktivitäten erstellt.

Wir veröffentlichen alle unsere Postmortems intern mithilfe unseres Postmortem-Tools. Wir betrachten Postmortems nicht nur als Lernerfahrung für unser Team, sondern auch als Input für unsere Schulung zu bewährten Vorgehensweisen , wo wir unsere Erfahrungen und Erkenntnisse mit unseren Kunden teilen.

Laden Sie für weitere Post-mortem-Tipps unser ausführliches E-Book herunter.

Schritt 6: Training und Übung

Sie können nicht erwarten, dass Ihr Vorfallreaktionsprozess fantastisch ist, wenn Sie ihn nur ab und zu verwenden. Nicht jeder Dienst fällt oft aus und manche Leute haben mehr Übung als andere. Aber jeder sollte geübt sein, damit Sie und Ihr Team bereit sind, wenn etwas passiert.

  • Machen Sie das Shadowing und Onboarding einfach. Eine Lösung wie PagerDuty macht es überforderten Helfern leicht, Hilfe zu holen. Einer unserer mutigeren Kunden lässt jeden Bereitschaftsdienst einzeln beginnen – wenn ein neuer Mitarbeiter es anhand des Runbooks nicht selbst herausfinden kann, kann er seinen Mentor als Helfer hinzufügen, und mit der Zeit sinkt der Prozentsatz der Vorfälle, bei denen er Hilfe benötigt.
  • Zeichnen Sie Ihre Ausfälle auf, um sie für Schulungszwecke zu verwenden. Diese Aufzeichnungen sind eine wahre Goldgrube und helfen Teams zu verstehen, was in echten Fehlerszenarien tatsächlich passiert. Sie sind auch für Post-Mortem-Analysen nützlich.
  • Pre-mortem-Übungen („Wenn das kaputt geht, worauf muss ich achten?“) sind als Trainingsübung wertvoll. Sie können auch dabei helfen, Stellen zu identifizieren, an denen Sie zusätzliche Überwachungsmaßnahmen für Grundursachen oder präventive Warnungen hinzufügen können. Wenn beispielsweise die Überprüfung der Datenbankverbindung das Erste ist, was Sie tun würden, wenn Sie eine Warnung erhalten, dass Ihr E-Commerce ausgefallen ist, richten Sie eine Überwachung für diese Verbindung ein und senden Sie diese Daten an PagerDuty– auch wenn die App nicht betroffen ist.
  • Implementieren Misserfolg am Freitag . Chaos Engineering übersteigt derzeit wahrscheinlich die Kapazitäten der meisten Organisationen, aber wir können an unseren Failure Fridays eine Menge erreichen, indem wir beispielsweise Implementierungsprobleme aufdecken, die unsere Belastbarkeit verringern, und proaktiv Mängel entdecken, um zu verhindern, dass diese zur Ursache künftiger Ausfälle werden.

Je weniger Zeit Sie für die Behebung ungeplanter Ausfälle aufwenden müssen, desto besser sind Ihre Services, was wiederum zu zufriedeneren Kunden führt, da Vorfälle mit Auswirkungen auf die Kunden wahrscheinlich das Schlimmste sind, was einem Unternehmen passieren kann. Sie schädigen den Ruf der Marke, verursachen enorme Kunden- und Umsatzverluste, hemmen die Produktivität der Mitarbeiter und verschlechtern die Arbeitsmoral, um nur einige zu nennen. Wenn Sie einen Punkt erreichen, an dem Sie so effizient wie möglich sind und auf größere Vorfälle ohne Chaos und Stress reagieren können – mit der Einstellung, dass Sie aus jedem einzelnen lernen und sich verbessern –, werden Sie eine erfolgreiche und bestärkende Unternehmenskultur erreichen, die sowohl Ihre Kunden als auch Ihre Mitarbeiter begeistern wird.

Möchten Sie mehr über Incident Response erfahren? Schauen Sie sich unsere Dokumentationsseite zur Reaktion auf Vorfälle.

PagerDuty Fazit + CTA

Solides Vorfallmanagement bedeutet ein solides Team, und ein solides Team bedeutet ein solides Produkt. Wenn Sie bereit sind, mit der Vorfallmanagement-Software von PagerDuty zu beginnen, sind Sie hier richtig. Mit unserem Produkt können Sie ganz einfach Ihren Umsatz sichern und das Kundenerlebnis verbessern, indem Sie kritische Vorfälle schneller lösen und zukünftige Vorfälle verhindern. Wir helfen Ihnen dabei, Best Practices für schwerwiegende Vorfälle in Ihr Unternehmen zu integrieren, indem wir die Reaktion von Anfang bis Ende automatisieren und reibungslose Postmortem-Analysen durchführen. Erfahren Sie mehr .

Möchten Sie mehr über die Reaktion auf Vorfälle erfahren? Wir helfen Ihnen gerne weiter. Auf unserer Website finden Sie mehrere Schulungen, die Ihnen den Einstieg erleichtern. Alle Schulungen wurden aus internen Dokumenten adaptiert, die wir für unsere Einsatzleiter erstellt haben. Schauen Sie sie sich an. Hier .