- PagerDuty /
- Der Blog /
- Vorfallmanagement und Reaktion /
- 5 Tools für das Vorfallmanagement, die Sie während eines Feuergefechts benötigen
Der Blog
5 Tools für das Vorfallmanagement, die Sie während eines Feuergefechts benötigen
Es ist entscheidend, die richtigen Werkzeuge zur Hand zu haben, bevor es zu einem Feuergefecht kommt. Ohne geeignete Werkzeuge wird es deutlich schwieriger, einen größeren Ausfall zu erkennen, zu organisieren, zu bekämpfen und zu beheben. Dies gilt insbesondere dann, wenn die Teams mit dem Kampf beschäftigt sind, anstatt mit internen und externen Stakeholdern zu kommunizieren. Wenn im Voraus Best Practices festgelegt wurden, kann ein schwieriger Vorfall viel reibungsloser bewältigt werden.
Die folgende Liste ist nicht vollständig und enthält keine Angaben zu den Domänen, die vor einem Ausfall geplant werden sollten. Sie wird die Koordinationsfähigkeit Ihres Unternehmens und die Vorbereitung auf etwaige Probleme jedoch deutlich verbessern.
1. Interne Kommunikation
Interne Kommunikation findet üblicherweise per E-Mail statt. Dies ist aus mehreren Gründen problematisch. E-Mail ist ein Eins-zu-eins-Medium. Es ist standardmäßig geschlossen, d. h. es ist nur für den Absender und die Empfänger lesbar und von Natur aus sperrig und schwer zu analysieren, wenn schnelle Statusinformationen benötigt werden. Umgebungen für dauerhafte Zusammenarbeit wie Locker und HipChat bieten einen extern gehosteten Ort zur Verbreitung von Informationen. Beide Plattformen bieten auch öffentliche, optional abonnierbare Themenkanäle, die zur Verbreitung von Informationen genutzt werden können. Auf der kritischen Ebene können Statusaktualisierungen (oder Nachrichten, dass das Problem bereits bekannt ist und daran gearbeitet wird) den wichtigsten Mitarbeitern (Support, Führung) nahezu in Echtzeit zur Verfügung gestellt werden.
2. Überwachung der Anwendungsleistung und Infrastruktur
Im Idealfall erkennt das Team ein Problem mit einer Anwendung, bevor der Kunde es bemerkt. Anwendung und Infrastruktur Überwachungstechnik kann dazu beitragen, dies sicherzustellen und während des Ausfalls wertvolle Informationen darüber liefern, ob ein Fix oder Update wie vorgesehen funktioniert ( Neues Relikt für Anwendungsüberwachung Und AWS CloudWatch sind zwei solcher Technologien). Es ist auch wichtig, sowohl die Anwendungsleistung als auch die Infrastrukturleistung zu überwachen und (idealerweise) beide mit einer Lösung wie PagerDuty miteinander zu verknüpfen, um alle Dienstintegrität Daten in einer einzigen Ansicht und benachrichtigen Sie die Bereitschaftsressource, wenn ein Problem dringendes Handeln erfordert. Es ist viel einfacher, ein Problem zu beheben, wenn Sie Einblick in beide Ebenen haben und die Grundursache identifizieren können.
3. Statusaktualisierungen
Bei Leistungsproblemen werden Supportteams mit Anfragen nach Updates überschwemmt. Die wichtigsten Möglichkeiten, diesen Ansturm einzudämmen, sind Twitter, eine Statusseite oder die Einbindung von Geschäftspartnern mithilfe eines Produkts wie PagerDuty. Diese sind von Ihrer primären Infrastruktur getrennt und sollten selbst gegen Site-weite Ausfälle resistent sein. Auf Twitter können Benutzer bei Problemen ganz einfach nach angehefteten Tweets und aktuellen Antworten suchen. Benutzer können auch überprüfen statusapp.com für alle „gelben“ oder „roten“ Status. Eine leicht lesbare Statusseite wie die von statuspage.io ist eine wichtige Komponente, um Ihren Kunden während eines Ausfalls Informationen zu übermitteln. Ein Benutzer wird Vertrauen in die Seite aufbauen, wenn sie korrekt ist und Updates für kleinere Störungen enthält – und auf diese Weise baut er auch mehr Vertrauen in Ihr Unternehmen auf. Sie sollte auch Updates enthalten, wenn ein Problem behoben wird, und den Status für jede wichtige Unterkomponente enthalten. Diese Updates sollten innerhalb von Minuten verfügbar sein, um vollständige Transparenz zu gewährleisten. Schließlich können Sie mit Funktionen wie PagerDutys Stakeholder Engagement kann jeder Incident Responder ganz einfach ein Statusupdate versenden, das vordefinierte Gruppen von Geschäftspartnern über einen beliebigen bevorzugten Benachrichtigungskanal erreicht – Telefon, SMS, E-Mail oder Push-Benachrichtigung. Geschäftspartner können auch Statusupdates zu Vorfällen abonnieren, um Echtzeitinformationen zu allen Problemen zu erhalten, die sich auf Kunden auswirken.
4. Ticketing-Lösung
Eine Ticketing-Lösung wie ZenDesk ist für die Bewältigung eines Ausfalls absolut entscheidend. Ein erheblicher Ausfall kann sehr störend sein und erheblichen Goodwill kosten. Ein Ticketmanagementsystem hilft dabei, zeitweilige Probleme zu identifizieren, die einem Anwendungsmonitor möglicherweise entgangen sind. Es verfolgt und verbreitet auch Informationen im Zusammenhang mit einem Zustrom von Supportanfragen. Workflows zur Problemeskalation decken potenzielle Probleme schneller auf, als wenn man sich auf die Einschätzung einzelner Personen verlässt, insbesondere bei größeren Supportteams. Vorgefertigte Nachrichtenvorlagen sorgen dafür, dass die Nachrichten während eines Ausfalls konsistent und genau bleiben, und „Bezogen auf“-Tags erleichtern auch die Nachbesprechung eines Problems, nachdem es gelöst wurde.
5. Verfahrensverfolgung
Mit den richtigen Verfahren kann eine Organisation Probleme vorhersehen, die wahrscheinlich bei ihren Anwendungen auftreten werden. Diese Szenarien sollten im Voraus dokumentiert werden. Informationen zur Fehlerbehebung, Schadensbegrenzung und Behebung sollten dokumentiert und dem Team zur Verfügung gestellt werden. Das Verfahren kann auch eine Checkliste mit Aufgaben enthalten – eine, die festlegt, wer was tut, und Notrufnummern und Bereitschaftspersonal enthält. Wenn Ressourcen verfügbar sind, ist eine Planspielübung mit einem simulierten Ausfall äußerst hilfreich, um Lücken zu identifizieren, bevor es zu einem größeren Ausfall kommt. Nach einem Feuergefecht besprechen Sie die Situation mit dem Team in einem Obduktion und verbessern Sie Ihre Verfahren. Es wird wieder zu einem Ausfall kommen und jede zusätzliche Information, die Sie Ihrem Prozess hinzufügen können, wird die Wiederherstellung beschleunigen. Wie bei den anderen oben genannten Punkten ist es möglich, dass Ihre lokale Architektur nicht mehr verfügbar ist. Daher ist es vorzuziehen, diese Verfahren in einem extern gehosteten Repository zu speichern oder sie mit einer Lösung wie PagerDuty zu automatisieren.
Diese Tools sind nur eine erste Liste. Ihre Wirksamkeit bei einem Ausfall ist nur so wertvoll wie die Zeit, die aufgewendet wurde, um sie im Vorfeld richtig zu konfigurieren und zu verstehen. Die Kommunikation mit internen und externen Stakeholdern ist bei jedem Feuergefecht von entscheidender Bedeutung, sowohl innerhalb ES wie in jeder anderen Funktion oder Branche.