- PagerDuty /
- Der Blog /
- Vorfallmanagement und Reaktion /
- Vermeidung von Engpässen bei der Reaktion auf Vorfälle
Der Blog
Vermeidung von Engpässen bei der Reaktion auf Vorfälle
Engpässe bei der Reaktion auf Vorfälle – Sie wissen, dass es sie wirklich gibt und dass Ihr System zur Reaktion auf Vorfälle wahrscheinlich einige davon hat, aber sie müssen minimiert werden, da sie Ihren Bereitschaftsteams und Ihren Kunden schaden. Werfen wir einen Blick auf einige der kritischsten Engpässe und wie man sie vermeidet.
Was sind deine Ziele?
Bevor Sie die Engpässe in einem Prozess verstehen, müssen Sie zunächst verstehen, was die Ziele dieses Prozesses sind. Was sind die Ziele von Reaktion auf Vorfälle ?
Für die meisten Incident-Response-Teams würde die grundlegende Zielliste wahrscheinlich ungefähr so aussehen:
- Um zu verhindern, dass es zu Zwischenfällen kommt. Prävention auf dieser Ebene liegt zwar größtenteils nicht in der Hand des Vorfallmanagements, das sich im Allgemeinen auf die Lösung von Problemen konzentriert, aber Prävention ist für die Reduzierung ungeplanter Arbeiten von entscheidender Bedeutung.
- Um den Schaden möglichst gering zu halten. In der Praxis konzentriert sich hier der größte Teil der präventiven Anstrengungen im Vorfallmanagement. Wenn Sie Vorfälle nicht verhindern können, können Sie zumindest ihre Ausbreitung verhindern.
- Um Vorfälle schnell zu lösen. Nicht alle Vorfälle werden gelöst und nicht alle offensichtlichen Fehlerbehebungen lösen tatsächlich die zugrunde liegenden Probleme, aber die Lösung des Vorfalls ist und bleibt das Entscheidende.
Achten Sie auf diese Engpässe
Wenn die oben genannten Punkte die grundlegenden Ziele der Reaktion auf Vorfälle sind, dann sind die Engpässe wahrscheinlich Bedingungen, die das Erreichen dieser Ziele erschweren. Die wichtigsten davon sind:
Unzureichende Prioritätensetzung.
Die Priorisierung ist das wichtigste verfügbare Tool sowohl für die Lösung von Vorfällen als auch für die Eindämmung der Auswirkungen von Vorfällen. So können Sie sich auf die Vorfälle konzentrieren, die aufgrund ihres Potenzials für schwerwiegende Auswirkungen am meisten Aufmerksamkeit erfordern. Sie können Vorfälle beiseite legen, deren Auswirkungen relativ gering sind, aber viel Zeit und Aufmerksamkeit des Vorfallreaktionsteams in Anspruch nehmen können. Wenn Sie es nicht schaffen, die richtigen Prioritäten zu setzen, ist es fast sicher, dass einige größere Vorfälle nicht zeitnah oder möglicherweise überhaupt nicht behandelt werden.
Alarmmüdigkeit und Vorfallüberlastung.
Wenn Ihr Reaktionsteam von der Menge der Alarme überwältigt wird, kann es effektiv gelähmt werden und überhaupt nicht reagieren, einfach weil es nicht die Zeit hat, zu erkennen, welche Probleme höchste Priorität haben sollten, oder echte Vorfälle von Alarmrauschen zu unterscheiden. Letztendlich kann dies zu chronischen Alarmmüdigkeit , da Teammitglieder die unbewusste mentale Gewohnheit entwickeln, die meisten Warnungen auszublenden, sodass sie sich zumindest auf einige davon konzentrieren können.
Ein (normalerweise automatisiertes) System zum Herausfiltern von Alarmgeräuschen ist unbedingt erforderlich. Nicht umsetzbare Warnungen sollten unterdrückt werden und der zugehörige Alarmkontext sollten in einem einzigen Vorfall zusammengefasst werden. Idealerweise sollte dies alles automatisch über Regeln . Darüber hinaus ist es wichtig, ein System zu implementieren, das Warnmeldungen an die richtigen Teams oder Teammitglieder weiterleitet, anstatt sie an alle Teams und alle Mitglieder zu senden, da wiederholte Warnmeldungsmüdigkeit und mangelnde Verantwortlichkeit ebenfalls schnell fatale Folgen haben können.
Unzureichende Vorbereitung, Ausbildung oder Erfahrung.
Idealerweise sollte jedes Incident-Response-Team aus gut ausgebildeten und erfahrenen Technikern bestehen, die Probleme schnell diagnostizieren können und wissen, welche Tools und Techniken sie zur Behebung jedes Vorfalls einsetzen müssen.
In der Praxis ist es natürlich nicht so einfach. Hohe Fluktuation und der Bedarf an mehr Einsatzkräften können dazu führen, dass die meisten oder sogar alle Mitglieder der Einsatzteams wenig oder gar keine Erfahrung haben. In diesem Fall kann viel Zeit verloren gehen, da neue Teammitglieder Dinge lernen müssen, die erfahrene Einsatzkräfte bereits wissen. Wenn es zu einem völligen Bruch in der Kontinuität kommt (ein völlig neues Team), kann die Situation noch viel schlimmer werden, weil das Wissen des alten Teams nun „verlorenes Wissen“ ist und oft nicht wiederhergestellt werden kann.
Die besten Möglichkeiten zur Minimierung solcher Probleme sind ein formelles Schulungssystem für Einsatzkräfte, die Einteilung neuer Teammitglieder in Teams mit erfahrenen Einsatzkräften, wann immer dies möglich ist, und die Bereitstellung angemessener Den Einsatzteams zur Verfügung stehende Dokumentation . Zur Gewährleistung konsistenter, wiederholbarer Best Practices sollte die Dokumentation eine Art grundlegendes Verfahrenshandbuch und eine gut indizierte, leicht durchsuchbare und mit Querverweisen versehene Datenbank früherer Vorfälle, z. B. ein Runbook, umfassen.
Unzureichende Vorbereitung auf die Einführung eines größeren neuen Produkts.
Eine neue Version einer wichtigen Anwendung steht bevor – oder vielleicht handelt es sich um eine ganz neue Anwendung oder einen neuen Dienst. Ist Ihr Reaktionsteam bereit, die Flut an Warnmeldungen zu bewältigen, wenn sich herausstellt, dass die Entwickler ein paar schwerwiegende Fehler übersehen haben? Murphys Gesetz lauert schließlich an jeder Ecke. Es genügt ein Update eines weit verbreiteten Programms und ein oder zwei Fehler, die eine Kaskade nicht so leicht zu verfolgender Fehler auslösen. Wenn Ihr Reaktionsteam nicht vorbereitet ist, werden Sie möglicherweise feststellen, dass Ihre gesamte Zeit und Ressourcen von einer Flut von Warnmeldungen mit hoher Priorität in Anspruch genommen werden, sodass Ihnen nur sehr wenige Reserven für die Bewältigung anderer, nicht damit zusammenhängender Vorfälle bleiben, die möglicherweise auftreten.
Idealerweise wird das Update natürlich vor der vollständigen Veröffentlichung ausreichend getestet, und zwar mit einer Art begrenzter A/B- oder Canary-Bereitstellung. Solange das Reaktionsteam an dieser Bereitstellung beteiligt ist, hat es die Möglichkeit, sich mit Problemen zu befassen, die in viel kleinerem Maßstab auftreten. Die Entscheidung, mit einer begrenzten Bereitstellung zu beginnen, liegt jedoch wahrscheinlich nicht in den Händen des Incident-Response-Teams, und dieses muss sich möglicherweise mit einer unzureichend getesteten Version auseinandersetzen, die direkt zur vollständigen Bereitstellung übergeht.
In einem solchen Fall kann es notwendig sein, alle Einsatzkräfte in Bereitschaft zu versetzen – oder ein spezielles Team zu bestimmen, das sich um alle Update-bezogenen Probleme kümmert, sodass zumindest einige Einsatzkräfte frei werden und sich um nicht damit zusammenhängende, ungeplante Probleme kümmern können, die ebenfalls angegangen werden müssen. Welcher Ansatz am besten funktioniert, hängt zumindest teilweise vom Umfang des Updates und den verfügbaren Ressourcen des Einsatzteams ab. Pläne können jedoch jederzeit nach Bedarf wiederholt werden, und einen Plan zu haben, macht einen erheblichen Unterschied, als völlig unvorbereitet zu sein.
Dinge klären
Natürlich gibt es noch viele andere Engpässe, darunter solche, die durch veraltete, fehleranfällige oder überlastete Infrastrukturen entstehen, sowie solche, die dadurch entstehen, dass die Zeit der Reaktionsteams für Aufgaben verwendet wird, die nicht mit Vorfällen zusammenhängen. Aber die von uns aufgelisteten Engpässe sind für einen Großteil der Zeit verantwortlich, die die Reaktionsteams für Vorfälle verlieren, und die von uns vorgeschlagenen Abhilfemaßnahmen helfen, die meisten davon zu beseitigen.
Testen Sie PagerDuty 14 Tage lang kostenlos!