- PagerDuty /
- Der Blog /
- Alarmierung /
- Optimieren Sie Ihren Alarmverwaltungsprozess
Der Blog
Optimieren Sie Ihren Alarmverwaltungsprozess
In einer einfacheren Welt würden alle Warnmeldungen gleich sein und Ihre Infrastruktur würde entweder einwandfrei funktionieren oder völlig kaputt sein – ohne einen Mittelweg.
In Wirklichkeit ist die Welt jedoch nicht so einfach. Vor allem heute nicht, wo Die Infrastruktur ist vielfältiger und komplexer als je zuvor .
Die Bewältigung dieser Komplexität erfordert einen anderen Ansatz für Überwachung und Alarmmanagement. Sie müssen viel mehr tun, als das Vorfallmanagement als einen Prozess zu betrachten, bei dem auf Alarme in der Reihenfolge reagiert wird, in der sie eingehen, oder als davon auszugehen, dass jeder Alarm Maßnahmen erfordert.
In diesem Beitrag wird erläutert, warum ein flexibler und differenzierter Ansatz für das Alarmmanagement so wichtig ist und wie dieser umgesetzt wird.
Moderne Infrastruktur ist komplex
Um zu verstehen, warum ein flexibler Alarmverwaltungsprozess so wichtig ist, untersuchen wir die Faktoren, die moderne Infrastrukturen komplex machen. Beachten Sie die folgenden Punkte:
Die Infrastruktur ist stark geschichtet und voneinander abhängig
Früher gab es eine Reihe von Bare-Metal-Servern und -Workstations, und das war’s. Heute, im Zeitalter der softwaredefinierten Gesamtlösung, ist Ihre Infrastruktur ein komplexer Stapel aus physischen und virtuellen Maschinen, softwaredefinierten Netzwerken, Thin Clients, zeitweise verbundenen Sensoren usw. – alles miteinander verflochten und übereinander geschichtet. Daher kann eine Warnung, die scheinbar von einer Quelle stammt (z. B. einer Docker-Anwendung), tatsächlich auf ein Problem in einem anderen Teil der Infrastruktur zurückzuführen sein (z. B. dem Speicherarray, mit dem Ihr Docker-Hostserver verbunden ist).
Manche Probleme sind schwerwiegender als andere
Dies ist für jeden, der Erfahrung mit dem Vorfallmanagement hat, ziemlich offensichtlich. Dennoch sollte betont werden, wie breit das Spektrum der Probleme heutzutage sein kann und wie schwierig es ist, den Schweregrad einer Warnung schnell zu interpretieren. Eine Warnung, die Sie darüber informiert, dass ein Speicherserver nicht mehr reagiert, kann beispielsweise auf den ersten Blick sehr ernst erscheinen. Wenn der Server jedoch Teil eines skalierten Speicherclusters mit automatischem Failover ist, hat die Ausfallzeit eigentlich keine hohe Priorität. Es gehen wahrscheinlich keine Daten verloren und die Geschäftskontinuität wird nicht unterbrochen, wenn das Team nicht sofort auf das Problem reagiert. Darüber hinaus dienen einige Warnungen als Warnungen, sind aber nicht sofort umsetzbar. Diese Informationen sollten zwar für die Muster- und Anomalieerkennung auf Infrastrukturebene aufbewahrt werden, sie sollten jedoch unterdrückt werden, anstatt eine menschliche Reaktion auszulösen. Vermeidung von Alarmmüdigkeit .
Echtzeitreaktion ist entscheidend
In der heutigen „Always-on“-Welt erfahren Benutzer in Echtzeit von Serviceausfällen. Der Alarmverwaltungsprozess muss daher ebenfalls in Echtzeit erfolgen. Die Tatsache, dass Benutzer dazu neigen, Probleme an öffentlichen Orten zu melden, wie Social Media Kanäle bevor Sie Kontakt mit Ihrem Unternehmen aufnehmen, ist eine Lösung in Echtzeit noch wichtiger. Seien Sie proaktiv statt reaktiv. Sie möchten nicht warten, bis Ihre Kunden eine Flut wütender Tweets generiert haben, bevor Sie auf eine ernste Warnung reagieren.
Die Anwendungsleistung ist wichtig
Es reicht nicht mehr aus, einfach nur dafür zu sorgen, dass Ihre Anwendungen laufen. Sie müssen auch die beste Leistung erbringen, denn Benutzer haben wenig Geduld für schlechte Leistung. Wenn Ihre Website beispielsweise langsam ist, werden Kunden schon nach wenigen zehn Sekunden warten . Aus der Sicht der Warnmeldungen bedeutet dies, dass es nicht ausreicht, benachrichtigt zu werden, wenn eine Anwendung überhaupt nicht mehr reagiert. Obwohl die Überwachung der Verfügbarkeit von entscheidender Bedeutung ist, müssen Sie auch Warnmeldungen über schlechte Leistung erhalten. Darüber hinaus müssen Sie in der Lage sein, diese von Warnmeldungen über fehlende Reaktionen zu unterscheiden.
So funktioniert differenzierte Alarmierung in der Praxis
Nachdem Sie nun die Herausforderungen des modernen Alarmmanagements kennen, stellt sich die Frage: Wie können Sie diese lösen?
Die Antwort besteht darin, Ihren Alarmverwaltungsprozess sehr flexibel und agiler zu gestalten. Verwenden Sie Strategien wie die folgenden:
Machen Sie Warnmeldungen mit hoher Priorität deutlich sichtbar
Um schnell auf die schwerwiegendsten Alarme reagieren zu können, müssen Sie sie leicht erkennen können. Das ist schwierig, wenn Alarme mit hoher und niedriger Priorität auf Ihren Überwachungs-Dashboards vermischt werden. Es wird viel einfacher, wenn Sie ein Dashboard den Alarmen widmen, die Ihre Überwachungssoftware als hochprioritätsmäßig kennzeichnet.
Unterdrücken Sie nicht hilfreiche Warnungen
Das Eliminieren nicht hilfreicher Warnungen trägt auch viel dazu bei, Ihre Dashboards zu entrümpeln und die Sichtbarkeit zu erhöhen. Sie können dies tun, indem Sie Unterdrücken von Warnungen für Ereignisse mit niedriger Priorität, wie die Erstellung eines neuen Benutzerkontos. Der Vorteil der Unterdrückung solcher Warnungen gegenüber ihrer vollständigen Deaktivierung besteht darin, dass die Warnungen weiterhin auftreten und bei Bedarf abgerufen werden können, die Administratoren jedoch nicht ablenken, wenn dringlichere Warnungen zu bearbeiten sind.
Differenzierte Meldung und Unterdrückung von Alarmen
Beachten Sie, dass die Unterdrückung kein Entweder-oder-Vorschlag sein muss. Sie können einige Warnungen eines bestimmten Typs unter bestimmten Umständen unterdrücken, unter anderen jedoch nicht.
Beispielsweise möchten Sie möglicherweise Warnmeldungen im Zusammenhang mit der Kontoerstellung unterdrücken, wenn diese während der Geschäftszeiten erfolgen, wenn Mitarbeiter normalerweise Konten erstellen, diese Warnmeldungen jedoch sichtbar machen, wenn sie außerhalb dieses Zeitfensters erfolgen. Oder Sie möchten möglicherweise Warnmeldungen zu einem Serverneustart unterdrücken, sofern die Neustarts nicht mehr als dreimal innerhalb eines festgelegten Zeitraums erfolgen.
Darüber hinaus ist es wichtig, Duplikate nach Möglichkeit zu beseitigen und Verknüpfungen zwischen verwandten Warnmeldungen zu erstellen, um redundante Lösungs- und Kommunikationsbemühungen zu vermeiden.
Um die Anzahl der Warnmeldungen zu minimieren, ohne wichtige Ereignisse zu verpassen, sollten Sie die Warnmeldungen genauer sortieren, indem Sie Mechanismen wie Unterdrückung, Gruppierung verwandter Warnmeldungen und individuelle Benachrichtigungsschwellenwerte implementieren.
Senden Sie unterschiedliche Benachrichtigungen an unterschiedliche Personen
Ein Alarmverwaltungsprozess, der alle Alarme an alle Teammitglieder weiterleitet, ist ineffizient. Verschiedene Alarmtypen sollten je nach Fähigkeiten und Verfügbarkeit an verschiedene Teammitglieder weitergeleitet werden. Die Tatsache, dass sich letztere Variable ändert, macht es umso wichtiger, Alarme flexibel versenden zu können. Ein Fachexperte, der in einer Stunde verfügbar und bereit ist, einen Vorfall zu bewältigen, kann in der nächsten Stunde dienstfrei haben.
Indem Sie Warnmeldungen von Anfang an an die richtigen Personen senden, vermeiden Sie einen Großteil der manuellen Arbeit, die sonst erforderlich wäre, um Probleme zu priorisieren und sie dem Personal zuzuweisen.
Melden Sie mehr als nur Ausfallzeiten
Wie oben erwähnt, bedeutet erfolgreiches Alarmmanagement heutzutage, dass man langsame Leistung erkennt, nicht nur Totalausfälle. Aus diesem Grund ist es wichtig, die Überwachungssoftware so zu konfigurieren, dass sie Alarme ausgibt, wenn Systeme die Grenzen ihrer Kapazität erreichen (wenn die Netzwerklast beispielsweise 80 Prozent übersteigt oder die Nachfrage nach einer Anwendung einen ungewöhnlichen Schwellenwert erreicht, diesen aber noch nicht überschritten hat).
Natürlich müssen Sie diesen Arten von Warnungen nicht die gleiche Priorität einräumen wie Warnungen, die einen vollständigen Ausfall signalisieren. Letztere Vorfälle wären wichtiger, um sofort davon zu erfahren und sie zu behandeln. Aber Sie möchten auch nicht warten, bis etwas vollständig kaputt geht, bevor Sie darauf reagieren. Optimieren Sie stattdessen Ihren Warnprozess, damit Sie Leistungsprobleme lange vor dem Auftreten von Ausfallzeiten beheben können.
Im DevOps Infrastrukturen sind heutzutage flexibel. Das muss auch Ihr Alarmverwaltungsprozess sein. Die Zeiten, in denen man davon ausging, dass alle Alarme gleich wichtig sind oder dass jeder Alarm gemeldet und überprüft werden muss, sind vorbei. Um die komplexe, sich ständig ändernde Infrastruktur von heute zu überwachen, ohne überfordert zu werden, ist ein optimierter Alarmierungsansatz erforderlich, der die Fähigkeit einer IT-Organisation optimiert, Alarme entsprechend ihrer Wichtigkeit zu identifizieren und zu interpretieren.