- PagerDuty /
- Der Blog /
- Alarmierung /
- Beseitigen Sie das Rauschen, um Alarmmüdigkeit zu lindern
Der Blog
Beseitigen Sie das Rauschen, um Alarmmüdigkeit zu lindern
Anfang des Monats bei Nagios World Conference Nordamerika Arup Chakrabarti, Operations Engineering Team Lead bei PagerDuty , hielt einen Vortrag zum Thema „Was Sie in einem Produktionssystem überwachen und worüber Sie Alarm schlagen sollten“ und erläuterte, wie man nützliche Metriken für umsetzbare Alarme herausfiltert. Falls Sie es auf der Konferenz verpasst haben, möchten wir einige seiner Best Practices zum IT-Alarmmanagement mit Ihnen teilen.
Warum gibt es ein Alarmierungsproblem?
Computer werden immer billiger und Automatisierung wird einfacher, was es einfach macht, Benachrichtigungen zu fast allem zu erhalten, aber deren Verwaltung schwierig macht. Wenn Sie Google Alerts abonnieren, um ein beliebiges Thema zu verfolgen, wissen Sie, was ich meine. Zunächst ist es toll, E-Mail-Benachrichtigungen zu „süßen Welpen“ zu erhalten, da sie einem ein Lächeln ins Gesicht zaubern. Allerdings ist der Inhalt nicht ganz das, was man will, wenn man ihn will. Anstatt sich darauf zu verlassen, dass diese Benachrichtigungen Ihnen gute Informationen liefern, werden sie nur zu Lärm.
Dasselbe gilt für die Überwachung und Warnmeldungen von IT-Anwendungen. Da die Kosten für die Datenerfassung sinken, erfassen Überwachungsanwendungen immer mehr Daten. Das ist großartig für die Analyse, aber das Problem liegt darin, dass die Warnmeldungen im gleichen exponentiellen Tempo zunehmen. Die Menschen werden gegenüber Warnmeldungen stumpf, was Warnmeldungen weniger effektiv macht. Zeitpunkt und Relevanz sind der Schlüssel zum Warnmeldungsmanagement. Um also das Rauschen zu beseitigen, deaktivieren Sie Warnmeldungen, die keine Rolle spielen.
Verfügbarkeitswarnungen: Welche Warnungen sollten deaktiviert werden?
Zunächst kann es entmutigend erscheinen, herauszufinden, welche Warnmeldungen deaktiviert werden sollen, da man befürchtet, Warnmeldungen zu übersehen, die auf ein großes Problem hinweisen. Ein gutes Maß dafür, wie wichtig IT-Warnmeldungen sind, sind die Auswirkungen auf Ihre Kunden oder „Verfügbarkeitswarnungen“. Wenn Sie ein E-Commerce-Händler sind und die Checkout-Seite des Einkaufswagens nicht funktioniert, ist dies ein Problem, das sofort behoben werden muss. Wenn jedoch ein Problem mit dem Lastenausgleich vorliegt, das das Surf- oder Kauferlebnis des Kunden nicht beeinträchtigt, ist möglicherweise keine Warnmeldung erforderlich. Bei E-Commerce-Händlern sollten sich die Warnmeldungen auf das beziehen, was die Verfügbarkeit der gewünschten Aktionen der Kunden auf der Website beeinträchtigt.
Die Analyse des Alarmverlaufs ist auch hilfreich, um den Schweregrad eines Vorfalls zu bestimmen. PagerDuty -Kunden können herausfinden, wie viele Alarme sie pro Woche erhalten haben, und sich bei jedem Alarm fragen: Wurden Maßnahmen ergriffen? War ein Kunde betroffen? Hatte ich die volle Kontrolle darüber? Zu Beginn erfordern Alarme mit niedrigerem Schweregrad um 3 Uhr morgens, dass ein Techniker den Vorfall bestätigt, bestätigt, dass er nicht kritisch ist, wieder ins Bett geht und die Grundursache am nächsten Tag behebt. Indem er Alarme in den Überwachungstools mit Schweregrad 1, 2, 3 usw. kennzeichnet oder Schwellenwerte festlegt, kann er nicht kritische Alarme schließlich mitten in der Nacht deaktivieren und sich am Morgen darum kümmern. Dadurch bleibt Raum, nur Alarme mit hohem Schweregrad über PagerDuty zu übermitteln, und die Alarmmüdigkeit wird gelindert.
Wachen Sie auf, wenn Sie es brauchen
Wenn Probleme mit Schweregrad 3 oder höher auftreten, die keine Auswirkungen auf die Kunden haben, muss der Techniker dann wirklich die ganze Nacht aufwachen, um sie zu bestätigen? Wahrscheinlich nicht. Diese Warnungen sollten zusammengefasst und am nächsten Tag bearbeitet werden. Durch die Analyse von Vorfallmustern und -schweregrad können Warnungen eine wirksame Lösung sein, um bei großen Problemen ein Gefühl der Dringlichkeit aufrechtzuerhalten und die mittlere Zeit bis zur Lösung (MTTR) zu verkürzen. Ähnlich wie bei süßen Bichon Frisé-Welpen kann es Technikern ein Lächeln ins Gesicht zaubern, wenn sie während der Bereitschaft einen Vorfall mit geringem Schweregrad verschlafen können.
Nagios-Weltkonferenz NA 2013: Was Sie in einem Produktionssystem überwachen und worauf Sie Warnmeldungen geben sollten (Video)