Der Blog

Reden wir über Alarmmüdigkeit

von Julie Arsenault 3. September 2014 | 5 Minuten Lesezeit

Dies ist der erste Beitrag in unserer Serie darüber, wie Sie Daten zur Verbesserung Ihres IT-Betriebs nutzen können. Der zweite Beitrag handelt von Best Practices für aussagekräftige Kennzahlen im PagerDuty.

Screen Shot 2014-08-28 at 4.44.31 PM Alarmmüdigkeit ist ein Problem, das sich nicht leicht lösen lässt, aber es gibt Dinge, die Sie heute tun können, um es zu verbessern. Mithilfe der Daten zu Ihren Alarmen können Sie ernsthaft in die Bereinigung Ihrer Überwachungssysteme investieren und nicht umsetzbare Alarme verhindern.

Um Ihnen zu helfen, haben wir einen 7-stufigen Prozess zur Bekämpfung der Alarmmüdigkeit zusammengestellt.

Reduzieren Sie Alarmmüdigkeit in 7 Schritten

1. Verpflichten Sie sich zum Handeln

Das Aufräumen Ihrer Überwachungssysteme ist schwierig und man wird gegenüber hohen Alarmstufen schnell unempfindlich. Der erste Schritt besteht jedoch darin, sich zu entscheiden, etwas dagegen zu unternehmen. Werfen Sie einen kurzen Blick auf Ihre Daten. Wie viele Alarme erhalten Sie außerhalb der Arbeitszeiten und welche Auswirkungen haben diese auf das Team?

Screen Shot 2014-08-28 at 4.49.01 PM Nehmen Sie sich dann als Team die Zeit, Ihre Warn-Workflows zu bereinigen. Etsy hat einen „Hackwoche“ um ihr großes Problem mit der Überwachungshygiene in den Griff zu bekommen, aber es könnte auch funktionieren, ein paar Stunden pro Woche oder einen Tag pro Monat dafür einzuplanen.

 

2. Eliminieren Sie Warnungen, die nicht umsetzbar sind, und passen Sie die Schwellenwerte an

Beginnen Sie mit der Überprüfung Ihrer häufigsten Alarme (Tipp: Sie können in PagerDutys neuem Erweiterte Berichte ). Rufen Sie die Personen zusammen, die kürzlich Bereitschaftsdienst hatten, und ermitteln Sie für jeden Alarm, ob eine Aktion erforderlich war.

Wenn Sie Warnungen finden, die keine Handlung erfordern, löschen Sie sie.

Es ist üblich, die CPU- und Speichernutzung zu überwachen und entsprechende Warnungen auszugeben, da diese Indikatoren dafür sind, dass etwas nicht stimmt. Die Kennzahlen selbst sind jedoch NICHT umsetzbar, da sie keine spezifischen Informationen darüber liefern, was nicht stimmt. Etsy hat die Überwachung dieser Kennzahlen eingestellt und sich stattdessen auf Prüfungen konzentriert, die spezifischere, umsetzbare Informationen liefern.

Möglicherweise müssen Sie auch die Schwellenwerte für Ihre Schecks anpassen. Dan Slimmon von Exosite hielt einen großartigen Vortrag „Rauchmelder und Autoalarme“ , in dem erläutert wird, wie Ihnen zwei Konzepte aus medizinischen Tests dabei helfen können, nur dann Alarm zu schlagen, wenn ein Problem vorliegt. Die Konzepte sind Sensitivität und Spezifität, und zusammen ergeben sie einen positiven Vorhersagewert (PPV) – die Wahrscheinlichkeit, dass tatsächlich etwas nicht stimmt, wenn ein Alarm ausgelöst wird. Der Vortrag beschreibt auch Strategien zur Verbesserung Ihres PPV mithilfe von Hysterese (Betrachtung historischer Werte zusätzlich zu aktuellen Werten) sowie anderen Techniken.

3. Bewahren Sie sich leichtere Vorfälle für den Morgen auf

Obwohl alle Alarme wichtig sind, sind manche möglicherweise nicht dringend. Diese nicht dringenden Probleme sollten Sie oder Ihr Team nicht mitten in der Nacht wecken. Erwägen Sie die Erstellung separater Workflows für nicht schwerwiegende Vorfälle, damit diese Ihren Schlaf oder Ihren Arbeitstag nicht unterbrechen. Vergessen Sie nicht, in PagerDuty„Incident Ack Timeout“ und „Incident Auto-Resolution“ für Dienste mit geringer Dringlichkeit zu deaktivieren.

4. Zusammenfassen von zugehörigen Warnmeldungen

Wenn etwas schief geht, erhalten Sie möglicherweise mehrere Warnmeldungen zum gleichen Problem. Nutzen Sie Überwachungsabhängigkeiten, wenn Sie diese festlegen können, und nutzen Sie unsere Best Practices zur Warnmeldungskonsolidierung in PagerDuty:

  • Benutze ein Vorfallschlüssel um PagerDuty mitzuteilen, dass bestimmte Ereignisse zusammenhängen. Wenn beispielsweise mehrere Server ausfallen, kann jeder einzelne Server eine Benachrichtigung an PagerDuty generieren. Wenn diese Benachrichtigungen jedoch alle denselben Vorfallschlüssel haben, fassen wir die Benachrichtigungen zu einer Warnung zusammen, die Sie darüber informiert, dass 30 Server ausgefallen sind.
  • Während eines Alarmsturms bündelt PagerDuty auch Alarme, die nach dem ersten Vorfall ausgelöst werden. Wenn beispielsweise innerhalb von 1 Minute 10 Vorfälle ausgelöst werden, erhalten Sie nach Ihrem ersten Alarm einen einzigen, aggregierten Alarm.

5. Geben Sie den Benachrichtigungen relevante Namen und Beschreibungen

Es gibt nichts Schlimmeres, als eine Warnmeldung zu erhalten, dass etwas nicht funktioniert, ohne dass Sie Informationen darüber erhalten, wie schwerwiegend das Problem ist und was als Nächstes zu tun ist.

  • Geben Sie Ihren Alarmen aussagekräftige Namen. Wenn Sie eine Kennzahl angeben (z. B. belegten Speicherplatz), achten Sie darauf, dass genügend Kontext um die Zahl herum vorhanden ist, damit jemand sie einordnen kann. Ist der Speicherplatz zu 80 % oder zu 99 % belegt?
  • Fügen Sie der Alarmbeschreibung relevante Informationen zur Fehlerbehebung hinzu, z. B. einen Link zu vorhandener Dokumentation oder Runbooks, die dem Team helfen, tiefer zu graben. In PagerDuty können Sie Folgendes hinzufügen: Client-URL zum Vorfall oder fügen Sie einen Runbook-Link in die Servicebeschreibung ein.

6. Stellen Sie sicher, dass die richtigen Personen Benachrichtigungen erhalten

Wenn Teams mit der Überwachung beginnen, sehen wir häufig, dass sie alle ihre Warnmeldungen an alle senden. Niemand möchte Warnmeldungen erhalten, die nichtssagend sind. Wenn Sie also verschiedene Teams haben, die für bestimmte Teile Ihrer Infrastruktur verantwortlich sind, verwenden Sie Eskalationsrichtlinien in PagerDuty , um Warnmeldungen entsprechend zu verteilen.

7. Halten Sie es mit regelmäßigen Bewertungen auf dem neuesten Stand

Lassen Sie Ihre Aufräumarbeiten nicht umsonst sein. Erstellen Sie einen wöchentlichen Prozess zur Überprüfung von Warnmeldungen. Etsy hat einen coolen wöchentlichen Überprüfungsprozess entwickelt, den sie „Opsweekly“ (Github-Repository Hier ), aber wir haben von anderen Unternehmen gehört, die bei wöchentlichen Überprüfungen eine Tabellenkalkulation verwenden.

Um zu verhindern, dass Alarmmüdigkeit zur neuen Norm wird, legen Sie quantifizierbare Kennzahlen für die Bereitschaftserfahrung fest. Wenn Sie diese Grenzwerte erreichen, ist es Zeit, Maßnahmen zu ergreifen – sei es durch Überwachungsbereinigung oder eine kleine Auszeit. Bei PagerDuty prüfen wir die Anzahl der Alarme, die wir wöchentlich erhalten, und wenn diese Zahl für ein Bereitschaftsteam über 15 liegt, führen wir eine Nachbesprechung durch, um die Alarme zu überprüfen.

Am wichtigsten ist, dass Sie als Team die Verantwortung für die Überwachungshygiene übernehmen. Wenn Sie auch nur einmal eine Warnung erhalten, die nicht umsetzbar ist, machen Sie es zu Ihrer Verantwortung, sicherzustellen, dass niemand jemals wieder durch diese Warnung geweckt wird.

Zusätzliche Ressourcen:

Monitoring_Ebook_728_90