Der Blog

Reduzierung der Alarmmüdigkeit in modernen Operationen

von Ilan Rabinovitch 24. August 2017 | 5 Minuten Lesezeit

Dies ist ein Gastbeitrag von Ilan Rabinovitch, Direktor für Produktmanagement bei Datenhund .


Durch die Kombination aus schneller Funktionsentwicklung, Automatisierung, kontinuierlicher Bereitstellung und der sich ändernden Zusammensetzung moderner Technologie-Stacks sind die Überwachungsanforderungen auf ein potenziell überwältigendes Niveau gestiegen. Die Systeme, die Sie überwachen müssen, sind zwar komplex, Ihre Überwachungsstrategie muss es jedoch nicht sein.

Bei Datadog sehen wir die Nachfrage nach Überwachung im großen Maßstab als Produkt von vier Änderungen :

  1. Zunehmende Anzahl an Infrastrukturkomponenten (Microservices, Instanzen, Container)
  2. Häufigkeit von Code- und Konfigurationsänderungen
  3. Anzahl der Personen und Rollen, die mit der Infrastruktur interagieren
  4. Verbreitung von Plattformen, Tools und Diensten (von einigen wenigen Anbieterpaketen bis hin zu zahlreichen gehosteten Diensten und Open-Source-Software)

Das Ausmaß und die Geschwindigkeit der Veränderungen, die heute im operativen Geschäft stattfinden, erfordern eine sorgfältig ausgearbeitete Überwachungs- und Vorfallreaktionsstrategie. Eine einfache Strategie erleichtert die Überwachung.

Überwachen Sie alles

Unser Verbindendes Thema für die Überwachung Ist:

Das Sammeln von Daten ist günstig, aber wenn man sie nicht zur Hand hat, wenn man sie braucht, kann das teuer werden. Sie sollten daher alles instrumentieren und alle nützlichen Daten sammeln, die Sie vernünftigerweise sammeln können.

Wenn Sie so viele Dinge gleichzeitig überwachen, sind automatische Warnmeldungen und eine effektive Strategie zur Reaktion auf Vorfälle sind unverzichtbar, um Serviceunterbrechungen zu vermeiden oder zu minimieren.

Eine effektive Strategie zur Reaktion auf Vorfälle muss eindeutig Probleme, die sofortige Aufmerksamkeit erfordern, von Problemen trennen, die warten können. Wenn Sie nicht die richtige Balance finden, riskieren Sie Alarmmüdigkeit , was dazu führen kann, dass echte Probleme übersehen werden.

Unser übergreifendes Ansatz zum Alarmmanagement Ist:

  • Sammeln Sie großzügig Warnmeldungen und benachrichtigen Sie umsichtig (insbesondere per Telefon/SMS).
  • Seite zu Symptomen, nicht zu Ursachen
  • Verhindern Sie Alarmmüdigkeit, indem Sie in Ihren Benachrichtigungen das Signal vom Rauschen trennen

Alarmtypen

Obwohl wir empfehlen, Warnmeldungen großzügig zu sammeln, werden nicht alle Warnmeldungen auf die gleiche Weise behandelt. Sie können Warnmeldungen in einige Typen organisieren: Datensätze (in Ihrem Überwachungssystem zur späteren Bezugnahme gespeichert) oder Alarme, bei denen je nach Schweregrad die richtige Benachrichtigungsdringlichkeit ausgewählt wird (z. B. E-Mail oder ein anderer unterbrechungsfreier Kanal für einen Alarm mit geringer Dringlichkeit und Telefonanruf für einen Alarm mit hoher Dringlichkeit).

Den passenden Alarmtyp können Sie durch die Beantwortung von drei Fragen ermitteln:

Frage 1: Ist das Problem real?

NEIN – Keine Warnung erforderlich. Beispiel: Metriken in einer Testumgebung

Ja – Fahren Sie mit Frage 2 fort.

Frage 2: Erfordert das Problem Aufmerksamkeit?

NEIN – Da kein Eingriff erforderlich ist, wird der Alarm einfach verzeichnet für den Kontext, falls ein schwerwiegenderes Problem auftritt.

Ja – Gehen Sie zu Frage 3.

Frage 3: Ist das Problem dringend?

NEIN – (Geringe Dringlichkeit): Da eine Intervention nicht sofort Falls erforderlich, können Sie automatisch eine Benachrichtigung über einen unterbrechungsfreien Kanal wie E-Mail, Chat oder Ticketsystem senden.

Ja – (Hohe Dringlichkeit): Diese Probleme erfordern unabhängig von der Uhrzeit ein sofortiges Eingreifen, z. B. ein Ausfall oder eine SLA-Verletzung. Die Helfer sollten in Echtzeit per Telefonanruf, SMS oder über einen anderen Kanal benachrichtigt werden, der ihre volle Aufmerksamkeit erhält.

Symptome, nicht Ursachen

Wenn eine Warnung so schwerwiegend ist, dass jemand per Paging benachrichtigt werden muss, sollte diese Paging-Nachricht in den meisten Fällen verknüpft sein mit Symptome , nicht Ursachen.

Ein System, das aufhört, nützliche Arbeit zu leisten, ist ein Symptom das könnte eine Vielzahl von Ursachen . Ein Symptom ist beispielsweise, wenn eine Website drei Minuten lang sehr langsam reagiert. Mögliche Ursachen sind Datenbanklatenz, ausgefallene Anwendungsserver, hohe Auslastung usw.

Die Paginierung nach Symptomen lenkt die Aufmerksamkeit auf echte Probleme mit potenziellen Auswirkungen auf den Benutzer. Symptome weisen in der Regel auf echte Probleme hin, statt Potenzial oder interne Probleme, die möglicherweise nicht kritisch sind, Benutzer nicht beeinträchtigen oder ohne Eingriff auf ein normales Niveau zurückkehren. Im Idealfall können alle zusammengehörigen Warnmeldungen automatisch gruppiert werden, sodass die Einsatzkräfte beim Ausrufen über den gesamten erforderlichen Kontext verfügen, um zu diagnostizieren, was vor sich geht, und eine Reaktion zu koordinieren.

Symptomgesteuerte Warnmeldungen weisen nicht nur auf echte Probleme hin, sondern sind in der Regel auch dauerhafter, da sie immer dann ausgelöst werden, wenn ein System nicht mehr so funktioniert, wie es sollte. Mit anderen Worten: Sie müssen Ihre Warnmeldungsdefinitionen nicht jedes Mal aktualisieren, wenn sich die zugrunde liegende Systemarchitektur ändert. In einer Umgebung mit dynamischer Infrastruktur und vielen beweglichen Teilen vermeiden dauerhafte Warnmeldungen zusätzliche Arbeit und verringern das Risiko blinder Flecken.

Eine Ausnahme von der Symptomregel besteht, wenn ein Problem mit hoher Wahrscheinlichkeit zu einem ernsthaften Problem wird, obwohl das System angemessen funktioniert. Ein gutes Beispiel ist knapper Speicherplatz. In diesem Fall ist eine Ursache ein legitimer Grund, eine Seite zu versenden, noch bevor Symptome auftreten.

Weitere Alarmierungsstrategien

Die Einführung eines sinnvollen Rahmens für die Überwachung, Alarmierung und Paging helfen Ihren Teams, Probleme in der Produktion effektiv zu beheben, ohne von Fehlalarmen oder schwankenden Warnungen überwältigt zu werden. Weitere Überwachungsstrategien finden Sie in unserem Überwachung 101 Serie. Oder Sie können am Datadog-Stand vorbeikommen unter PagerDuty Gipfel 2017 . Wir zeigen Ihnen gerne einige dieser Prinzipien in der Praxis und besprechen, wie Sie Ihre Überwachungsstrategie anpassen können, um moderne Anwendungen besser beobachtbar zu machen. Wir hoffen, Sie dort zu sehen.