- PagerDuty /
- Der Blog /
- Alarmierung /
- Intelligente Alarmgruppierung: Was es ist und wie man es verwendet
Der Blog
Intelligente Alarmgruppierung: Was es ist und wie man es verwendet
Mitautor: Chris Bonnell, PagerDuty Data Scientist VI
Es ist 2 Uhr morgens und Sie werden angepiept, obwohl Sie noch wach sind – wie gut können Sie finden, was Sie brauchen, um den neuesten Fehler zu beheben? Zu Beginn des Vorfalls wirkt sich dies möglicherweise nur auf einen einzigen Dienst aus, aber mit der Zeit wird Ihr Gehirn hochgefahren, der Kaffee wird eingeschenkt, die Dokumente werden gelesen und die ganze Zeit über wird der Vorfall auf andere Dienste und Teams ausgeweitet, deren Warnmeldungen Sie möglicherweise nicht sehen, wenn sie nicht in Ihrem Verantwortungsbereich liegen. Obwohl Sie möglicherweise über die Benutzeroberfläche Ihres Warntool Warnmeldungen kombinieren können, die alle für denselben Vorfall relevant sind, müssen Sie dazu wissen, dass 1) andere Warnmeldungen gesendet werden und 2) dass der Vorfall in diesem oder diesen anderen Diensten für den Vorfall relevant ist, an dem Sie gerade arbeiten.
In der PagerDuty Anwendung wird ein Teil dieser Arbeit für Sie erledigt, und zwar über die Intelligente Alarmgruppierung (IAG) Funktion. Obwohl es wahrscheinlich toll ist, dass diese Funktion zumindest einigermaßen automatisch sofort funktioniert, gibt es wahrscheinlich Zeiten, in denen Sie sich wünschen, Sie könnten sie besser nutzen. Vielleicht möchten Sie die Zuordnung von Warnmeldungen zu einem Vorfall verbessern oder verhindern, dass Warnmeldungen, die fälschlicherweise demselben Vorfall zugeordnet wurden, in Zukunft zugeordnet werden. Vielleicht möchten Sie sogar das Design Ihrer Warnmeldungen optimieren, damit Sie im Nachhinein und während eines aktiven Vorfalls nicht so viele Korrekturen vornehmen müssen. Wenn das das ist, wonach Sie suchen, dann sind Sie hier richtig! In dieser Blog-Beitragsserie besprechen wir die verschiedenen Möglichkeiten, wie Sie die Genauigkeit der intelligenten Warnmeldungsgruppierung für Ihre spezifischen Anforderungen verbessern können.
Typische Herausforderungen bei Vorfällen
Die zunehmende Komplexität und Skalierung des Systemdesigns führt dazu, dass es immer schwieriger wird, Warnmeldungen zu entwickeln, die genügend Informationen vermitteln oder sogar richtig korreliert sind. Wenn wir unsere Monitore und die entsprechenden Warnmeldungen erstellen, berücksichtigen wir dabei normalerweise den betreffenden Dienst, können jedoch nicht immer effektiv abbilden, wie Abhängigkeiten auf die Latenzen und Ausfälle der anderen reagieren. Wenn Sie also mehrere Warnmeldungen für einen Dienst sehen, ist es möglich, dass eine Teilmenge davon durch andere Warnmeldungen verursacht wird und eine andere Teilmenge aus wiederholten Warnmeldungen für dasselbe Problem besteht. Je nachdem, wie Sie Ihre Benachrichtigungen entwickelt haben, ist es auch möglich, dass mehrere Teams Benachrichtigungen für mehrere Dienste erhalten, für die die Ursache nur einer davon ist.
Wenn wir darüber nachdenken, wie wir Warnmeldungen konfigurieren, wird klar, wie wir auf der Reaktionsseite in diese Situationen geraten. Wir denken vielleicht an Schwellenwerte, bei denen ein Dienst eine bestimmte Latenz- oder Ausfallzeit einplanen kann, aber die abhängigen Dienste haben möglicherweise strengere Anforderungen. Wenn diese Situationen nicht berücksichtigt werden oder unbekannt sind, können wir Situationen wie die oben beschriebene haben, in der verschiedene Teams an verschiedenen Aspekten desselben Vorfalls arbeiten, sich dessen nur nicht bewusst sind. Wir können auch das umgekehrte Verhalten beobachten, wenn ein Warnsturm ausgelöst wird und es schwierig ist, sich durch den Lärm zu kämpfen, um herauszufinden, was wo passiert und wie die Warnmeldungen in Bezug auf Vorfälle gruppiert werden sollten.
Reduzierung (eines Teils) der Komplexität
Diese Herausforderungen sind nicht neu und Sie beginnen höchstwahrscheinlich bereits, darauf zu reagieren. Wenn Sie diesen Beitrag lesen, tun Sie dies wahrscheinlich zumindest teilweise auch mithilfe der IAG-Funktion. Kurz gesagt verwendet IAG maschinelles Lernen, um Muster aus den Daten zu erstellen, die Sie an die Plattform senden, sodass diese beginnen kann, Warnungen für Sie nach den jeweiligen Vorfällen zu gruppieren. Das Ziel besteht darin, Ihnen und Ihren Teams zu helfen, die Topologie der Probleme in Ihren Systemen besser zu verstehen.
Wenn Sie mit IAG beginnen, funktioniert vieles „von selbst“, sodass Sie die Lernkurve verkürzen und so schnell wie möglich mit der Verbesserung Ihres Reaktionsprozesses beginnen können. Allerdings werden Sie irgendwann einen Punkt erreichen, an dem Sie die Gruppierung von Warnmeldungen korrigieren und optimieren müssen – und darum geht es in dieser Blog-Beitragsserie. Wir werden erläutern, wie Sie mit IAG interagieren können, um die Gruppierung von Warnmeldungen nach Vorfällen auf höchster Ebene zu verbessern.
Wie geht es weiter?
Dies ist der erste Beitrag einer Reihe, in der erläutert wird, wie Sie die Gestaltung Ihrer Warnmeldungen und Dienste in der PagerDuty Anwendung verbessern können, um die Fähigkeit der intelligenten Warnmeldungsgruppierung zum Gruppieren von Vorfällen zu verbessern. Im Einzelnen:
- So trainieren Sie die integrierten Lernfunktionen
- So erstellen Sie Warnmeldungen
- So gestalten Sie Dienste (in der PagerDuty Anwendung)
In unserem nächsten Beitrag behandeln wir das erste Thema zum integrierten Lernen und erklären, wie es funktioniert und wie Vorfälle zusammengeführt und getrennt werden. Anschließend gehen wir der Erstellung von Warnmeldungen auf und erläutern im Detail, wie die verschiedenen Felder von IAG verwendet werden und welche Informationen Sie unbedingt einschließen sollten. Im letzten Beitrag behandeln wir dann die Konfiguration von Diensten in der PagerDuty Anwendung und welche Informationen ein- und ausgeschlossen werden sollten.
Alle Beiträge dieser Reihe finden Sie unter dem ei-architecture-series tag , verweisen Sie also unbedingt auf diese Seite, wenn Sie nach nachfolgenden Beiträgen suchen!