Der Blog

3 einfache Schritte zum Unterdrücken von Alarmgeräuschen

von David Cooper 17. April 2017 | 3 Minuten Lesezeit

Für viele unserer Kunden Reduzierung von Alarmgeräuschen ist eine schwierige, aber lohnende Aufgabe. Das Aufräumen Ihrer Alarme bedeutet weniger Seitenaufrufe spät in der Nacht und zufriedenere Teammitglieder. Aber diese Aufgabe kann sich wie Yak-Rasur anfühlen, wenn Sie nicht über die richtigen Werkzeuge verfügen.

In diesem Beitrag werde ich einen effektiven Workflow durchgehen, mit dem Sie diese störenden, nicht umsetzbaren Warnungen identifizieren und etwas dagegen unternehmen können. Sie können problemlos steuern, was Ihr Team benachrichtigt, ohne sich mit vorgelagerten Toolkonfigurationen herumschlagen zu müssen.

1. Verschaffen Sie sich einen Gesamtüberblick und identifizieren Sie störende Warnungen

Zunächst benötigen Sie eine ganzheitliche Live-Ansicht Ihrer Alarminfrastruktur. Um Serviceabhängigkeiten, Alarmverhalten und die Auswirkungen von Ausfällen wirklich zu verstehen, benötigen Sie eine Visualisierung, in der Sie Tausende von Datenpunkten problemlos erfassen können.

Unser Anwendung „Infrastrukturintegrität“ , die in unserem Einsatzkommandokonsole , tut genau das. Betrachten Sie es als die ultimative Zeitleiste, in der Sie die lauten, redundanten Warnungen erkennen können, die Ihr Team ständig anpiepen.

operations command console

 

2. Erfahren Sie mehr über diese Warnmeldungen

Woher kommen sie? Wie schwerwiegend sind sie?

Nachdem Sie eine Lärmquelle identifiziert haben, können Sie weitere Informationen dazu erhalten, indem Sie in unser neues Tabelle „Warnmeldungen“ . Hier können Sie Warnmeldungen in Ihrem gesamten gesamte Infrastruktur. Diese Warnungen wurden alle automatisch normalisiert über die Ereignisse-API v2 , wodurch es wirklich einfach ist, alle richtigen Informationen zu finden, ohne sich Schemata verschiedener Anbieter merken zu müssen. In meinem Beispiel kann ich sehen, dass Warnungen aus der Quelle prodsql-a alle haben Schweregrad = Info. Dies sind Informationswarnungen und sollten mein Team wirklich nicht anpiepen.

alert tables

 

3. Handeln Sie und unterdrücken Sie

Da ich Informationsmeldungen entdeckt habe, die mein Team nicht anpiepen sollten, werde ich PagerDutys verwenden. Ereignisregel-Engine um diese Informationswarnungen zu unterdrücken. Ereignisregeln innerhalb von PagerDuty umfassen mehrere Integrationen, was großartig ist, da ich keine Konfigurationen in meinen vorgelagerten Überwachungstools ändern muss und so Zeit spare.

create events rules

Voilà, ich habe erfolgreich einen nicht umsetzbaren Alarm identifiziert und eine Ereignisregel erstellt um es zu unterdrücken. Jetzt werde ich von solchen Alarmen nicht mehr per Pager benachrichtigt, aber all diese Daten sind immer noch vorhanden und werden in PagerDuty visualisiert, sodass ich jederzeit einen wirklich umfassenden Überblick über meine Infrastruktur habe.

Die richtige Balance finden zwischen Alarmunterdrückung ist ebenso eine Kunst wie eine Wissenschaft. Je mehr Informationen Sie jedoch haben und je weniger undurchsichtig Ihre Alarmierungsinfrastruktur ist, desto größer sind Ihre Chancen, sich auf das Wesentliche zu konzentrieren, weniger Wichtiges zu verpassen und letztendlich erfolgreich zu sein. Bei PagerDuty statten wir Sie mit den Lösungen aus, die Sie benötigen, um Infrastrukturereignisse zu verstehen, daraus zu lernen und intelligent darauf zu reagieren. Wir sind stolz darauf, großartige Entwicklungs- und Betriebsteams zu unterstützen, ihre Dienste verwalten in der Produktion mit Leichtigkeit.

Weitere Informationen zu diesen Lösungen finden Sie in unserer neuesten Veröffentlichung von Funktionen für Entwickler .