- PagerDuty /
- Der Blog /
- Alarmierung /
- Beseitigen Sie Alarmmüdigkeit mit PagerDuty und Event Enrichment
Der Blog
Beseitigen Sie Alarmmüdigkeit mit PagerDuty und Event Enrichment
Zu viele Warnmeldungen machen Sie fertig? Es gibt einen besseren Weg
Dies ist ein Gastbeitrag von Ophir Ronen, Gründer von Event-Anreicherung .
Wir als IT-Experten haben einen immer umfassenderen Zugang zu präziseren Ops-Telemetriedaten. Mit diesen Daten haben wir einen unglaublichen Einblick in das, was vor sich geht. Mehr Informationen sind jedoch nicht immer gut, wenn es um Warnmeldungen geht. Es kann definitiv zu viele Warnmeldungen geben, und Alarmmüdigkeit ist ein wachsendes Problem für Operationsteams. Detailliertere Telemetrie ist nicht schlecht; viele dieser Informationen eignen sich jedoch eher für die Forensik als für Warnmeldungen.
Geben Sie die Event-Enrichment-Plattform (EEP) . Wir arbeiten mit PagerDuty zusammen, um Ihnen zu helfen, Ihre Alarme besser zu verwalten. Durch die gemeinsame Verwendung von PagerDuty und EEP können Sie sicherstellen, dass Sie nur bei Alarmen benachrichtigt werden, bei denen eine Handlung erforderlich ist, und dass Sie alle erforderlichen Informationen haben, um diese schnell zu lösen. Mit EEP können Sie Alarme als „umsetzbar“ oder „nicht umsetzbar“ klassifizieren und die nicht umsetzbaren Alarme unterdrücken. Sie können auch „Anreicherungen“ hinzufügen, also spezifische Lösungsschritte, sodass jeder, der auf den Vorfall reagiert, die Informationen zur Hand hat. Mit unserer neuen PagerDuty Integration können Sie sicherstellen, dass Ihre kritischen Alarme jedes Mal bemerkt werden.
Klassifizierungen unterdrücken laute Warnungen
Klassifizierungen bestimmen, ob eine Warnung eine Handlung erfordert oder als Rauschen unterdrückt werden sollte. Das EEP empfängt den gesamten Warnungsfluss von all Ihren Betriebsmanagementsystemen wie Nagios, Pingdom, Zenoss usw. und konvertiert sie in unser gemeinsames Basisereignisformat. Diese Warnungen, die jetzt eine gemeinsame Struktur haben, werden dann anhand aller vorhandenen Klassifizierungen und Anreicherungen ausgewertet. Der folgende Screenshot zeigt Beispiele für EEP-Rauschunterdrückungsklassifizierungen.
Einer unserer Kunden, der etwas mehr als 300 Knoten (ein heterogener Mix aus Windows, Linux, Load Balancern, Firewalls und Netzwerkgeräten) unterstützt, konnte seine Alarme um 68 % reduzieren. Er konfigurierte 37 Unterdrückungsklassifizierungen für nicht umsetzbare Alarme und 17 Anreicherungsklassifizierungen für Alarme, die behoben werden müssen. Mit diesem Unterdrückungsgrad profitiert er von einem drastisch reduzierten Ereignisfluss, angereichert mit kontextrelevanten Informationen zur Ereignisbehebung.
Anreicherungen vereinfachen die Behebung
Anreicherungen sind die spezifischen Schritte, die zur Behebung oder Fehlerbehebung des Problems erforderlich sind. Mit dem EEP werden sie in die Warnung eingebettet, damit Ihre Einsatzkräfte sofort darauf zugreifen können. Nehmen wir beispielsweise an, wir erhalten eine Windows-Warnung „Nicht genügend Speicherplatz zur Verarbeitung dieses Befehls verfügbar“. Der Bereitschafts- oder NOC-Techniker müsste wissen, was gelöscht werden kann, um Speicherplatz freizugeben. Möglicherweise befinden sich die Informationen bereits im Operations Wiki und sind sofort verfügbar, vielleicht aber auch nicht.
Das Folgende ist ein Beispiel für ein angereichertes EEP-Ereignis:
So funktioniert die PagerDuty Integration
Mit unserem neuen PagerDuty -Integration können Sie sicherstellen, dass alle Ihre umsetzbaren Warnungen bemerkt werden. Sie können angereicherte Warnungen an EEP-Benachrichtiger weiterleiten, um sie an bestimmte PagerDuty Dienste zu senden. Die Anreicherungsschritte werden im Vorfall angezeigt, und ein Link zurück zum Vorfall im EEP ist ebenfalls enthalten. Wenn Sie für eine Warnung in EEP auf „Bestätigen“ oder „Auflösen“ klicken, wird diese Aktion automatisch in PagerDuty ausgeführt. Eine Schritt-für-Schritt-Anleitung zum Konfigurieren der Integration finden Sie in unserem Integrationshandbuch , und der Screenshot unten zeigt ein Beispiel eines angereicherten EEP-Vorfalls in PagerDuty.
Verwenden Sie einen wöchentlichen Prozess, um Warnmeldungen sauber zu halten
PagerDuty hat bereits darüber gebloggt, 7 Schritte zur Linderung von Alarmmüdigkeit , und eine davon ist die regelmäßige Überprüfung von Warnungen. Diese wöchentliche Bereinigung ist mit Event Enrichment noch einfacher. Aus dem EEP können Sie eine Liste aller Ihrer jüngsten Vorfälle herunterladen. Überprüfen Sie dann in einem Meeting mit den Eigentümern von Ops-bezogenem Domänenwissen (z. B. DBAs, Neteng, Syseng, Dev) die Warnungen und ordnen Sie sie einer von zwei Kategorien zu: Unterdrücken oder Umsetzbar. In Zukunft werden Sie durch neue Warnungen, die mit unterdrückten Warnungen übereinstimmen, nicht mehr geweckt. Nach dem ersten Monat müssen Sie wahrscheinlich nur noch 10 zusätzliche Minuten zu Ihren regelmäßig geplanten Ops-Meetings hinzufügen, um alle neuen, nicht klassifizierten Warnungen zu überprüfen.
Durch den Einsatz des EEP konnten unsere Kunden die Anzahl der erhaltenen Warnmeldungen drastisch reduzieren und ihre Reaktionsprozesse optimieren. Viele Kunden berichten, dass sie innerhalb weniger Monate nach der Verwendung des EEP ihre Warnmeldungen auf nur wenige pro Tag und an manchen Tagen auf gar keine reduzieren konnten. Wir haben das EEP entwickelt, nachdem wir jahrelang im IT-Betrieb gearbeitet und die Qualen des überwältigenden Lärms in Kombination mit fehlenden Informationen zur Behebung erlebt haben. Wir freuen uns, dass auch Sie von EEP profitieren können. Beginnen Sie also mit Ihrem Heute 30 Tage kostenlos testen .