Der Blog

Einführung des PagerDuty Common Event Format

von Ophir Ronen 20. April 2016 | 3 Minuten Lesezeit

Seit seiner Einführung ist PagerDuty zum Standard geworden für Warnmeldungen für den IT-Betrieb . Als unsere Liste der Partner Integrationen Und Kunden ist gewachsen, das Volumen der von PagerDuty aufgenommenen IT-Betriebsereignisdaten hat ebenfalls zugenommen. Wir erforschen ständig verschiedene Methoden, mit denen wir die Reaktion auf Vorfälle (und das gesamte Vorfallmanagement) mithilfe dieses faszinierenden Datensatzes verbessern können.

Insbesondere eine Methode, die Ereignis- und Alarmkorrelation (die Aggregation einzelner Ereignisse und Alarme zu relevanten Vorfällen), ist vielversprechend bei der Optimierung des IT-Betriebs. Durch die Korrelation von Ereignissen und Alarmen zu Vorfällen wird das Rauschen reduziert und die Ursachenanalyse verbessert. Bis vor kurzem wurden die an PagerDuty gesendeten Alarmdaten aus dem ursprünglichen Format jeder Integration in einen unstrukturierten Blob abgebildet, der die relevanten Ereignisdetails umfasste. Obwohl dieser Mechanismus und dieses Ereignisformat für Benachrichtigungen geeignet sind (wir leiten alle Details weiter, die uns gesendet werden), ist es nicht das beste Format für die Ereignisklassifizierung und -korrelation.

Eine neue Möglichkeit zum Anzeigen von Ereignisdaten

Da wir erkannten, dass wir einen neuen, besseren Weg finden mussten, um die Bedürfnisse unserer Kunden zu erfüllen, schufen wir ein neues Veranstaltungsformat – das Gemeinsames Ereignisformat von PagerDuty (PD-CEF) . PD-CEF ist ein strukturiertes Ereignisformat, das integrationsunabhängig ist, sodass PagerDuty leistungsstarke neue Funktionen bereitstellen kann.

Wenn Ereignisse aus allen Ihren IT-Betriebsmanagement- und Überwachungstools in ein gemeinsames Format normalisiert werden, wird es möglich, Ereignisse zu korrelieren und Richtlinien zu erstellen, die Ereignisse aus mehreren Quellen umfassen. Mehr normalisierte Ereignisse aus mehreren Systemen bedeuten ein besseres und umfassenderes Situationsbewusstsein hinsichtlich des Status Ihrer IT-Infrastruktur. Ein verbessertes Situationsbewusstsein hat direkte Auswirkungen auf die Verbesserung kritischer Kennzahlen wie Mittlere Reparaturzeit Die maximale mittlere Ausfallzeit (MTTR) beträgt 10 Minuten.

PD-CEF ist die neue Möglichkeit für Sie, Ihre Ereignisdaten anzuzeigen, und wir stellen es Ihnen heute in der PagerDuty Benutzeroberfläche zur Verfügung. Wir haben PD-CEF aktiviert für AWS CloudWatch , Splunk-Webhook , Datenhund , Sensu , Und Nagios – und weitere Integrationen sind auf dem Weg.

pd-cef-visual-updates-may-2016

Wenn Sie alle Ihre Warnmeldungen aus verschiedenen Anbieterquellen im gleichen Format sehen, können Sie sich ein besseres Lagebewusstsein verschaffen.

Ein Beispiel für PD-CEF kann einer Organisation helfen, die möglicherweise AWS CloudWatch Und Datadog-Integration ist wie folgt:

  • AWS Cloudwatch-Ereignisse haben Felder wie: Trigger, OldStateValue, NewStateValue, NewStateReason, Region, StateChangeTime, AlarmName, AlarmDescription.
  • Datadog hat ein eigenes Format mit Feldern wie Text, Priorität, Abfrage, Ereignistyp, Titel, Ereignis-ID, Organisation und Tags.


Wenn ein Vorfall eintritt und diese beiden Überwachungssysteme entsprechende Alarme generieren, wird viel Zeit darauf verwendet, die verschiedenen Ereignisformate zu entschlüsseln. Mit PD-CEF werden alle Ereignisse – unabhängig von der Quelle des Anbieters – auf dasselbe Format normalisiert. Dies verringert die kognitive Belastung der Bereitschaftstechniker und ermöglicht ihnen eine schnellere Fehlerbehebung als je zuvor.

Wir investieren viel und freuen uns darauf, gemeinsam mit Ihnen an der Zukunft eines effizienten und skalierbaren IT-Betriebs zu arbeiten.

PD-CEF steht Ihnen heute zur Verfügung, um Ihre IT-Betriebsumgebung zu optimieren. Schreiben Sie mir eine Nachricht und teilen Sie mir mit, was Sie von PD-CEF halten.

Ophir Ronen
ophir@pagerduty.com