Der Blog

Schluss mit dem Chaos mit PagerDuty Event Intelligence

von David Shackelford 7. Juni 2018 | 4 Minuten Lesezeit

In allen Branchen und Betriebsmodellen, die wir bedienen, berichten uns Kunden, dass sie Schwierigkeiten haben, in einer Flut von Daten das entscheidende Signal zu finden. Die Systeme und Dienste, die von Teams betrieben werden, werden von Jahr zu Jahr komplexer, und die Mitarbeiterzahl wächst nie im gleichen Maße.

Dies bedeutet, dass die Menge an Telemetriedaten, mit der Organisationen umgehen müssen, mit den bestehenden Methoden nicht mehr zu bewältigen ist – viele Unternehmen bewältigen Tausende, manchmal sogar Millionen von Ereignissen pro Tag. Mehrere Organisationen haben uns erzählt, dass ihre Einsatzkräfte bei einem größeren Vorfall ihre Telefone ausschalten müssen, um zu verhindern, dass sie von einer Flut von Alarmen mit doppelten Benachrichtigungen überflutet werden. Das ist ärgerlich und ablenkend, insbesondere wenn sehr viel auf dem Spiel steht – aber schlimmer noch, es macht es auch unmöglich, das eigentliche Problem schnell zu identifizieren. Und für das Unternehmen bedeutet es verlorene Lösungszeit und zusätzliche Risiken.

Vom Event Management zur Event Intelligence

Die Reduzierung von Lärm war schon immer Teil der Mission von PagerDuty und unsere Plattform hat dies durch die Automatisierung der Bereitschaftsplanung und -eskalation, die Unterstützung einer effektiven Zusammenarbeit und Reaktion auf Vorfälle sowie die Bereitstellung von Berichten und Einblicken erreicht – und das alles auf eine Weise, die es Teams ermöglicht, ihr Schicksal selbst in die Hand zu nehmen.

Aber jetzt gehen wir noch einen Schritt weiter: mit einem neuen Produkt, das Ihrem Team Superkräfte verleiht, um die wachsende Flut an Signalen aus all Ihren Tools und Ihrer Infrastruktur zu bewältigen.

Ereignisintelligenz bewältigt viele der universellen Probleme in der Eventmanagementwelt, darunter das Sammeln von Signalen aus all Ihren Tools, das Unterdrücken von Störungen, das Korrelieren umsetzbarer Warnungen und das Übermitteln dieser Informationen an die Einsatzkräfte. Dies geschieht jedoch auf eine neue, einzigartige Weise, indem System- und menschliche Daten kombiniert werden, um Störungen zu reduzieren, Ihre Reaktion zu fokussieren und Ihr Team zu stärken.

Intelligente Alarmgruppierung entstand aus einer einfachen Erkenntnis: Mit den umfangreichen Daten aus Ihren Systemen können Sie eine Menge anstellen – aber genauso wichtig (vielleicht sogar noch wichtiger) ist, was die Einsatzkräfte mit diesen Daten machen. Die Infrastruktur skaliert und verändert sich, Teams entwickeln neue Dienste, die auf unvorhersehbare Weise interagieren, und traditionelle Befehls- und Kontrollansätze können einfach nicht mithalten.

Aber indem wir beobachten, wie Benutzer in einem Team mit ihren Betriebsproblemen umgehen, und im Laufe der Zeit aus diesem Verhalten lernen, können wir Warnmeldungen wirksam korrelieren und das Rauschen herausfiltern, selbst wenn das System wächst und sich ändert. Auf diese Weise sparen die Kunden enorm viel Zeit und Geld und ihre Helfer können sich auf wichtigere Aufgaben konzentrieren.

 

Sobald Ihre Warnmeldungen einem Vorfall zugeordnet werden können, der Maßnahmen erfordert, ist es Zeit zu reagieren. Ähnliche Vorfälle durchsucht den Reaktionsverlauf eines Kontos nach Vorfällen, die mit dem aktuellen zusammenhängen, und verwendet Datenwissenschaft, um den Helfern den genau richtigen Kontext zur Verfügung zu stellen. Helfer können leicht erkennen, ob es sich bei einem Vorfall um einen Routinevorfall oder eine potenziell gefährliche Anomalie handelt, und Notizen und andere Metadaten aus früheren Vorfällen anzeigen, um die Triage zu erleichtern. Indem sie Muster in Betriebsproblemen erkennen, die nur in aggregierter Form auftreten, sind Helfer zuversichtlicher und effektiver – und sparen wertvolle Zeit, wenn es am wichtigsten ist.

„Bei ähnlichen Vorfällen ist es, als hätte man einen zusätzlichen Einsatzkräfte im Team.“ –Corey Burke, Dialpad

Hinter den Kulissen, Erweiterte Ereignisautomatisierung filtert, bereichert und priorisiert Ihre Signale und stellt sicher, dass nichts unnötigerweise einen Menschen benachrichtigt – und dass die Signale, die Tun enthalten den richtigen Kontext, beispielsweise Runbooks und Informationen zur Problembehebung.

Wir haben viele dieser Funktionen beim letztjährigen PagerDuty Summit vorgestellt und großartiges Feedback von Hunderten von Kunden erhalten, die bereits einen Vorabzugang hatten. Sie haben uns erzählt, dass Event Intelligence manuelle Triage-Prozesse ersetzt, die Lebensqualität ihrer Helfer verbessert und ihnen unzählige Stunden an Konfiguration und Wartung erspart hat. Und wenn wir uns unsere Kunden ansehen, die diese Funktionen nutzen, haben wir eine Gesamtrauschreduzierung von 98 Prozent festgestellt, da Signale gefiltert, unterdrückt und intelligent korreliert werden.

Probieren Sie es noch heute aus

Jetzt freuen wir uns, Event Intelligence allen unseren Kunden anbieten zu können. Um loszulegen, wenden Sie sich noch heute an Ihren PagerDuty Vertreter oder Melden Sie sich für eine kostenlose Testversion an .