Der Blog

So reduzieren Sie Lärm, lösen Probleme schneller und automatisieren häufiger mit PagerDuty

von Vivian Chan 1. Dezember 2021 | 9 min lesen

Als wir fragten So fühlen sich Technologieführer über den zunehmenden Druck auf digitale Dienste berichteten sie, dass ihre Investitionen in digitale Dienste – wenig überraschend – gestiegen sind. Tatsächlich verstärken 72 % ihre Bemühungen zur digitalen Transformation. Obwohl die Führungsebene an AIOps und Automatisierung interessiert ist, um ihre Teams zu unterstützen, ist nicht immer klar, wie ihr Ansatz aussehen sollte und wie diese Technologie eingesetzt werden kann, um die Probleme ihrer Teams heute zu lösen.

PagerDuty AIOps bietet Unternehmen einen einfach zu bedienenden, strategischen Hebel für die digitale Transformation, indem es die Aktion in umsetzbare Intelligenz umsetzt, um die Produktivität der Teams und die Zufriedenheit der Kunden zu gewährleisten. In diesem Blog gehe ich durch, wo PagerDuty AIOps jetzt steht, welche Kernprobleme wir unseren Kunden helfen zu lösen und wie unsere Kürzlich eingeführte Funktionen Machen Sie es Kunden einfacher denn je, unsere einzigartige Intelligenz zu nutzen, um Maßnahmen zu ergreifen, die die Zahl der Vorfälle verringern und ihre Lösung beschleunigen.

Wenn Sie denken: „Moment mal, ich dachte, PagerDuty macht nur Bereitschaftsdienst … seit wann gibt es bei PagerDuty eine AIOps-Lösung?“, dann bringt Sie dieser Blog auf den neuesten Stand.

Ein kurzer Überblick über die AIOps-Lösung von PagerDuty

Beginnen wir mit einem kurzen Überblick über AIOps und erinnern uns daran, warum sich die Leute überhaupt für AIOps und Automatisierung entscheiden. Es gibt zu viel Systemlärm, der die technischen Teams stört. Es gibt zu viel Komplexität, die die Lösung von Vorfällen verlangsamt. Und es gibt zu viel manuelle Arbeit, die zum Burnout der Mitarbeiter führt.

Die AIOps-Lösung von PagerDuty bewältigt zentrale Herausforderungen, indem es Teams hilft:

  1. Reduzieren Sie den Lärm, um Alarmmüdigkeit zu vermeiden. Wir verfügen über einen Funktionssatz zur Rauschreduzierung, sodass die Einsatzkräfte nicht durch unnötigen Alarmlärm gestört werden und sich auf das Signal konzentrieren können.
  2. Sorgen Sie für Situationsbewusstsein für eine schnellere Lösung. Wir verfügen über einen Funktionsumfang zum Aufdecken und Korrelieren relevanter Informationen, der den Einsatzkräften dabei hilft, sich über die Geschehnisse während und rund um einen Vorfall zu orientieren, damit sie über die nächsten Schritte entscheiden und eine Lösung herbeiführen können.
  3. Automatisieren Sie so weit wie möglich sicher. Mit der Prozessautomatisierung von PagerDuty und nativen AIOps-Funktionen wie Event Orchestration helfen wir Mitarbeitern, sich bei der Ausführung sich wiederholender manueller Aufgaben auf die Automatisierung zu verlassen, damit sie sich auf die wichtige Arbeit konzentrieren können.

Beginnen wir mit der Lärmreduzierung

PagerDuty begann mit der Integration von Rauschunterdrückung in die Kern-Vorfallreaktion, als wir Ereignisintelligenz in seinen ersten Iterationen vor ein paar Jahren. Wir sind jetzt sorgt für eine Geräuschreduzierung von bis zu 98 % für Kunden – wir bieten ihnen ein Buffet an Optionen basierend darauf, wie sie ihren Lärm abstimmen möchten und womit sie sich wohlfühlen.

Randbemerkung: Wenn Sie oft darüber nachdenken, wie Sie das System so einstellen können, dass es die gewünschten relevanten Signale durchlässt und alles andere ausblendet, geht Leeor Engel, einer unserer technischen Leiter, auf die Nuancen dieser in diesem Webinar .

Einige Teams sind mit der zeitbasierten Gruppierung von Alarmen zufrieden, während andere sich die Zeit nehmen, zu trainieren Intelligente Alarmgruppierung so lernt die Maschine, zu gruppieren und nach Mustern zu suchen, um das Problem für Sie zu lösen. Andere Teams wiederum werden von lästigen Flatteralarmen geplagt und wollen diese einfach nur loswerden – wir haben eine Funktion namens Vorfallbenachrichtigungen pausieren um genau diesen Anwendungsfall abzudecken, eine manuelle Pauseneinstellung anzubieten. Wir haben gerade eine neue Funktion eingeführt Automatisches Pausieren von Vorfallbenachrichtigungen Das Angebot umfasst sogar, dass unser maschinelles Lernen diese Warnungen für Sie stummschaltet!

Für Teams, die noch mehr Kontrolle über ihre Rauschunterdrückungseinstellungen haben möchten, Ereignisorchestrierung kann so konfiguriert werden, dass die Ereignisweiterleitung auf Bedingungen und bestimmte verschachtelte Regelsätze ausgerichtet ist. Dadurch können unnötige Unterbrechungen noch besser vermieden werden.

Erweiterung auf die Ursachenanalyse, um Kunden bei der schnelleren Problemlösung zu unterstützen

Um unseren Kunden dabei zu helfen, Vorfälle schneller zu lösen, mussten wir letztendlich Funktionen entwickeln, die die Ursachenanalyse erleichtern, denn die Fehlerbehebung ist einer der zeitaufwändigsten Teile des Vorfallreaktionszyklus.

Vergangene Vorfälle Und Ähnliche Vorfälle standen den Einsatzkräften zur Verfügung, um zu untersuchen, wie andere Teammitglieder in der Vergangenheit ähnliche Probleme gelöst haben. Die Beschleunigung in diesem Bereich begann wirklich, als PagerDuty begann, Änderungsereignisse vor einem Jahr. Seitdem haben wir diesen Funktionsumfang weiter ausgebaut, um Änderungen im Zusammenhang mit Vorfällen zu kontextualisieren und unseren Benutzern zu helfen, ein Situationsbewusstsein zu entwickeln, wenn sie mitten im Geschehen stecken. Wenn man darüber nachdenkt, wie 70 % aller Vorfälle Wenn die Grundursache des Problems eine Änderung ist, ist es durch die Verfolgung aller Änderungsereignisse und des sie umgebenden Kontexts (Wer, Was und Wann der Änderung) einfacher, die richtige nächste Änderung auszuwählen.

Der nächste Entwicklungsschritt war die Einführung Korrelation ändern , das den Einsatzkräften zeigt, welche aktuellen Änderungsereignisse für einen Vorfall am relevantesten sind. Dadurch sparen die Einsatzkräfte bei der Triage wertvolle Zeit und können potenzielle Grundursachen identifizieren. Seit August sind Änderungsereignisse und Änderungskorrelation nun in unserer mobilen App verfügbar, sodass Einsatzkräfte Vorfälle schnell triagieren und die Zeit bis zur Lösung verkürzen können, egal wo sie sich befinden.

Es kann oft schwierig sein, die eigentliche Ursache zu ermitteln. Da Systeme immer komplexer und vernetzter werden, ist es immer seltener, eine einzige Ursache zu finden. Tatsächlich bedeutet „Ursache“ nicht unbedingt, dass an der „Wurzel“ etwas nicht stimmte – es weist nur darauf hin, dass die Komplexität dieses bestimmten Zustands ein Problem verursacht hat. Der gesamte Prozess besteht darin, herauszufinden, welche der zahlreichen potenziellen Threads untersucht werden müssen, und dann tiefer zu graben, um herauszufinden, was vorab behoben werden muss, um den Vorfall zu beheben. Jetzt können die Responder Folgendes nutzen: Wahrscheinlicher Ursprung , eine Funktion auf der Seite „Vorfalldetails“ mit einer Liste wahrscheinlicher Ursprungspunkte des vorliegenden Vorfalls, die dem Helfer als Orientierung dienen kann, wo er zuerst suchen muss. In Kombination mit „Letzte Änderungen“ und „Vergangene/verwandte Vorfälle“ sind „Wahrscheinlicher Ursprung“ und andere Funktionen in dieser Kategorie darauf ausgelegt, hilfreiche Tipps zu bieten, die den Helfern dabei helfen, schneller zu einer Lösung zu gelangen, damit sie sich wieder ihrer täglichen Arbeit widmen (oder wieder schlafen) können.

Auf PagerDuty Prozessautomatisierung und mehr Automatisierung überall

Viele Führungskräfte sind von der Idee begeistert, dass sich Vorfälle durch Automatisierung selbst beheben lassen. Aber wenn man konkret gefragt wird, welche Arten von Vorfällen sie selbst beheben möchten, erhält man schnell die Lieblingsantwort eines jeden Ingenieurs: „Es kommt darauf an.“ Zu diesen Abhängigkeiten gehören die allgemeine Reife des Teams bei der Einführung der Betriebsautomatisierung, wie gut ein Problem und seine Lösung verstanden werden könnten, die Auswirkungen eines auszuführenden automatisierten Prozesses und die Reife eines Softwaredienstes selbst. PagerDuty unterstützt sowohl eine vom Menschen ausgelöste automatische Lösung für Vorfälle, die noch einer menschlichen Bewertung bedürfen, als auch eine vom System ausgelöste Automatisierung für gut verstandene Umstände.

Erstmals angekündigt beim PagerDuty Summit, Automatisierungsaktionen , , das gerade allgemein verfügbar geworden ist, verbindet die Automatisierung von Diagnose und Behebung mit dem PagerDuty Workflow für die Reaktion auf Vorfälle. Es bietet Ingenieuren eine Benutzererfahrung, um Automatisierung zu kuratieren und an Ersthelfer zu veröffentlichen, und delegiert Automatisierung, die zuvor eine Eskalation an spezialisiertere Ingenieure erforderte, sicher. Jetzt können Helfer in Situationen, die menschliches Urteilsvermögen erfordern, sicher Diagnosebefehle mit geringer Auswirkung auf Dienste ausführen, die von einem Vorfall betroffen sind, um die wahrscheinliche Ursache zu ermitteln. Sie können auch Korrekturmaßnahmen ausführen, wenn Ingenieure es für angemessen halten, eine solche Reparaturautomatisierung an ihre Ersthelfer weiterzugeben.

Diese Arbeit erfolgte parallel zur Entwicklung von Ereignisorchestrierung . Event Orchestration ist eine leistungsstarke Entscheidungsmaschine, die benutzerdefinierte Logik und verschachtelte Regeln einführt, um Aktionen auszulösen, einschließlich Automatisierungsaktionen mithilfe von Webhooks. Dies ermöglicht weniger, aber komplexere Regeln, um die Anreicherung, Änderung und Weiterleitung von Ereignissen in großem Maßstab zu steuern und so zur nächstbesten Aktion zu gelangen. Wir erhalten bereits großartiges Feedback von Kunden, die dies sowohl vor als auch nach der Mobilisierung von Menschen nutzen möchten, um Lärm zu dämpfen, bevor er zu Unterbrechungen wird, und um Aktionen weiterzuleiten oder auszulösen, die zur Lösung beitragen, wenn ein Mensch erforderlich ist. Anfang nächsten Jahres wird es möglich sein, Event Orchestration mit Automatisierungsaktionen zu verbinden, um introspektive Diagnosen und sogar korrigierende Automatisierung für gut verstandene Probleme auszulösen.

Der PagerDuty Unterschied

Wir haben einen langen Weg zurückgelegt, seit wir vor einigen Jahren Event Intelligence mit Rauschunterdrückungsfunktionen eingeführt haben. Die PagerDuty AIOps-Lösung bietet ein wirklich differenziertes Angebot mit vollständiger End-to-End-Funktionalität von der Ereignisaufnahme bis zur Vorfalllösung durch integrierte Rauschunterdrückung, Ursachenanalyse und Automatisierung auf einer einzigen domänenunabhängigen Plattform.

Ich hoffe, dass dieser Blog einige der Möglichkeiten skizziert hat, in die wir kontinuierlich investiert haben, damit PagerDuty jetzt dabei helfen kann, AIOps-Probleme zu lösen:

  • Wir helfen Teams, bessere, datengesteuerte Entscheidungen zu treffen weil unsere Lösung leicht zu starten ist und schnell Wert schafft, ohne dass Datenwissenschaftler erforderlich sind. Dies erreichen wir, indem wir tiefe Einblicke in Dienste, Einsatzkräfte, Vorfälle, Überwachung usw. gewähren, sodass Teams bessere operative Entscheidungen treffen können, ohne Experten für die Plattform sein zu müssen. Teams können sofort von ML- und Data-Science-Algorithmen profitieren, die wir mit unserem einzigartigen Datensatz entwickelt haben, um weniger Rauschen, schnellere Ursachenfindung und mehr Automatisierung zu erzielen.
  • Wir demokratisieren die Plattform, um Self-Service-Vorgänge mit dezentraler Konfiguration bereitzustellen, die auf verteilte Teams und hybride Betriebsmodelle zugeschnitten ist. Unabhängig davon, ob zentrale IT-Teams über eine einfache Schaltfläche mit der Diagnose und automatischen Fehlerbehebung versorgt werden oder DevOps-Teams nach dem Motto „Sie erstellen es, Sie besitzen es“ eine optimierte Methode zur Fehlerbehebung bei Grundursachen erhalten, fügt sich das AIOps-Angebot von PagerDuty nahtlos in jeden Tech-Stack mit über 600 Integrationspartnern ein.
  • Mithilfe integrierter Automatisierung steuern wir während des gesamten Vorfallreaktionszyklus die nächstbeste Aktion. Wir sind für kritische Aufgaben konzipiert – sei es die Event Orchestration, um die manuelle Verarbeitung durch weniger, aber intelligentere verschachtelte Regeln zu reduzieren, wahrscheinliche Ursachen und relevante Änderungen direkt im Einklang mit den Vorfalldetails aufzudecken oder die Nutzung von PagerDuty Prozessautomatisierung um weniger Eskalationen zu verursachen und die Vorfalllösung zu automatisieren.

Grab tiefer

Mehr darüber lernen PagerDuty AIOps und wie alles zusammenkommt, möchte ich Sie ermutigen, Sehen Sie sich dieses Webinar an . Oder, wenn Sie einen praktischeren Ansatz suchen, können Sie unsere Produkttour .