Der Blog

Die Zukunft der Reaktion auf Vorfälle ist automatisiert, flexibel und proaktiv

von Vivian Chan 7. Juni 2022 | 9 min lesen

Wir wissen, dass unsere Kunden auf PagerDuty als Rückgrat kritischer Echtzeitoperationen vertrauen. Daher möchten wir sicherstellen, dass jede einzelne Verbesserung dazu beiträgt, die Reaktion auf Vorfälle zu optimieren. Wie können wir unseren Kunden helfen, weniger Zeit mit der Brandbekämpfung und mehr Zeit mit Innovationen zu verbringen?

Einer der Werte von PagerDuty ist „Champion the Customer“ – und das nehmen wir sehr ernst. Beim Erstellen und Verbessern von Funktionen versuchen wir, immer auf dem Laufenden zu bleiben, was bei unseren Kunden los ist: Was bereitet ihnen schlaflose Nächte? Was brauchen sie heute? Wie haben sich ihre Umstände in letzter Zeit geändert? Und wie können wir ihnen helfen, ihre Ziele für morgen zu erreichen?

Ich habe mich mit Dan McCall, VP of Product für Incident Response, getroffen, um mehr über seine Philosophie zu erfahren, wie er auf der Tradition der erstklassigen Incident-Response-Lösung von PagerDuty aufbaut. Um mehr über alle Funktionen zu erfahren, die Dans Team bei PagerDuty entwickelt, sehen Sie sich seine Sitzung „Incident Response Keynote: Automatisiert, flexibel, proaktiv“ an. Die Registrierung ist ganz einfach: Klicken Sie einfach auf Hier .

F: Also Dan, haben sich in Gesprächen mit Kunden irgendwelche Muster herauskristallisiert? Was ist das Wichtigste?

Ich höre Kunden viel darüber reden, wie sie die Effizienz maximieren, den Arbeitsaufwand minimieren und generell datengesteuerter werden wollen, damit sie in großem Maßstab Resilienz aufbauen können. Interessant ist, dass dies der Fall ist, egal ob sie gerade erst mit DevOps beginnen oder schon seit Jahren dabei sind. Das macht Sinn – die Komplexität nimmt zu und Vorfälle treten allgemein häufiger auf, aber dies wirkt sich auf die Kunden unterschiedlich aus. Für einige ist es einfach das Ziel, die richtige Person zur richtigen Zeit zu haben, während andere die Feinabstimmung der Reaktion priorisieren, um laufende Prozesse zu rationalisieren und die Auswirkungen auf die Gesundheit der Helfer einzudämmen.

Aber es gibt eine Sache, die ich am häufigsten höre, und zwar, dass der Aufbau von Resilienz und die Skalierung der Effizienz schon in den besten Zeiten eine Herausforderung sind, aber durch die „große Kündigungswelle“ ist alles noch viel schwieriger geworden. Tatsächlich gaben in unserer jüngsten Kundenumfrage 64 % unserer Befragten an, dass sie in diesem Jahr eine höhere Fluktuation verzeichnen. Es versteht sich von selbst, dass die Fluktuation die Teams zusätzlich belastet – es braucht Ressourcen, um neue Mitarbeiter einzustellen und einzuarbeiten, und Unterbesetzung kann zu einem Teufelskreis aus noch mehr Handarbeit und Burnout führen. Und diese Situation macht es noch dringlicher, den Betrieb in einen gesünderen, reiferen Zustand zu bringen.

F: Was meinen Sie mit „betrieblicher Reife“?

Bei der operativen Reife geht es darum, Ihren Teams bessere und vorhersehbarere Erfahrungen zu bieten, damit Sie die grundlegenden Probleme, die zu Mitarbeiterabwanderung und Burnout führen, angehen und ihnen zuvorkommen können. Dazu müssen Sie Prozesse und Verhaltensweisen entwickeln, die Ihnen helfen, einen Teil dieser potenziellen Fluktuation einzudämmen.

Wir haben dieses Reifegradmodell für digitale Abläufe erstellt, nachdem wir uns Teams und Organisationen auf unserer Plattform angesehen und die beobachteten Verhaltensweisen kodifiziert hatten.

Für diejenigen unter Ihnen, die sich mit der operativen Reife noch nicht so gut auskennen: Kunden fragen uns oft, was „gut“ bedeutet. Um Unternehmen dabei zu helfen, ihre operative Reife zu messen, haben wir das Digital Operations Maturity Model entwickelt. Das Modell bietet Unternehmen eine Möglichkeit, die operative Reife zu definieren, zu lernen, wie sie feststellen können, wo sie im Spektrum liegen, und zu verstehen, worauf sie ihre Verbesserungsanstrengungen konzentrieren müssen.

Um noch einen Schritt weiterzugehen und es noch greifbarer zu machen, hat unser Produktanalyseteam das operative Reifegradmodell mit Daten auf unserer Plattform modelliert. Wir sehen, dass Reaktive Teams verzeichnen durchweg eine höhere Fluktuation als präventive Teams – allein im letzten Quartal lag die Differenz bei über dem Doppelten! Wenn man das vor dem Hintergrund der großen Resignation betrachtet, ist es klarer denn je, dass unsere Produkte einen großen Unterschied machen können, wenn es darum geht, unseren Kunden bei ihren dringendsten operativen Herausforderungen zu helfen. Ich kann Ihnen nur wärmstens empfehlen, sich diesen Vortrag „Vom Reaktiven zum Proaktiven (und darüber hinaus!)“ von Scott Bastek und Tejere Oteri anzusehen, auf den Sie zugreifen können, indem Sie sich registrieren. Hier .

F: Wie beeinflussen die Rückmeldungen Ihrer Kunden Ihre Vision für die Zukunft unserer Incident-Response-Lösung?

Wenn wir darüber nachdenken, in welche Richtung wir unser Produkt steuern können, um unseren Kunden bei dieser Transformation und der Steigerung ihrer Betriebsreife bestmöglich zu helfen, besteht die Vision meines Teams darin, die Reaktion auf Vorfälle besser zu gestalten:

  • Automatisiert um Verschwendung und Ineffizienz zu beseitigen
  • Flexibel um eine Vielzahl einzigartiger Geschäftsanforderungen in großem Maßstab zu erfüllen
  • Proaktiv um Betriebsunterbrechungen vorherzusehen und zu verhindern

Und wir werden dies tun, während wir dem Kern dessen treu bleiben, was unsere Kunden an PagerDuty kennen und lieben.

F: Automatisierung kann für viele Leute vieles bedeuten – was bedeutet automatisierte Reaktion auf Vorfälle für Sie?

Automatisierte Reaktion auf Vorfälle bedeutet für mich, dass Mensch und Maschine besser zusammenarbeiten. Um dies zu veranschaulichen, denke ich oft an das Konzept von Zentaurenschach . Die TLDR-Version lautet: KI kann einen Menschen im Schach schlagen, aber ein Mensch in Kombination mit KI kann eine reine KI schlagen.

Automatisierung als erste Verteidigungslinie ermöglicht es Teams, kritische Arbeitslasten zwischen Menschen und ihren Maschinen zu verteilen. Sie hilft den Menschen, intelligenter zu arbeiten, wenn sie gebraucht werden, und entlastet sie, wenn sie nicht gebraucht werden. Im Incident-Response-Prozess gibt es viele manuelle oder gut verständliche Aufgaben – unser Ziel ist es, Ihren Mitarbeitern diese unnötige Belastung abzunehmen, damit sie konzentriert bleiben und ihre Arbeit besser erledigen können.

Ein Beispiel dafür, wie wir dies ermöglichen, ist die Möglichkeit, die automatische Diagnose direkt aus Ihrer mobilen App heraus aufzurufen, sodass Ihr Einsatzpersonal nicht manuell eine Reihe von Aufgaben im Zusammenhang mit der Standarddiagnose ausführen muss, wenn es an seinem Schreibtisch ankommt. Durch die Automatisierung ist die Lösung bereits ausgeführt und einsatzbereit, wenn Ihr Einsatzpersonal am Einsatzort eintrifft.

Im besten Fall können Automatisierung und KI die Aufgaben übernehmen, die Ihre Teams eigentlich gar nicht erledigen sollten. Wenn Sie Ihren Mitarbeitern weniger repetitive, manuelle Arbeit abnehmen, bleiben sie engagierter, was Burnout vorbeugt und die Fluktuation verringert. Mehr Zeit zum Nachdenken und Konzentrieren auf Innovationen bedeutet auch, dass Sie die zusätzlichen Zyklen haben, die Sie benötigen, um aus Vorfällen zu lernen und Prozesse zu verbessern, um die gewünschte Belastbarkeit aufzubauen.

F: PagerDuty hat aktiv in mehrere Akquisitionen investiert – wie passt dies zu Ihrem Fahrplan?  

Wir freuen uns, mit unseren jüngsten Akquisitionen – Rundeck im Jahr 2020 und Catalytic zu Beginn dieses Jahres – wirklich starke Partnerschaften nutzen zu können, um unseren Kunden bessere Erfahrungen zu bieten.

Für die Reaktion auf Vorfälle haben wir mit unseren Kollegen aus der Rundeck-Akquisition zusammengearbeitet, um ihr Produkt (jetzt als Process Automation bekannt) zu übernehmen und Automatisierungsaktionen tief in unsere Erfahrung mit der Reaktion auf Vorfälle einzubetten – angefangen bei der Aufnahme und Ereignisorchestrierung bis hin zu Mobilgeräten und sogar unserer Web-Erfahrung.

Ersthelfer müssen bei der Einstufung und Behebung von Vorfällen häufig dieselben, sich wiederholenden Diagnoseschritte ausführen. Dies raubt ihnen wertvolle Zeit, die Spezialisten müssen sich mit der Brandbekämpfung beschäftigen, anstatt Innovationen zu entwickeln, und verlängert die mittlere Reaktionszeit (MTTR). Daher war es uns sehr wichtig, den Teams die Automatisierung ihres Vorfallreaktionslebenszyklus so einfach und unkompliziert wie möglich zu machen. Durch die Möglichkeit, die automatische Diagnose auf viele verschiedene Arten aufzurufen, können Teams Zeit sparen, die sie sonst für routinemäßige, manuelle Aufgaben aufwenden müssten. Stattdessen können sie die Ergebnisse bereits vorlegen, wenn der Ersthelfer an seinem Schreibtisch eintrifft.

Mit Catalytic verfolgen wir einen anderen Ansatz. Wenn ein Vorfall eintritt, haben Organisationen normalerweise eine Checkliste mit wichtigen Schritten, die sie durchgehen müssen. Diese Schritte sind oft manuell und schwer zu merken, insbesondere in der Hitze des Augenblicks um 2 Uhr morgens! Das Suchen und Merken dieser Schritte kann das Reaktionsteam von seinem Hauptziel ablenken: der Lösung des Vorfalls. Wir haben seit einigen Jahren leichtgewichtige Reaktionsabläufe und wurden von Kunden nach weiteren Möglichkeiten gefragt, Schritte ihrer Vorfallreaktionsprozesse flexibler zu automatisieren. Aus diesem Grund freuen wir uns, Vorfall-Workflows einzuführen.

Im Laufe des Jahres werden wir unsere leichten Reaktionsspiele in leistungsstarke Vorfall-Workflows basierend auf der neuen Workflow-Engine aus unserer Catalytic-Akquisition. Diese Workflows ermöglichen Ihnen die Definition einer orchestrierten Antwort mithilfe der „Wenn-dies-dann-das“-Logik, wodurch sich eine Abfolge gängiger Vorfallaktionen – wie das Hinzufügen eines Antwortenden, das Abonnieren von Beteiligten oder das Starten einer Konferenzbrücke – mühelos in eine orchestrierte Antwort umwandeln lässt.

Sie können Ihre Vorfall-Workflows so anpassen, dass sie die individuellen Prozesse Ihres Unternehmens für eine beliebige Anzahl von Anwendungsfällen widerspiegeln, z. B. nach Vorfallpriorität, Status oder Dringlichkeit. Und wenn Sie aus einem Vorfall lernen, können Sie dieses Wissen wieder in Ihre Workflows einfließen lassen, um diese sich wiederholenden und alltäglichen Aufgaben beim nächsten Vorfall zu automatisieren.

F: Welche dieser Ankündigungen werden unsere Kunden Ihrer Meinung nach am meisten begeistern?

Es ist schwer, nur eines auszuwählen, also werde ich zwei davon vorstellen, und Sie müssen sich meine Sitzung ansehen, um zu erfahren, was wir alles Gutes für Sie auf Lager haben. Erstens denke ich, dass die Kunden wirklich begeistert sein werden, wohin wir die Zukunft von Response Plays führen. Wir haben bereits einige erstaunliche Rückmeldungen dazu erhalten, wie Incident Workflows mit der leistungsstarken Benutzeroberfläche und der modularen Flexibilität basierend auf Dingen wie Priorität eine Verbesserung auf Schrittfunktionsebene für Response Plays liefern werden. Ich persönlich bin wirklich gespannt, was die Kunden mit Incident Workflows machen und wie sie sie sich zu eigen machen. Einer der schönen Aspekte daran, dies „auf eine Plattform-Art“ aufzubauen, ist, dass es, obwohl wir zeigen, wie es bei größeren Vorfällen nützlich sein kann, auf eine Vielzahl anderer Arten verwendet werden kann. Mehr dazu können Sie in meiner Sitzung beim Summit erfahren, wo Stephanie Gridley, eine Resilience Managerin von Wayfair, detailliert beschreibt, wie ihr Team die Funktionalität sowohl für P1- als auch für P5-Vorfälle verwenden könnte.

Kunden werden sich auch über Updates einiger Kernfunktionen freuen, die sie sich schon lange gewünscht haben, wie z. B. Benachrichtigungsvorlagen für Statusaktualisierungen. Noch interessanter wird es, wenn diese Funktionen sich schließlich gegenseitig ergänzen und noch coolere Dinge ermöglichen. Die Verknüpfung dieser Funktionen im Kontext miteinander sorgt für einen Multiplikatoreffekt, der größer ist als die Summe der Teile.

Wenn Sie mehr darüber erfahren möchten, was sonst noch auf der Incident Response-Roadmap für dieses Jahr steht, sehen Sie sich Dans virtuelle Keynote-Sitzung an: „Incident Response Keynote: Automatisiert, flexibel, proaktiv“. Es ist noch nicht zu spät, sich für den PagerDuty Summit anzumelden – hier registrieren.