Der Blog

Ankündigung des modernen Incident-Resolution-Lebenszyklus

von Dave Cliffe 8. Mai 2017 | 5 Minuten Lesezeit

Heute freuen wir uns, eine Reihe von neue Funktionalität um eine noch schnellere Lösung und schnelleres Lernen aus schwerwiegenden, geschäftsschädigenden Vorfällen zu ermöglichen, mit dem Definitiver Incident-Resolution-Lebenszyklus . Mit dieser Version helfen wir Ihnen, schwerwiegende Vorfälle von anderen alltäglichen Betriebsproblemen zu unterscheiden und Best Practices einfach zu übernehmen, um die Vorfalllösung und das Lernen in Ihrem Unternehmen zu optimieren. Diese Phasen umfassen:

  • Bewerten - Ermöglichen Sie den Einsatzkräften eine schnelle Diagnose lokaler und globaler Auswirkungen, indem Sie Warnmeldungen gruppieren und die Priorität transparent an andere kommunizieren.
  • Antworten — Koordination zwischen Teams, Arbeiten Sie auf Ihre Weise zusammen mit Werkzeugen Ihrer Wahl und Stakeholder einbeziehen um eine unternehmensweite Reaktion zu orchestrieren und eine noch schnellere Lösung zu erreichen.
  • Lernen Erstellen Sie Post-Mortem-Zeitpläne in Minuten statt in Stunden, und beginnen Sie ein Gespräch darüber, wie Sie aus vergangenen Vorfällen lernen und sich als Organisation verbessern können.

modern incident resolution lifecycle

Die Notwendigkeit einer besseren Vorfallbehebung

Die Komplexität nimmt zu. Um den steigenden Anforderungen der Kunden gerecht zu werden, sind Unternehmen gezwungen, ihre Betriebsabläufe auf eine Weise zu skalieren, die zusätzliche Komplexität und Chaos mit sich bringt. Immer mehr Menschen sind in den Betrieb und in Reaktion auf Vorfälle , und zwar über einen immer größeren Mix aus Systemen, Anwendungen, Tools und Abstraktionsebenen hinweg, was zu immer größeren Risiken für das Unternehmen führt.

Wenn der digitale Betrieb innerhalb einer Organisation skaliert wird – insbesondere wenn Entwickler operative Verantwortung erhalten, um besitzen die Dienste, die sie in der Produktion erstellen — Eine der größten Herausforderungen besteht darin, bei einem Ausfall das bestmögliche Kundenerlebnis zu gewährleisten. Unternehmen, die ihre Reaktion auf Vorfälle verbessern möchten, müssen zunächst einheitliche Vorgehensweisen, Rollen und Terminologien festlegen.

Übernehmen Sie die Verantwortung für den Vorfallreaktionsprozess

Viele Organisationen vergeben die Aufgabe der Etablierung und Verfeinerung der Prozess zur Lösung von Vorfällen einer Person oder einem Team. Bei PagerDuty profitieren wir von der direkten Zusammenarbeit mit unseren Kunden – einigen der erfahrensten digitalen Betriebsteams der Welt. Ob Sie es nun „Insights Engineering“ oder SRE (Site Reliability Engineering) oder einfach „Major Incident Management“ nennen, der erste entscheidende Schritt ist die Beantwortung dieser Frage: Was Ist ein Vorfall mit Ihrem Produkt oder Ihrer Dienstleistung?

1. Was ist ein Vorfall?

Es kann schwierig sein, zwischen alltäglichen Problemen bei der betrieblichen Wartung und Vorfällen mit Auswirkungen auf den Kunden zu unterscheiden. Genau deshalb wird diese Bewertung am besten von den einzelnen Teams in ihrem jeweiligen Produktbereich durchgeführt. Diesen Teams einen Rahmen für Triage-Entscheidungen zu geben (P1 bis P5 oder Sev-1 bis Sev-3 oder welche Ebenen Sie auch immer verwenden möchten), ist von grundlegender Bedeutung für Gemeinsamkeiten schaffen während eines Feuergefechts. Dies neue Fähigkeit in PagerDuty hilft jetzt alle Unterscheiden Sie schwerwiegende Vorfälle von anderen kleineren betrieblichen oder nicht priorisierten Problemen.

2. Wie reagieren Sie auf einen Vorfall?

Der nächste Schritt ist die Einrichtung Wie Ihre Organisation reagiert auf Vorfälle. Wenn Sie klare Rollen für die an der Reaktion beteiligten Personen definieren können, trägt dies wesentlich zu einem effektiven Prozess bei. Auch hier gilt: PagerDutys Open-Source-Best Practices für die Reaktion auf Vorfälle ist eine großartige Quelle für das, was wir in betrieblich reifen Organisationen häufig gesehen haben und was wir selbst praktizieren. Wir Genau genommen Üben Sie den Prozess unter allen Umständen, auch während unserer Misserfolg am Freitag .

3. Besitzen Sie die Werkzeuge

Der dritte und letzte Schritt ist wahrscheinlich auch die größte Herausforderung: die Konsistenz Ihres Prozesses im großen Maßstab sicherzustellen. Aus diesem Grund erleben wir häufig, dass die Eigentümer von Vorfallmanagementprozessen die Tools erstellen oder verwalten, die die Organisation verwenden soll. In diesem Bereich zielt PagerDuty darauf ab, die organisatorische Einführung Ihres Prozesses auf zwei Arten deutlich zu erleichtern: durch Automatisierung und Vereinfachung.

Integrieren Sie Ihre Toolchain

Wenn Sie ein ITSM oder Ticketing-Lösung wie Service jetzt oder JIRA-Software ( Alle unsere Integrationen ansehen ), erweitern wir unsere Integrationen mit beiden Produkten erheblich, um doppelten Aufwand für Einsatzkräfte oder Vorfallmanager zu vermeiden und sicherzustellen, dass die Ergebnisse der Bewertungsphase Nahtlose Fütterung in Ihr bevorzugtes Tool. Wir führen außerdem zusätzliche Erweiterbarkeit ein, mit der Sie benutzerdefinierte Aktionen erstellen können, auf die Sie direkt über den Vorfall in PagerDuty zugreifen können. Dies vereinfacht die Fehlerbehebung durch Automatisierung allgemeine Aufgaben oder Korrekturen .

Um Ihren Prozess zu optimieren, führen wir auch unseren neuen Vorfall ein Postmortem-Builder um Teams dabei zu helfen, die Überprüfung und das Lernen aus einem schwerwiegenden Vorfall erheblich zu vereinfachen. Post-Mortems, auch bekannt als Vorfallberichte, Post-Incident-Berichte oder Ursachenanalysen, sind entscheidend, um die richtige Kultur rund um kontinuierliches Lernen und die Verbesserung sowohl der Dienste als auch des Vorfallreaktionsprozesses zu fördern. Darüber hinaus haben wir auch unsere Berechtigungsmodell um sicherzustellen, dass Teams ihre eigenen Artefakte verwalten können und gleichzeitig Ihren Prozess auf oberster Ebene einhalten.

Als führender Anbieter im Bereich digitales Betriebsmanagement unterstützt PagerDuty Sie bei der Skalierung Ihres Bereitschaftsprozesses Und Ihr Vorfalllösungsprozess, unabhängig davon, wie weit Sie in Ihrem operativen Reifegrad sind. Besitzen Sie den Vorfalllösungsprozess oder die Tools für Ihre Organisation? Sagen Sie uns, was für Sie funktioniert hat und wo wir uns weiter verbessern können, um Sie besser zu unterstützen!

Testen Sie alle unsere neuen Funktionen, indem Sie sich für eine kostenlose 14-tägige Testversion von PagerDuty anmelden.

JETZT REGISTRIEREN


Notiz: Die Incident Priority-Funktionalität und unsere neue JIRA-Erweiterung sind derzeit für Standard- und Enterprise-Kunden nur in begrenztem Umfang verfügbar. Bitte wenden Sie sich an support@pagerduty.com um es für Ihr Konto zu aktivieren.