Der Blog

Verbesserungen über die MTTR hinaus mit PagerDuty Analytics

von Mandi-Wände 2. Januar 2024 | 8 min Lesezeit

Verbesserungen über die MTTR hinaus

Wir haben ein wenig über die Unklarheiten rund um MTTR gepostet Vor , wir möchten jedoch sowohl aus qualitativer als auch aus quantitativer Sicht tiefer auf die Verwirrung und das möglicherweise falsche Sicherheitsgefühl eingehen, das durch unser Vertrauen in die MTTR entsteht.

Unsere Freunde im LEERE Wir haben uns auch mit der MTTR aus der Perspektive befasst, dass wir den Zeitfaktor oft nicht einmal eindeutig bestimmen können. Wir erfassen die Zeit ab dem Empfang einer Warnmeldung oder vielleicht ab dem Zeitpunkt, an dem ein Kunde ein Problem meldet, aber diese Methoden sind nur so gut, wie es unsere Kennzahlen und Kundenmeldekanäle zulassen.

Wenn unsere Ziele darin bestehen, unsere Zuverlässigkeit zu erhöhen und unsere MTTR insgesamt zu senken, stellen wir möglicherweise fest, dass uns die MTTR nicht alle Informationen liefert, die wir zur Verbesserung benötigen. Wenn Sie sich für Monte-Carlo-Simulationen interessieren (und wer tut das nicht!), dieses Papier von Google geht mithilfe von Mathematik auf einige der Schwächen von MTTR ein. Viel Mathematik.

Gemein sein gegenüber dem Gemeinen

Sie haben wahrscheinlich in der Schule etwas über zusammenfassende Statistiken wie Mittelwert, Modus und Median einer Wertemenge gelernt. Der Modus ist dabei wirklich der seltsamste, denn er ist der Wert, der am häufigsten vorkommt. Der Median ist der mittlere Wert der Menge, wenn sie in numerischer Reihenfolge angeordnet ist, und der Mittelwert ist der Durchschnitt aller Werte.

Wir verwenden den Mittelwert ziemlich oft bei der Reaktion auf Vorfälle. Ihr Team kann Ihre mittlere Zeit bis zur Bestätigung zusätzlich zu Ihrem mittlere Zeit bis zur Wiederherstellung/Reparatur/Lösung . Wenn wir über den Mittelwert einer Zahlenmenge nachdenken, erinnern wir uns an Beispiele aus dem Algebraunterricht wie „die durchschnittlichen Testergebnisse in einer Geschichtsprüfung“ oder „die Durchschnittstemperatur in unserer Stadt in diesem Monat“. Dies sind Zahlen, die bereits innerhalb eines klar definierten Bereichs mit vernünftigen oberen und unteren Grenzen liegen. Sie sind sehr nützlich für Mengen mit einem normal Verteilung.

Das Verrückte an Ihrer Lösungszeit ist, dass es praktisch keine Obergrenze gibt. Abhängig von den Grenzen, die Ihr Team für MTTR festlegt, können Vorfälle im Grunde ewig andauern, was MTTR … seltsam erscheinen lässt.

screenshot crop of the PagerDuty Web UI. A single graph labeled “MTTR” with dates on the X-axis, November 7th to December 5th. Other metadata shows the Mean as 3 hours and 17 minutes. A small box shows an arrow pointing down and the value 4 hours and 56 minutes, implying an improvement from some earlier timeframe that is not indicated. The Y-Axis is labeled “Hours”. A set of datapoints is plotted in green and connected with a green line. Most of the datapoints are close to the zero value, but one, November 13th, is above 150.

Zusammenfassende Statistiken sind hilfreich, um die Eigenschaften einer Reihe von Werten zu abstrahieren. Sobald diese Werte jedoch ihre Grenzen zu überschreiten beginnen, müssen Sie Entscheidungen über die Nützlichkeit von Aspekten wie dem Mittelwert treffen oder möglicherweise entscheiden, wie mit Anomalien umgegangen werden soll. Und bei Softwarevorfällen können Anomalien völlig legitim sein. Teams warten möglicherweise darauf, dass Arbeiten genehmigt und bereitgestellt werden oder dass ein Upstream-Anbieter einen Fix herausgibt.

Für andere Daten im Bereich der Zuverlässigkeit hat sich die Branche weiterentwickelt und ist zu robusteren und nützlicheren Datenmaßen übergegangen, die in einer schief oder multimodal Verteilung. Vielleicht betrachten Sie einige Ihrer Daten basierend auf Perzentile anstelle von Mittelwerten. Dadurch erfahren Sie mehr über die Form der Werte selbst und wie wahrscheinlich ein „schlechter“ Wert für den ausgewählten Datenpunkt ist.

Für Qualität, nicht für Quantität

Für viele Teams, die in komplexen Umgebungen arbeiten, kann es schwierig sein, die MTTR zu verbessern, da es sich nicht um eine flache, eindimensionale Funktion handelt. Sie ist oft ein stumpfes Instrument, aber für Teams ohne Erfahrung im Vorfallmanagement ist sie ein guter Ausgangspunkt. Sobald Sie die Mechanismen Ihrer Vorfallreaktions-Workflows im Griff haben, beginnen einige der Mängel der MTTR sichtbar zu werden.

Denken Sie an die Testergebnisse der Geschichtsprüfung, die ich vorhin erwähnt habe. Alle Schüler der Klasse haben dieselbe Prüfung abgelegt; sie hatten wahrscheinlich vor der Prüfung Zugriff auf dieselben Vorlesungen und Materialien. Wenn einer der Schüler seine Punktzahl bei der nächsten Prüfung verbessern möchte, wird er mehr lernen. Was sollte Ihr Team tun, um Ihre MTTR zu verbessern? Können Sie mehr lernen?

Darüber hinaus hoffen wir, dass Sie bei Ihren Vorfällen nicht immer wieder dasselbe Problem lösen. Wir möchten, dass die Leute aus Vorfällen lernen und diese Erkenntnisse nutzen, um die Zuverlässigkeit ihrer Dienste zu verbessern. Außerdem gibt es viele weitere Faktoren, die die Umgebung Ihrer Dienste verändern: Nutzungsmuster der Kunden, neuer Code und neue Funktionen, andere Änderungen. Es ist sehr schwer zu sagen: „Vorfall 150 in diesem Monat ist genau wie Vorfall 120 im letzten Monat und hat weniger Zeit gedauert“, weil die Umstände der Umgebung nie dieselben sind.

Herauszufinden, was in einem komplexen System vor sich geht, um einen Vorfall zu beheben, kann ein komplizierter Prozess sein, an dem mehrere Systeme und Teams beteiligt sind. Der Vergleich der Wiederherstellungszeit für jeden Vorfall, den ein Dienst in einem bestimmten Zeitraum hat, sagt nicht viel darüber aus, wie sich dieser Dienst verhält. Komplexe Vorfälle sind mehrdimensional und was wir über sie wissen, ist wichtig für unsere Verbesserung und unsere Lernprozesse.

Ein Großteil der qualitativen Diskussion zu einem Vorfall sollte während der Nachbesprechung des Vorfalls erfolgen. Wenn Sie jedoch nach Trenddaten suchen, die Verbesserungen aufzeigen, gibt es einige Möglichkeiten, Ihre Vorfälle aufzuschlüsseln, um einen besseren Blick auf das Gesamtbild zu erhalten und Ihren Teams Hinweise darauf zu geben, was verbessert werden muss.

Sollten Sie sich die Mühe machen, MTTR zu messen?

Wir sehen, dass viele Teams, die PagerDuty ohne einen vorhandenen Vorfallmanagementplan verwenden, ihre MTTR in kurzer Zeit drastisch verbessern. Ein großer Teil der Lösung von Vorfällen besteht darin, Teams zu mobilisieren, Automatisierung einzubauen und zu kommunizieren. Für Leute, die darin noch nicht so geübt sind, ist die Einrichtung guter Tools der Beginn eines neuen Tages. Die Protokollierung von Verbesserungen der MTTR ist für diese Teams ein guter Anfang.

Sobald Ihr Team einen Incident-Response-Workflow effektiv nutzt, ist es unwahrscheinlich, dass die Konzentration auf MTTR allein zu einer weiteren Verbesserung Ihrer Servicezuverlässigkeit führt. Ihre MTTR könnte absolut gleich bleiben, steigen oder sogar sinken, wenn Sie verdoppelt die Anzahl der Vorfälle, die Sie bei einem Dienst haben, aber der Datensatz hatte denselben Bereich (das Google-Dokument zeigt ein Beispiel für diese Szenarien). Ihre Benutzer würden jedoch definitiv das Gefühl haben, dass Ihre Zuverlässigkeit abgenommen hat, wenn Sie mehr Vorfälle haben. MTTR kann diese Änderung der Gesamtzuverlässigkeit nicht offenlegen. Die Verwendung eines Mittelwerts verkleinert die Details zu sehr.

Es gibt noch weitere Informationen, die Sie einsehen können. Viele davon sind im Analytics-Angebot von PagerDuty enthalten, als Teil des Einblicke Berichte. Diese helfen Ihnen dabei, tiefer in die anderen Dimensionen Ihrer Vorfälle einzudringen, erfordern jedoch, dass Sie bei der Datenhygiene sorgfältig vorgehen.

Ein guter Datenpunkt, auf den sich Teams konzentrieren sollten, ist die Sicherstellung, dass Vorfällen eine Priorität zugewiesen wird.

Prioritäten

In Ihrem PagerDuty -Konto haben Sie die Möglichkeit, eine Reihe von Prioritäten die mit Ihren Zuverlässigkeitszielen übereinstimmen. Ihr Team kann bestimmen, was die Prioritätsstufen darstellen, z. B. den Prozentsatz der betroffenen Kunden oder die Dauer eines Vorfalls oder andere Heuristiken, die für Sie sinnvoll sind.

Einem Vorfall wird nicht automatisch eine Priorität zugewiesen. Einige Teams verwenden Warndaten, um die Priorität zu bestimmen. Ereignisorchestrierung und andere Teams aktualisieren die Priorität im Verlauf des Vorfalls manuell. Andere Teams warten möglicherweise, bis der Vorfall behoben ist, und aktualisieren die Priorität nachträglich, um den Vorfall genauer widerzuspiegeln.

Wenn Sie jedem Vorfall, auf den Ihr Team reagiert, Prioritäten zuweisen, können Sie sehen, wie Ihr Team bei den schwerwiegendsten Vorfällen abschneidet. Außerdem können Sie die Priorität als Filter auf dem Bildschirm „Einblicke“ verwenden. In den Übersichtsdaten werden Ihnen Übersichtsdaten und Trends für die wichtigsten Prioritäten angezeigt.

a screenshot of the PagerDuty WebUI, showing the top summary section of the new “Insights” report. The first tab, “Incident Activity” is shown. Other tabs are “Service Performance”, “Responder”, “Escalation Policy”, and “Business Impact”. There are selection boxes to filter data based on “Team” - set to “My Teams (1)”; “Service” - “6 Services Selected”; “Urgency” - “All”; “Priority” - “All”; and “Date Range” - “May 13, 2022 to Oct 28 2022”. Below the filters are four boxes. “Total Incident Volume” shows 168 and notes an increase of 16 compared to September 1-29, 2022. “Total Response Effort” shows 96 hours 55 minutes, an increase of 11 hours and 19 minutes also compared to September. “MTTA” shows 3 minutes 45 seconds, a decrease of 1 minute. And “MTTR” of 58 minutes, an increase of 11 minutes.

Dies hilft Ihnen, die Heterogenität Ihrer Vorfälle besser zu verstehen und sich auf die Vorfälle zu konzentrieren, die für Ihre Benutzer am wichtigsten sind. Wenn Ihr Team viele Vorfälle mit niedriger Priorität und kurzer Dauer hat, gibt Ihnen Ihre MTTR keinen Aufschluss über die geringere Anzahl von Vorfällen mit hoher Priorität.

Die Beobachtung der Anzahl von Vorfällen mit hoher Priorität bei benutzerorientierten Diensten, kombiniert mit einer Reihe von benutzerorientierten Servicelevel (SLO) , kann Ihrem Team dabei helfen, Benchmarks zu setzen und bessere Entscheidungen zu treffen. Wenn ein Dienst in den letzten 30 Tagen zu viele SEV-1-Vorfälle mit Auswirkungen auf den Kunden hatte und das SLO kurz vor einer Verletzung steht, können Entwicklungsteams eine fundierte Entscheidung treffen, Releases einzufrieren oder zuverlässigkeitsbezogene Funktionen zu priorisieren, um die Dienstzuverlässigkeit wiederherzustellen.

Zusammenfassung

Wenn Sie Ihre MTTR im Auge behalten, kann dies eine hilfreiche Methode sein, um die Verbesserungen Ihres Teams zu messen, während Sie einen neuen Workflow für die Reaktion auf Vorfälle einführen. Erfahrenere Teams können mehr Vorteile daraus ziehen, tiefer in ihre Vorfalldaten einzutauchen, und PagerDuty Analytics kann dabei helfen. Weitere Informationen und einige der neuesten Funktionen in Analytics finden Sie auf unserer Youtube Kanal wo wir einige der neuesten Features veröffentlicht haben! Weitere Informationen finden Sie auf der Einblicke und das neue Analyse-Dashboard mit unserem Produktteam!