Der Blog

Die Kosten zunehmender Vorfälle: Wie sich COVID-19 auf MTTR, MTTA und mehr auswirkte

von Hannah Culver 6. Oktober 2021 | 7 min Lesezeit

Die digitale Transformation hat in den letzten 18 Monaten für viele Unternehmen an Fahrt aufgenommen. Auch wenn sie schon vor COVID-19 auf der Tagesordnung stand, wurden die Teams zu Höchstleistungen gedrängt, um zu digitalisieren und die steigende Online-Nachfrage zu erfüllen. In dieser Zeit haben Unternehmen wichtige Lektionen gelernt, die sie in diese neue Zukunft mitnehmen werden. Führungskräfte können diese Erkenntnisse nutzen, um bessere Produkte, gesündere und effizientere Teams und einen zufriedeneren Kundenstamm aufzubauen.

Einige dieser Schlüsselergebnisse haben wir in unserem Bericht zum Stand digitaler Abläufe . Eine wichtige Lektion, die wir gelernt haben, ist, dass die Zahl kritischer Vorfälle zwischen 2019 und 2020 im Vergleich zum Vorjahr um 19 % zugenommen hat, und es sieht nicht so aus, als würde sich die Zahl der Vorfälle in absehbarer Zeit verringern.

Einige Organisationen hatten in diesem Zeitraum mehr Möglichkeiten zum Lernen und Wachsen als andere. So war der höchste Anstieg kritischer Vorfälle in der Reise- und Gastgewerbebranche sowie in der Telekommunikationsbranche zu verzeichnen, wo es 20 % mehr kritische Vorfälle gab. Ende März 2020 stellten wir fest, dass stark belastete Branchen, darunter Online-Lernplattformen, Kollaborationsdienste, Reisen, nicht lebensnotwendiger Einzelhandel und Unterhaltungsdienste, bis zu elfmal so viele kritische Vorfälle erlebten.

In dieser Folge unserer Blogserie zum Stand digitaler Abläufe , sprechen wir darüber, wie sich das Jahr 2020 auf Kennzahlen wie MTTR (mittlere Zeit bis zur Lösung) und MTTA (mittlere Zeit bis zur Bestätigung), Burnout- und Fluktuationsraten ausgewirkt hat und was Führungskräfte tun können, um das Leben ihrer Teams und ihrer Kunden im Hinblick auf eine digitale Zukunft zu verbessern.

Wie haben sich MTTA und MTTR verändert?

MTTA ist die Zeit, die ein Responder benötigt, um den Alarm zu bestätigen. MTTR ist die Zeit, die benötigt wird, um den Vorfall tatsächlich zu lösen. Dies sind nicht die einzigen Kennzahlen, die die operative Exzellenz bestimmen, dennoch verwenden viele Organisationen sie als Proxy und leiten daraus wichtige Erkenntnisse ab. Diese Erkenntnisse sind nützlich, um Stärken und Schwächen in Vorfallreaktionsprozessen zu ermitteln.

Unsere Plattformdaten haben gezeigt, dass sich die MTTR zwar verbessert, die Gesamtzeit für die Lösung von Vorfällen jedoch immer noch zunimmt. Dies ist wahrscheinlich auf die zunehmende Anzahl kritischer Vorfälle zurückzuführen. Während die Anzahl der Vorfälle steigt, steigt die Gesamtzeit für die Lösung von Vorfällen immer noch an, auch wenn die Teams besser darin werden. Dies fordert seinen Tribut von den technischen Teams, da sich ihre Arbeitslast von geplanten zu ungeplanten Arbeiten verlagert.

MTTA sinkt zusammen mit MTTR. Wenn Teams PagerDuty einführen, können sie ein höheres Maß an Reife digitaler Abläufe über die Plattform. Die Reife digitaler Abläufe ist der Grad der Kompetenz, den Teams von manuellen bis zu präventiven Abläufen bei der Erledigung dringender Aufgaben haben. Jeder Schritt ist durch Schlüsselkompetenzen gekennzeichnet. Wenn Teams in der Lage sind, die Reaktion auf Vorfälle zu standardisieren, verbessert sich ihre MTTR. Wenn sie effizientere Bereitschafts- und Warnregeln erstellen, verbessert sich ihre MTTA.

Ein weiterer Aspekt von MTTA ist der Ack%-Wert, also die Anzahl der kritischen Alarme, die bestätigt werden, nachdem ein Alarm ausgelöst wurde. Dies ist eine weitere Möglichkeit, die betriebliche Reife nachzuweisen. Je höher der Ack%-Wert ist, desto reaktionsschneller und zuverlässiger sind Ihre Teams. PagerDuty -Benutzer konnten den Ack%-Wert über die Lebensdauer eines Kontos erhöhen. Je länger das Konto PagerDuty verwendete, desto besser waren der Ack%-Wert und MTTA. Selbst bei einer Aufteilung der Leistungskohorten, bei der das 10. Perzentil fast doppelt so schnell Vorfälle bestätigte wie das 25. Perzentil, verbesserten sich die MTTA aller Konten im Laufe der Zeit.

Die mobile Nutzung der PagerDuty -Anwendung trägt zur Verbesserung von MTTA und Ack% bei, da Bereitschaftsteammitglieder selten in Reichweite sind, um auf einen Alarm reagieren zu können. Das bedeutet, dass kundenrelevante Probleme schneller denn je bearbeitet werden. Aber es bedeutet auch, dass die Techniker nie wirklich von der Arbeit weg sind. Da die Grenzen zwischen Arbeit und Zuhause verschwimmen, ist es wichtig, die Bedeutung dieser Alarme für technische Teams zu verstehen.

Welche Auswirkungen hatten Burnout und Fluktuation?

Ein abrupter Weckruf um 2 Uhr morgens kann eine Unannehmlichkeit sein, wenn er alle paar Monate einmal vorkommt. Aber wenn er mehrmals pro Woche vorkommt, ist der Effekt ausgeprägter; die Teams beginnen auszubrennen, ihre psychische Gesundheit leidet und schließlich verlassen sie die Organisation in der Hoffnung, anderswo eine bessere Work-Life-Balance erreichen zu können. Während dieser Zeit prägte Der große Rücktritt ist es für Unternehmen zwingend erforderlich, Talente anzuwerben und zu halten.

Führungskräfte, die die Schwachstellen ihrer Teams verstehen möchten, können die Bereitschaftszeiten sowohl qualitativ als auch quantitativ untersuchen, um festzustellen, wer einem Burnout-Risiko ausgesetzt ist und warum. Unsere Plattformdaten haben uns einige Einblicke in diese Auslöser gegeben.

Im Vergleich zu 2019 verzeichneten Unternehmen im Jahr 2020 4 % mehr Unterbrechungen. Bei genauerer Betrachtung der Verteilung auf die verschiedenen Zeitkategorien zeigt sich jedoch, Es gab einen Anstieg von 9 % bei Unterbrechungen außerhalb der Arbeitszeiten und von 7 % bei Unterbrechungen an Feiertagen und Wochenenden. , im Vergleich zu einer 5-prozentigen Zunahme der Unterbrechungen während der Geschäftszeiten und einer 3-prozentigen Abnahme der Unterbrechungen während der Schlafenszeit.

Es ist zwar gut, dass weniger Ingenieure aus dem Schlaf geweckt werden, aber die 9 % höhere Zahl an freien Stunden bedeutet, dass Zeit für die Familie, Abendessen, abendliches Training und mehr eingespart werden muss, um auf Unterbrechungen zu reagieren. Mit der Zeit summiert sich dieser unregelmäßige Zeitplan auf etwa 12 zusätzliche Arbeitswochen pro Jahr für jedes Bereitschaftsteammitglied.

Unsere Plattformdaten zeigten auch, dass Ingenieure umso ausgebrannter wurden, je häufiger sie außerhalb der Arbeitszeiten angepiept wurden. Der durchschnittliche Benutzer erlebt zwei Unterbrechungen außerhalb der Arbeitszeit pro Monat. Am anderen Ende des Spektrums erlebten ausgebrannte Benutzer 19 Unterbrechungen außerhalb der Arbeitszeit pro Monat. Es ist keine Überraschung, dass diese ausgebrannten Benutzer am wahrscheinlichsten das Unternehmen verließen.

Wir haben festgestellt, dass Responder-Profile, die die Plattform verlassen (unser Indikator für Fluktuation), eine überdurchschnittlich hohe Vorfalllast außerhalb der Arbeitszeiten aufwiesen. Mithilfe einer Regressionsanalyse haben wir das wesentliche Vorfallarbeitsvolumen außerhalb der Arbeitszeiten sowohl für gelöschte als auch für verbleibende Benutzer untersucht und eine statistisch signifikante positive Korrelation zwischen dem Volumen außerhalb der Arbeitszeiten und der Wahrscheinlichkeit der Löschung eines Benutzers festgestellt.

Mit anderen Worten: Um Mitarbeiter zu halten, müssen Führungskräfte verstehen, wie sie Unterbrechungen (insbesondere außerhalb der Arbeitszeit) für ihre Teams reduzieren können. Eine Möglichkeit hierzu ist die intelligente Lärmreduzierung.

Lärmreduzierung zur Erhaltung der Gesundheit der Helfer

Diese Unterbrechungen außerhalb der Arbeitszeiten sind manchmal unvermeidlich. Wenn Ihr Warenkorb um 19 Uhr nicht mehr funktioniert, können Sie schließlich nicht einfach Umsatz verlieren, bis Ihr Team am nächsten Morgen wieder online ist. Aber manchmal werden Bereitschaftstechniker um 2 Uhr morgens angepiept, weil sie nichts dagegen tun können. Lärmminderung kann hilfreich sein, da sich Teams auf das konzentrieren können, was wirklich wichtig ist.

Produktionssysteme generieren viele Ereignisse; nur einige davon führen zu einer Warnung oder einem möglichen Fehler. Andernfalls können viele dieser Ereignisse einfach in Ihrem Überwachungssystem zur weiteren Überprüfung protokolliert werden. Darüber hinaus können einige dieser Warnungen irrelevant sein. Es kann sich um wiederholte Warnungen handeln, um nicht umsetzbare Warnungen oder um solche, die durch automatische Korrektur ohne menschliches Eingreifen behoben werden könnten.

Unsere Plattformdaten haben gezeigt, dass wir unseren Kunden durch Ereigniskomprimierung und Alarmgruppierungstechniken helfen können, das Ereignis-zu-Vorfall-Rauschen um 98 % zu reduzieren. So werden Alarmstürme auf die minimal notwendige Anzahl umsetzbarer Alarme reduziert. Wenn Sie mehr darüber erfahren möchten, können Sie sich an uns wenden. Etsy darüber, wie wir dem Team geholfen haben, laute, nicht umsetzbare Warnungen proaktiv zu identifizieren und zu kontrollieren, was den Flow-Zustand oder den Tiefschlaf des Teams stören konnte.

Wenn Warnmeldungen sinnvoll sind, müssen Ihre Teams weniger, dafür aber mit mehr Sorgfalt erledigen. Dies begrenzt die Zeit, die sie außerhalb der Arbeitszeit von den Dingen fernhalten müssen, die sie lieben, und kann vor Burnout und Fluktuation schützen.

Das bedeutet auch, dass sie sich auf die kritischen Probleme konzentrieren und Ihren Kunden einen hervorragenden Service bieten können. Da Unternehmen in einer digitalen Welt weiterhin Wert darauf legen, ein hervorragendes Kundenerlebnis zu bieten, wird dies noch wichtiger.

Wie sieht die Zukunft aus?

2020 hat für viele Unternehmen die Beschleunigung ihrer digitalen Transformation eingeleitet. Doch das Tempo wird sich jetzt nicht verlangsamen. Unternehmen müssen von nun an auf dieses Maß an digitaler Abhängigkeit vorbereitet sein.

Wenn Sie glauben, dass Ihre Teams für eine digitale Operations-Management-Plattform bereit sind, PagerDuty 14 Tage kostenlos testen Wenn Sie mehr über unsere Ergebnisse erfahren möchten, besuchen Sie die Bericht zum Stand digitaler Abläufe .