Der Blog

Reduzieren Sie die Zeit zur Lösung von Vorfällen

von Julie Arsenault 12. November 2014 | 4 Minuten Lesezeit

Vor einiger Zeit bloggten wir über wichtige Leistungskennzahlen die von den Top-Operations-Teams verfolgt werden. Die mittlere Zeit bis zur Problemlösung (MTTR) war eine dieser Kennzahlen. Es ist die Zeit zwischen Ausfall und Wiederherstellung nach Ausfall und sie ist direkt mit Ihrer Betriebszeit verknüpft. MTTR ist eine großartige Kennzahl zum Verfolgen; es ist jedoch auch wichtig, einen kurzsichtigen Fokus zu vermeiden.

MTTR ins rechte Licht rücken

Ihre gesamte Ausfallzeit hängt von der Anzahl und Dauer der Ausfälle ab. Daniel Slimmon erläutert diese beiden Faktoren sehr gut und wie Sie sie priorisieren können. Abhängig von Ihrer Situation kann es wichtiger sein, störende Warnungen zu minimieren, die schnell behoben werden (was bedeutet, dass Ihre MTTR dadurch tatsächlich steigen kann). Wenn Sie jedoch die MTTR als Bereich mit Verbesserungspotenzial identifiziert haben, finden Sie hier einige Strategien, die hilfreich sein können.

Schnelleres Arbeiten löst das Problem nicht

Es wäre schön, wenn wir Ausfälle einfach dadurch schneller beheben könnten, dass wir schneller arbeiten, aber wir alle wissen, dass das nicht stimmt. Um Ihre MTTR nachhaltig und messbar zu verbessern, müssen Sie genau untersuchen, was während eines Ausfalls passiert. Das stimmt – aufgrund der Komplexität der Vorfälle wird es immer Schwankungen in Ihrer Lösungszeit geben. Aber ein Blick auf Ihre Prozesse ist ein guter Anfang – oft liegt der Schlüssel zur Einsparung von Minuten in der Zusammenarbeit Ihrer Mitarbeiter und Systeme.

Überprüfen Sie Ihre REAKTIONSZEIT

Die „MTTR“-Uhr beginnt zu ticken, sobald ein Vorfall ausgelöst wird, und durch Anpassungen Ihrer Benachrichtigungsprozesse können Sie möglicherweise einige schnelle Erfolge erzielen.

Möchten Sie wissen, wie Ihre Reaktionszeit im Vergleich dazu aussieht? Wir haben uns einen Monat PagerDuty -Daten angesehen, um die Bestätigungs- (Antwort-) und Lösungszeiten und deren Zusammenhang zu verstehen. Die mittlere Bestätigungszeit betrug 2,82 Minuten und 56 % der Vorfälle wurden innerhalb von 4 Minuten bestätigt. Die mittlere Lösungszeit betrug 28 Minuten. Bei 40 % der Vorfälle beträgt die Bestätigungszeit zwischen 0 und 20 % der Lösungszeit.

Mittlere Reaktionszeit: 2,82 Minuten

Durchschnittliche Lösungszeit: 28 Minuten

Incident Response Time as % of Resolution Time

Wenn Ihre Reaktionszeit eher lang ist, sollten Sie sich ansehen, wie das Team benachrichtigt wird. Erreichen die Benachrichtigungen zuverlässig die richtige Person? Wenn die erste benachrichtigte Person nicht antwortet, können die Benachrichtigungen dann automatisch eskaliert werden und wie viel Zeit müssen Sie wirklich warten, bevor Sie weitermachen? Indem Sie die richtigen Erwartungen und Ziele in Bezug auf die Reaktionszeit festlegen, können Sie sicherstellen, dass alle Teammitglieder so schnell wie möglich auf ihre Benachrichtigungen reagieren.  

Richten Sie einen Prozess für Ausfälle ein

Ein Ausfall ist eine stressige Zeit und Sie möchten nicht überlegen, wie Sie auf Vorfälle reagieren. Richten Sie einen Prozess ein (auch wenn er anfangs nicht perfekt ist), damit jeder weiß, was zu tun ist. Stellen Sie sicher, dass Sie die folgenden Elemente implementiert haben:

  1. Einrichten eines Kommunikationsprotokolls – Wenn der Vorfall von mehreren Personen bearbeitet werden muss, stellen Sie sicher, dass jeder weiß, wo er hin muss. Telefonkonferenzen oder Google Hangouts sind eine gute Idee, oder ein einzelner Raum in Hipchat.
  2. Etablieren Sie einen Anführer – das ist die Person, die die Arbeit des Teams zur Behebung des Ausfalls leitet. Sie macht sich Notizen und erteilt Anweisungen. Wenn der Rest des Teams nicht einverstanden ist, kann der Leiter abgewählt werden, es sollte jedoch sofort ein anderer Leiter ernannt werden.
  3. Machen Sie sich tolle Notizen – über alles, was während des Ausfalls passiert ist. Diese Notizen sind eine hilfreiche Referenz, wenn Sie bei der Nachbesprechung zurückblicken. Bei PagerDuty verwenden einige unserer Call-Leiter gerne ein Notizbuch aus Papier neben ihrem Laptop als visuelle Erinnerung daran, dass sie alles aufzeichnen sollten.
  4. Übung macht den Meister – Wenn es bei Ihnen nicht häufig zu Ausfällen kommt, üben Sie Ihren Notfallreaktionsplan monatlich, um sicherzustellen, dass das Team gut damit vertraut ist. Vergessen Sie auch nicht, neue Mitarbeiter in den Prozess einzuarbeiten.

Weitere Informationen finden Sie unter Blake Gentrys Vortrag zum Vorfallmanagement bei Heroku.

Finden und beheben Sie das Problem

Herauszufinden, was tatsächlich schief läuft, nimmt oft den Löwenanteil Ihrer Lösungszeit in Anspruch. Es ist wichtig, für jeden Ihrer Dienste über Instrumente und Analysen zu verfügen und sicherzustellen, dass diese Informationen Ihnen dabei helfen, zu erkennen, was schief läuft. Bei Problemen, die relativ häufig auftreten und gut verstanden werden, können Sie möglicherweise automatisierte Korrekturen implementieren. Wir werden in späteren Beiträgen auf jeden dieser Bereiche eingehen.