Der Blog

Die 4 Betriebskennzahlen, die Sie verfolgen sollten

von David Shackelford 20. August 2014 | 5 Minuten Lesezeit

Das Leben in einer datenreichen Welt ist Segen und Fluch zugleich. Flexible Überwachungssysteme, offene APIs und einfache Datenvisualisierungsressourcen machen es einfach, alles, was Sie wollen, grafisch darzustellen, aber zu viele Daten führen schnell zu Unordnung und lassen keine Handlung mehr zu.

Wir haben gebloggt , gesprochen und haben uns gut überlegt, was Sie aus Systemsicht überwachen sollten und warum, aber wie sieht es mit der Überwachung von Daten zu Ihrer Betriebsleistung aus? Wir haben mit einer großen Anzahl von PagerDuty Kunden zusammengearbeitet, als wir unser neues Erweiterte Berichterstattung Funktion, darunter einige der erfahrensten Betriebsteams überhaupt. Wir möchten einige spezifische Kennzahlen und Richtlinien weitergeben, die Teams dabei helfen, ihre Betriebsleistung zu messen und zu verbessern.

Die wichtigsten Kennzahlen zum Verfolgen

1. Rohdaten der Vorfälle

Ein sprunghafter Anstieg oder kontinuierlicher Aufwärtstrend bei der Anzahl der Vorfälle, die ein Team erhält, sagt Ihnen zwei Dinge: Entweder liegt ein ernstes Problem bei der Infrastruktur des Teams vor, oder die Überwachungstools sind falsch konfiguriert und müssen angepasst werden.

Die Anzahl der Vorfälle kann mit dem Wachstum einer Organisation steigen, aber die tatsächlichen Vorfälle pro Antwortender sollte konstant bleiben oder nach unten gehen, wenn das Unternehmen Warnmeldungen von geringer Qualität identifiziert und behebt, Runbooks erstellt, allgemeine Fehlerbehebungen automatisiert und seine Betriebsreife steigert.

„Wir haben viel Zeit damit verbracht, redundante Warnmeldungen zu schließen.“ – Kit Reynolds, IS-Produktmanager, thetrainline.com

Bei der Betrachtung von Vorfällen ist es wichtig, diese nach Team oder Service aufzuschlüsseln und dann die zugrunde liegenden Vorfälle genauer zu untersuchen, um zu verstehen, was die Probleme verursacht. War der Anstieg am Mittwoch auf eine fehlgeschlagene Bereitstellung zurückzuführen, die Probleme in mehreren Teams verursachte, oder nur auf ein ruckelndes Überwachungssystem bei einem Service mit geringer Schwere? Der Vergleich der Vorfallzahlen zwischen Services und Teams hilft auch dabei, Ihre Zahlen in einen Kontext zu setzen, sodass Sie verstehen, ob eine bestimmte Vorfalllast besser oder schlechter ist als der Organisationsdurchschnitt.

2. Mittlere Zeit bis zur Lösung (MTTR)

Die Zeit bis zur Lösung ist der Goldstandard für die Betriebsbereitschaft. Wie lange braucht Ihr Team, um einen Vorfall zu beheben?

Ausfallzeiten schaden nicht nur Ihrem Umsatz, sondern auch der Kundentreue. Daher ist es wichtig, dass Ihr Team schnell auf alle Vorfälle reagieren kann. Die Fans der Major League Soccer erwarten, dass ihre 20 Websites während Live-Spielen verfügbar sind. Justin Slattery, Director of Engineering, und sein Team arbeiten ständig daran, ihre Lösungszeiten zu verbessern, denn „die Kosten eines Ausfalls mitten im Spiel sind unkalkulierbar.“

Obwohl es wichtig ist, die Lösungszeit zu verfolgen, ist es oft schwierig, sie zu normieren. Unternehmen können Abweichungen in der TTR feststellen, die auf der Komplexität ihrer Umgebung, der Organisation von Teams und Infrastrukturverantwortung, der Branche und anderen Faktoren beruhen. Standardisierte Runbooks, Infrastrukturautomatisierung sowie zuverlässige Warn- und Eskalationsrichtlinien tragen jedoch dazu bei, diese Zahl zu senken.

3. Zeit bis zur Bestätigung / Zeit bis zur Antwort

Dies ist die Kennzahl, die die meisten Teams vergessen – die Zeit, die ein Team benötigt, um einen Vorfall zu erkennen und mit der Arbeit daran zu beginnen.

„Die Reaktionszeit ist wichtig, weil sie Ihnen hilft zu erkennen, welche Teams und Einzelpersonen auf Bereitschaft vorbereitet sind. Eine schnelle Reaktionszeit ist ein Indikator für eine Kultur der Betriebsbereitschaft, und Teams mit der Einstellung und den Werkzeugen, schneller zu reagieren, haben tendenziell die Einstellung und die Werkzeuge, um sich schneller zu erholen.“ – Arup Chakrabarti, Operations Manager, PagerDuty

Ein Incident-Responder hat zwar nicht immer die Kontrolle über die Grundursache eines bestimmten Vorfalls, aber für einen Faktor ist er zu 100 % verantwortlich: die Zeit bis zur Bestätigung und Reaktion. Operativ ausgereifte Teams haben hohe Erwartungen an die Reaktionszeit ihrer Teammitglieder und legen interne Ziele für die Reaktionszeit fest.

Wenn Sie ein Vorfallmanagementsystem wie PagerDuty verwenden, Eskalations-Timeout ist eine hervorragende Möglichkeit, ein Reaktionszeitziel durchzusetzen. Wenn Sie beispielsweise entscheiden, dass auf alle Vorfälle innerhalb von 5 Minuten reagiert werden soll, legen Sie Ihr Timeout auf 5 Minuten fest, um sicherzustellen, dass die nächste Person in der Reihe benachrichtigt wird. Um die Leistung des Teams zu messen und festzustellen, ob Ihr Ziel angepasst werden muss, können Sie die Anzahl der eskalierten Vorfälle verfolgen.

4. Eskalationen

Für die meisten Organisationen, die ein Incident-Management-Tool verwenden, ist eine Eskalation eine Ausnahme – ein Zeichen dafür, dass ein Responder entweder nicht rechtzeitig zu einem Vorfall gelangen konnte oder dass er oder sie nicht über die Tools oder Fähigkeiten verfügte, um daran zu arbeiten. Obwohl Eskalationsrichtlinien ein notwendiger und wertvoller Teil des Incident-Managements sind, sollten Teams im Allgemeinen versuchen, die Anzahl der Eskalationen im Laufe der Zeit zu reduzieren.

Es gibt einige Situationen, in denen eine Eskalation zum Standardbetriebsablauf gehört. Beispielsweise verfügen Sie möglicherweise über ein NOC, ein First-Tier-Supportteam oder sogar ein automatisches Behebungstool, das eingehende Vorfälle anhand ihres Inhalts sortiert oder eskaliert. In diesem Fall möchten Sie nachverfolgen, welche Arten von Warnungen eskaliert werden sollten und wie die normalen Zahlen für diese Warnungen aussehen sollten.

Verfolgen Sie Ihre Betriebsleistung mit PagerDuty

„Vor PagerDuty konnte es einen Tag dauern, auf Vorfälle zu reagieren. Jetzt dauert es nur noch Sekunden.“ – Aashay Desai, DevOps, Inkling.

PagerDuty hat schon immer die Extraktion umfangreicher Vorfalldaten über unsere API mit vollständiger Abdeckung unterstützt und wir haben allen Kunden auch eingeschränkte In-App-Berichte angeboten.

Monitoring_Ebook_728_90