Verwenden von Incident-Management-Daten zur Messung der Teamleistung
Bei der Verwaltung Ihrer ITOps Team ist es wichtig, Key Performance Indicators (KPIs) auf der Grundlage realer und umsetzbarer Daten festzulegen. Mit der Weiterentwicklung der ITOps-Landschaft wachsen auch die Verantwortung und die potenzielle Größe Ihres Teams. Dies ermöglicht die Verwaltung von mehr Ressourcen und Benutzern sowie eine größere Variabilität in Bezug auf Computerumgebungen, Konfigurationen und Sicherheit. Mehr denn je benötigen Sie heute eine Plattform, die ein klares Bild der Leistung und Gesamteffektivität Ihres Teams liefert.
Was sich in den Analysen verbirgt
Organisationen führen eine Vorfallmanagementplattform ein, um die Reaktion auf Vorfälle von einem reaktiven zu einem proaktiven Prozess zu machen. Die Lösung kann Ihnen sagen, was kaputt geht, und die Daten liefern, die eine schnelle Lösung unterstützen. Dieser Wert liegt auf der Hand. Aber als ich anfing, mit PagerDuty zu arbeiten, entdeckte ich, dass es einen verborgenen Schatz gab, der die Plattform über das reine Vorfallmanagement hinausführte. Ich konnte die integrierten Analysen nutzen, um die Leistung und Effektivität meines Teams mit einem neuen Maß an Transparenz zu messen.
Quelle: PagerDuty Analytics Dashboard
Top-Mitwirkende erkennen
Mithilfe der Daten von PagerDuty konnten wir ein System einrichten, um diejenigen zu belohnen, die auf Vorfälle reagierten.
Von Zeit zu Zeit kommt es vor, dass ein Bereitschaftstechniker Anrufe überspringt oder notorisch Anrufe bei dringenden Vorfällen verpasst. Dies mindert nicht nur die Effektivität des Teams, sondern zwingt auch die verantwortlichen Teammitglieder, einen größeren Teil der Last zu tragen. Durch die Analyse benutzerzentrierter Vorfallmanagementanalysen konnten wir schnell herausfinden, welche Teammitglieder Vorfälle nicht nur zur Kenntnis nehmen und darauf reagieren, sondern auch, wie viel Prozent der Teammitglieder in einem bestimmten Zeitraum daran teilgenommen und ihre Aufgaben ausgeführt haben. Natürlich gilt auch das Gegenteil, aber wir gehen mit gutem Beispiel voran.
Wenn Sie Ihrem Team die Daten zugänglich machen, können diese auch zur Selbstkontrolle verwendet werden. Wenn beispielsweise ein Benutzer einen hohen Prozentsatz an Eskalationen aufgrund von Inaktivität oder „Timeout-Eskalationen“ aufweist, kann diese Transparenz dem Team dabei helfen, proaktiv die richtigen Maßnahmen zur Verbesserung der Effektivität zu ergreifen, bevor es zu einem Problem bei der Reaktion auf Vorfälle kommt, das sich auf das SLA auswirken könnte.
Keine Reaktion auf Vorfälle im Vakuum
Ein weiteres Problem war, dass Vorfälle im Vakuum erkannt und gelöst wurden. Da es keine Analyse- und Berichtsfunktionen gab, konnten Ingenieure auf Vorfälle reagieren, ohne dass der Rest des Teams davon wusste und überhaupt wusste, was passiert war. Dies führt zu einem Teufelskreis für ITOps-Teams, da die Leistungsträger bedrängt werden und keine Anreize haben, ihre hervorragende Arbeit fortzusetzen. In einigen Fällen kann dies zu Fluktuation unter den Ingenieuren führen. Außerdem werden wichtige Gelegenheiten verpasst, aus früheren Problemen zu lernen.
Metrikbasierte Belohnungen
Auf Grundlage der Analysen haben wir ein Anreizprogramm entwickelt, das sich danach richtet, wer jeden Monat die meisten Vorfälle erkannt und gelöst hat. Dies hat dazu beigetragen, den Wettbewerb unter den Ingenieuren zu fördern und sie zu mehr Produktivität anzuregen.
Ein weiteres Beispiel wäre, Ihr ITOps-Eskalationsteam zu belohnen, wenn es die MTTA unter einer Minute und die MTTR unter einer Stunde hält (oder welche Metriken auch immer für Ihr Team sinnvoll sind). Diese Anreizprogramme motivieren nicht nur Ihre Ingenieure und Ihr gesamtes Eskalationsteam, sondern tragen auch dazu bei, dass Sie Ihre SLAs effektiv einhalten können.
Nachfolgend finden Sie einige Ideen, wie Sie Ihrem Incident-Response-Team Anreize bieten können:
- Motivieren Sie den „Top Incident Responder“ des Monats.
- Dies könnte die Person sein, die für das Team die meisten Vorfälle feststellt.
- Dies könnte die Person sein, die die meisten ungelösten Vorfälle für das Team eskaliert.
- Schaffen Sie Anreize für Ihr Team durch leistungsbasierte Kennzahlen.
- Dies könnte die Beibehaltung von Problemen mit hoher Dringlichkeit innerhalb eines bestimmten Kriteriensatzes sein.
- Belohnen Sie den Benutzer mit den ihm zugewiesenen Vorfällen mit der höchsten Dringlichkeit.
- Schaffen Sie Anreize für zielgerichtetes Anerkennen und Lösen.
- Anreize für Kennzahlen und Reaktionsfähigkeit im Laufe der Zeit schaffen
- Belohnen Sie Ihr Team dafür, dass es bessere Leistungen erbracht hat als im letzten Monat.
- Disziplinmetriken, die unter Ihrem SLA liegen
- Die „Bereitschaftszeit“ ist hoch, während die „Anzahl bestätigter Vorfälle“ niedrig ist.
- Häufiges Auftreten von „Timeout-Eskalationen“ durch bestimmte Teammitglieder
- „Zeit bis zur Bestätigung“ und „Zeit bis zur Lösung“ höher als geplant
Quelle: PagerDuty Analytics Dashboard
Da die Service-Level-Anforderungen an ITOps immer strenger werden, werden nicht nur die operativen Herausforderungen größer, sondern auch die Management-Herausforderungen. Wenn ITOps-Teams vorhandene Tools nutzen, um proaktiv zu lernen, zu messen und ihr Team zu motivieren, profitieren sie sowohl von der betrieblichen Effizienz als auch von der Teamproduktivität. Incident-Management-Analysen in Plattformen wie PagerDuty ist für uns zu einer unschätzbar wertvollen Ressource geworden, nicht nur um diesen wachsenden Anforderungen an die IT gerecht zu werden, sondern auch um die Effektivität zu optimieren und die Zufriedenheit der Teammitglieder zu erhöhen. Es hat uns mehr Transparenz, besseres Lernen und eine großartige Möglichkeit gegeben, jedes Mitglied unseres Teams zu messen und zu motivieren.
Bereit, PagerDuty auszuprobieren? Melden Sie sich für eine kostenlose Testversion an.