Der Blog

Von der Ticket-Zeit zur Echtzeit: Den Status Quo der Betriebsarbeit ändern

von PagerDuty 15. Juni 2021 | 7 min Lesezeit

Dieser Blog war bereits veröffentlicht am 27. Mai 2021.


2020 war…hart

Ein digitales Geschäft am Laufen zu halten, war noch nie eine leichte Aufgabe, insbesondere im letzten Jahr. 2020 zwang viele Unternehmen dazu, ihre Initiativen zur digitalen Transformation beschleunigen schneller als sich irgendjemand vorgestellt hat! Kunden fordern mehr Kapazität und Zuverlässigkeit, das Geschäft bringt mehr neue Dienste auf den Markt – schneller als je zuvor, und Unternehmen lernen, neue Remote-Arbeitsmodelle zu nutzen, was Systeme und Mitarbeiter belastet.

Komplexität ist die neue Normalität

Im Betrieb gab es schon immer eine Mischung aus alten und neuen Anwendungen. Doch mit dem Aufkommen der Public Cloud, Containern und Microservices hat die Systemkomplexität zugenommen. Selbst für mittelgroße SaaS-Unternehmen.

Visuelle Darstellung von Diensten für ein mittelgroßes SaaS-Unternehmen

Betriebsteams sind es gewohnt, mit Ausfällen umzugehen. Angesichts des zunehmenden Umfangs und der Komplexität heutiger Dienste treten Probleme und Ausfälle jedoch häufiger auf und können viel schwieriger zu lösen sein. Darüber hinaus besteht auch der Druck, Dinge zu öffnen, damit die Organisation schneller vorankommen kann, aber auch, Dinge abzusichern und konform zu bleiben.

Natürlich ist es keine leichte Aufgabe, die Nase vorn zu behalten. Wie kann ein Unternehmen schneller werden und gleichzeitig Risiken vermeiden? Hier kommt das Konzept des Echtzeitbetriebs ins Spiel.

Warum Echtzeitoperationen?

Alle sind sich einig, dass Geschwindigkeit ein Wettbewerbsvorteil ist. Wie kann ein Unternehmen also schneller werden? Das ist fast unmöglich, wenn sich der Betrieb in einem reaktiven Zustand befindet. Leider befinden sich viele Unternehmen heute in diesem Zustand. Wir nennen diesen reaktiven Zustand Ticket-Time-Operationen.

Der Alltag im operativen Geschäft war schon immer eine Mischung aus geplanter und ungeplanter Arbeit. Ops-Teams werden häufig von jemandem unterbrochen, der etwas von ihnen verlangt, oder sie unterbrechen jemanden mit einer Anfrage.

Es ist ein endloser Strom von Anfragen in Form von Tickets – oft wird darum gebeten, immer wieder dieselbe Aufgabe zu erledigen. Beispielsweise kann es sein, dass die Entwicklungsteams das Netzwerkteam jedes Mal, wenn eine neue Version herauskommt, bitten, eine Firewall-Regel zu ändern. Das Netzwerkteam muss seine Arbeit unterbrechen, um die Änderung vorzunehmen … aber diese Änderung muss auch vom Sicherheitsteam genehmigt werden, bevor sie live geht. Jetzt unterbricht das Netzwerkteam das Sicherheitsteam und wartet darauf, dass es hilft. In der Zwischenzeit jongliert jeder mit seiner eigenen Arbeit.

Die Branche hat sich an diese Arbeitsweise gewöhnt, und die Ergebnisse sind nicht gerade berauschend. Ingenieure sind frustriert, überlastet und unterfordert, und Unternehmer haben das Gefühl, dass alles zu lange dauert, zu viel kostet und zu oft kaputtgeht.

Und so stehen wir heute da. Die Anforderungen des IT-Betriebs treiben die Dinge bis zum Zerreißen. Es ist nicht länger nachhaltig, unter der langsamen, reibungsreichen und kostenintensiven Belastung des Ticket-Time-Betriebsmodells zu arbeiten. Stattdessen muss der Betrieb auf das umstellen, was wir Echtzeitbetrieb nennen.

Was meinen wir mit „Echtzeit“? Echtzeit ist die Fähigkeit, Entscheidungen zu treffen und Maßnahmen zu ergreifen, die der Geschwindigkeit des Geschäfts entsprechen. Es bedeutet sofortige Kommunikation und Entscheidungsfindung. Anstatt Informationen und Kontrolle in Silos zu haben, wird die Kontrolle auf die Organisation verteilt und die Mitarbeiter können in ihrem eigenen Tempo arbeiten und haben End-to-End-Kontrolle.

Drei Möglichkeiten zur Ermöglichung von Echtzeitvorgängen

1. Überwachung, Beobachtbarkeit und AIOps

Überwachung ist eine uralte Praxis, die traditionell der operativen Seite des Unternehmens vorbehalten war. Bei der Überwachung geht es darum, nach Mustern oder Ereignissen zu suchen, die den zuvor beobachteten ähneln, und die entsprechenden Personen zu benachrichtigen, wenn diese Bedingungen ausgelöst werden.

Der „neueste“ Trend ist die Beobachtbarkeit. Sie misst, wie gut man die internen Zustände eines Systems anhand seiner externen Ausgaben verstehen kann. Beobachtbarkeitstools und -methoden helfen uns, unsere Dienste zu untersuchen, um herauszufinden, was wirklich vor sich geht.

Es basiert auf:

  • Veranstaltungen: Handelt es sich bei diesem einzelnen Ereignis um etwas, das schon einmal passiert ist?
  • Metriken : Wenn man sich diese Ereignisse ansieht und sich fragt: Werden die Dinge besser oder schlechter?
  • Verteiltes Tracing: Schauen Sie sich die neuen verteilten Infrastrukturen an und verstehen Sie, wie diese Ereignisse die einzelnen Komponenten durchlaufen.

Obwohl das Monitoring traditionell der operativen Seite obliegt, sehen wir, dass Observability auch von Entwicklern vorangetrieben wird. Monitoring + Observability helfen dabei, Echtzeitoperationen zu erreichen, indem sie eine tiefere Transparenz zwischen den Teams schaffen und uns helfen zu lernen, wie Systeme im Alltag funktionieren.

Und zu guter Letzt gibt es noch AIOps. Bei AIOps geht es darum, Toolfunktionen zu kombinieren, um zu verstehen, was in Echtzeit passiert. AIOps bietet ähnliche Lösungen wie bestehende Event-Management-Lösungen, enthält aber zusätzliche Funktionen, die für die komplexen, modernen Umgebungen von heute erforderlich sind, wie maschinelles Lernen, Automatisierung, flexible Datenerfassung und -aufnahme, leistungsstarke Visualisierungen und mehr. Es geht darum, alle Informationen und Signale aus der gesamten Infrastruktur zu nutzen, Metriken zu aggregieren, Rauschen zu reduzieren, Korrelation und Verständnis zu verbessern und Muster zu erkennen. Erfahren Sie, wie Sie AIOps für ein besseres Incident Management nutzen können.

2. Service-Eigentum

In einer zunehmend komplexen digitalen Welt wird das Konzept des Serviceeigentums immer wichtiger.

Organisationen müssen wissen:

  • Was passiert, wenn etwas schief geht?
  • Was sind die Abhängigkeiten?
  • Und wer ist der Verantwortliche?

Mithilfe der Service Ownership-Praxis lässt sich eine Karte erstellen, die diese Fragen beantwortet und Unternehmen dabei hilft, die Interaktion zwischen den Teams und den technischen Systemen, mit denen sie interagieren, zu verstehen.

Dienste werden ausfallen; das ist eine Tatsache. Wie ein Unternehmen auf einen Ausfall reagiert, kann den Unterschied ausmachen, ob es Kunden behält oder verliert.

Die vollständige Serviceverantwortung trägt zur Optimierung des Incident-Response-Lebenszyklus bei, indem sie Ingenieuren die Verantwortung für ihre Services in der Produktion überträgt. Dies reduziert die Anzahl der Übergaben und kann die MTTR bei Incidents deutlich verkürzen. Wenn Fachexperten mit direktem Wissen über die Systeme, die sie unterstützen, in die Rolle der Ersthelfer berufen werden, trägt dies dazu bei, das unvermeidliche Chaos und die Panik zu verringern, die aus Unsicherheit entstehen.

3. Self-Service-Operationen

Für Organisationen, die von einem reaktiven, ticketgesteuerten Ansatz zu einem proaktiven Ansatz wechseln möchten, ist das Self-Service-Betriebsmodell ein wichtiger Echtzeit-Betriebsfaktor.

Was bedeutet „Echtzeit“ im Zusammenhang mit Self-Service? Anstatt Informationen und Kontrolle in funktionalen Silos zu speichern, delegiert Self-Service die Kontrolle an die richtigen Personen im Unternehmen.

Ein Teil des Self-Service besteht in der Übermittlung von Informationen, wie dem Teilen von Systemkontext, Sichtbarkeit, Service-Eigentümerschaft, den richtigen Runbooks und Entscheidungsunterstützung. Der andere Teil besteht darin, Fachexperten die Möglichkeit zu geben, sich auf Arbeiten zu konzentrieren, die einen Mehrwert für das Unternehmen schaffen – anstatt ständig durch Anfragen unterbrochen zu werden.

In einem Vorfallmanagementszenario bedeutet dies, dass Ersthelfer über die Informationen und die Kontrolle verfügen, die sie benötigen, um Maßnahmen ergreifen zu können oder dass KI in ihrem Namen Maßnahmen ergreifen kann. Dies führt zu einer schnelleren Lösung und weniger störenden Eskalationen!

Self-Service mit Runbook-Automatisierung

Mit der Runbook-Automatisierung können Sie Self-Service erstellen. Runbook-Automatisierung ermöglicht es den Fachexperten, Arbeitsabläufe zu definieren, die verschiedene Tools, Skripte, APIs, Berechtigungen, Anmeldeinformationen und Befehlszeilenprozeduren umfassen, und diesen Prozess an die Personen zu delegieren, die ihn benötigen.

Durch die Runbook-Automatisierung können die richtigen Personen Aufgaben sicher erledigen, die bisher nur Fachexperten erledigen konnten. Außerdem können Ihre Fachexperten ihre Best Practices in allgemein anwendbare Vorgehensweisen umwandeln.

Die Runbook-Automatisierung kann über den gesamten Lebenszyklus hinweg verwendet werden. Bei der Reaktion auf Vorfälle können die Einsatzkräfte ein Problem diagnostizieren und haben die automatisierten Aktionen zur Hand, für die sie normalerweise Experten eskalieren müssten. Dies funktioniert auch für normale, alltägliche Serviceanfragen. Bei Bereitstellungs-, Änderungs- und Wartungsaufgaben können die Mitarbeiter die Aufgabe mithilfe der Runbook-Automatisierung selbst erledigen, anstatt ständig darauf zu warten, dass jemand etwas für Sie tut. Erfahren Sie mehr über Self-Service-Vorgänge.

Unsere Chance, die Art und Weise zu verändern, wie Betriebsarbeiten erledigt werden, erstreckt sich über den gesamten Betriebslebenszyklus. Die Anwendung des Echtzeit-Betriebsfokus auf diese anderen Betriebsaufgaben kann einen großen Unterschied bei der Verbesserung der Geschäftsgeschwindigkeit ausmachen! Um zu erfahren, wie PagerDuty helfen kann, Melden Sie sich für eine kostenlose 14-tägige Testversion an Heute.