Der Blog

APAC-Rückblick: Erkenntnisse aus einem Jahr voller Technologieausfälle – Abbau von Wissenssilos

von David Ridge 16. Januar 2024 | 8 min Lesezeit

Während unsere Erkundung bis 2023 weitergeht, vom zweiter Blogabschnitt, „Mobilisieren: Vom Signal zur Aktion“ , bleibt eine unbestreitbare Tatsache bestehen: Vorfälle sind für Unternehmen eine unvermeidliche Realität, unabhängig von ihrer Branche oder Größe.

In der Region Asien-Pazifik ist ein Anstieg der Regulierungsmaßnahmen gegen Großunternehmen zu beobachten, die ihre Servicestandards nicht einhalten, was zu empfindlichen Strafen führt. Für diese Unternehmen reichen die Folgen eines Vorfalls mittlerweile über Umsatzeinbußen und schwindendes Kundenvertrauen hinaus und reichen bis zu hohen Geldstrafen und Betriebseinschränkungen.

Angesichts der Herausforderungen, die von schwerwiegenden technischen Problemen bis hin zu Unterbrechungen der Cloud-Dienste und Schwachstellen in der Cybersicherheit reichen, müssen moderne Unternehmen bei der Vorfallbewältigung proaktiv vorgehen. In diesem dritten Teil unserer Blogserie gehen wir tiefer auf den Vorfalllebenszyklus ein und enthüllen Strategien, mit denen Unternehmen auf das vorbereitet bleiben können, was nicht mehr vermieden werden kann: ihren nächsten Vorfall.

Diagram of the incident lifecycle

Teil 3: Triage: Wissenssilos abbauen

Überblick

Je tiefer wir uns mit den Herausforderungen des Vorfallmanagements befassen, desto häufiger stellt sich heraus, dass immer nur eine Handvoll erfahrener Ingenieure an allen Vorfällen beteiligt sind. Einer der Hauptgründe dafür ist, dass die primären Bereitschaftshelfer nicht über ausreichend Wissen, Zugriff und Fähigkeiten verfügen, um die ersten Triage-Schritte während eines Vorfalls durchzuführen. Dies führt dazu, dass jedes Mal der leitende Ingenieur gerufen wird, um einen oft einfachen und wiederholbaren Vorgang durchzuführen. Diese Lücke in Wissen, Fähigkeiten und Zugriff wird als „Automatisierungslücke“ bezeichnet.

Mithilfe eines Automatisierungsorchestrierungstools zur ereignisgesteuerten Automatisierung können Unternehmen ihren Bereitschaftskräften sofortigen Zugriff auf automatisierte Runbooks ermöglichen, die von Fachexperten persönlich erstellt wurden. Allerdings ist ein schrittweiser Ansatz erforderlich, der mit der Diagnose beginnt, über kontextbezogene Korrekturen bis hin zur automatischen Korrektur geht. Das empfindliche Gleichgewicht zwischen Automatisierung und menschlichem Urteilsvermögen bleibt insbesondere in regulierten Branchen ein Schwerpunkt, kann aber erhebliche Erfolge erzielen.

An diesem Punkt im Lebenszyklus des Vorfalls haben Sie die Flut von Alarmen aus Quellen überall in Ihrem Unternehmen unter Kontrolle und die Mobilisierung des richtigen Bereitschaftsmitarbeiters nur für die relevanten, handlungsrelevanten Vorgänge automatisiert. Warum ist dann immer dieselbe kleine Gruppe von erfahrenen Technikern für alle Vorfälle zuständig?

Wer sonst verfügt über das Wissen, die Fähigkeiten und den Zugriff, um die zur Diagnose des Problems erforderlichen Skripte auszuführen? Schließlich haben sie das System entworfen und die Skripte geschrieben. Wäre es für sie also einfach schneller und sicherer, dies zu tun? Oder nicht?

Wenn das Problem einmalig und während der Arbeitszeit auftrat, dann wäre das vielleicht der Fall. Aber es kommt viel häufiger vor, dass es nach der Arbeitszeit wiederkehrend oder häufig auftritt. Das führt dazu, dass bei jedem Vorfall dieselben wenigen Experten beteiligt sind, da sie das gesamte Stammeswissen darüber besitzen, wie die Dinge wirklich funktionieren und wie man Probleme schnell und richtig einstuft. Für jedes betroffene System haben sie ihre eigenen Standard-Integritätsprüfungen und Runbooks entwickelt, um einen tieferen Einblick in die mögliche Ursache des Problems zu erhalten.

Stammeswissen über nicht dokumentierte Abhängigkeiten oder ein maßgeschneidertes Skript, das sie selbst geschrieben haben und das nur lokal auf ihrem eigenen Rechner existiert, sind die Gründe, warum sie bei jedem Vorfall benötigt werden. Ohne sie verbringt der Bereitschaftshelfer möglicherweise die erste Stunde damit, etwas herauszufinden, was unser Fachexperte (SME) nur ein oder zwei Minuten dauern würde.

„Schneller und sicherer“ bedeutet jetzt, dass ein ausgebrannter leitender Ingenieur geweckt wird, der um 2 Uhr morgens einige komplexe Befehle auf einem Produktionssystem ausführen muss. Sein Wissen ist geschäftskritisch, aber er ist der Engpass im Lebenszyklus eines Vorfalls.

Die Automatisierungslücke

Dieses sehr häufige Szenario wird als Automatisierungslücke bezeichnet.

Es lässt sich auf verschiedene Weise messen, etwa als Anzahl der erforderlichen Eskalationen oder zusätzlicher Helfer pro Vorfall oder als Lücke (in Minuten und Personen) zwischen der Person, die über den Vorfall informiert wird, und der Person, die den Vorfall behebt.

Grundsätzlich gilt: Je größer die Automatisierungslücke ist, desto länger dauern Ihre Vorfälle und desto teurer werden sie.

The Automation Gap

Die Automatisierungslücke zwischen denen, die die Automatisierung nutzen müssen, und denen, die sie nutzen können

Die Gründe für diese Lücke lassen sich in drei Hauptkategorien unterteilen: Wissen, Fähigkeiten und Zugang.

  • Wissenslücke : Unternehmen können viele unterschiedliche Arten von Diensten bereitstellen und haben oft viele davon, die unterschiedliche Anwendungsfälle abdecken – so viele, dass keine einzelne Person sie alle kennen kann.
  • Qualifikationslücke : Ein Großteil der heute verfügbaren Automatisierung erfordert spezielles Fachwissen, um sie richtig nutzen zu können. Um einen umfassenden Nutzen zu erzielen, sind zusätzliche Fähigkeiten wie das Schreiben von Skripten erforderlich. Vielen Generalisten fehlen diese speziellen Fähigkeiten.
  • Zugangslücke : Moderne Sicherheitsstandards verlangen, dass privilegierte Zugriffsrechte nicht leichtfertig an jedermann vergeben werden.

Moderne Organisationen müssen in der Lage sein, Wissenssilos aufzubrechen, um Engpässe bei Vorfällen und die Abhängigkeit von einzelnen Personen zu vermeiden, ohne dabei die Belastbarkeit oder Sicherheit ihrer Systeme zu gefährden. Dies erreichen sie durch die ereignisgesteuerte Automatisierungs-Orchestrierungsfunktion, bei der das betreffende Ereignis der Vorfall ist.

Ereignisgesteuerte Automatisierung

Beim Auftreten eines Alarms oder Vorfalls muss eine ereignisgesteuerte Automatisierungsfunktion verfügbar sein. Je nach Art des Vorfalls sollte diese automatisch, bedingt oder manuell ausgelöst werden können.

Die Zugriffslücke wird durch das Orchestrierungstool selbst geschlossen, das einen sicheren Zugriff auf die Daten kontrollierter Produktionssysteme ermöglicht. Das bedeutet, dass sich der Incident Responder nicht um den manuellen Zugriff auf das betroffene System kümmern muss.

Die Wissens- und Kompetenzlücken werden dadurch geschlossen, dass der SME, der immer zu Vorfällen gerufen wird, das automatisierte Runbook erstellt. Wahrscheinlich hat er die Skripte und die Logik bereits irgendwo selbst erstellt. Dieses Wissen kann in eine Orchestrierungsschicht eingebettet und den Bereitschaftshelfern sofort und sicher zur Verfügung gestellt werden.

Natürlich können nicht alle Vorfälle automatisiert gelöst werden. Die beiden wichtigsten Kriterien dafür, ob etwas automatisiert werden sollte, sind, dass es bekannt ist (man kann nichts automatisieren, von dem man nichts weiß) und dass es wiederholbar ist. In der dynamischen und unvorhersehbaren Welt des Vorfallmanagements sind „bekannte“ und „wiederholbare“ Lösungen rar gesät.

Die Integritätsprüfungen, Falschpositiv-Validierungen und Diagnoseskripts, aus denen die meisten Runbooks oder Standardwiederherstellungsverfahren bestehen, sind jedoch sehr bekannt und sehr wiederholbar. Tatsächlich nehmen Triage und Diagnose oft mehr Zeit in Anspruch als jede andere Phase des Vorfalllebenszyklus.

Die Runbook-Automatisierung kann in mehreren Phasen des Vorfalllebenszyklus angewendet werden, überall dort, wo es wiederholbare Prozesse gibt, die wertvolle Minuten (oder Stunden) in Anspruch nehmen, wenn es am wichtigsten ist. Unabhängig von Ihrem Betriebsmodell kann die ereignisgesteuerte Automatisierung ebenfalls angewendet werden, um die Triage-Zeiten während eines Vorfalls zu verkürzen.

Zum Beispiel:

NOC : Führen Sie die L0-Automatisierung ein, bevor ein Mitarbeiter gerufen wird. Dies reduziert MTTR, Risiko und Kosten für das Unternehmen und beugt Burnout bei First-Line-Response-Teams vor.

SRE : Automatisieren Sie den gesamten Ablauf eines Ereignisses, indem Sie bei Bedarf automatische Abhilfemaßnahmen oder „Human in the Middle“-Automatisierung einbauen. Dies reduziert die MTTR und spart SRE-Zeit für wertvolle Initiativen wie die Skalierung der Automatisierung auf mehrere Teams.

MIM : Füllen Sie Vorfälle mit automatisierten Diagnosen auf und normalisieren Sie Ereignisdaten, damit sie nutzbar sind. Dies verbessert die Triage-Geschwindigkeit und hilft allen Ihren Helfern, so effektiv zu arbeiten wie Ihr bester Helfer.

Maschinenbau : Leiten Sie Vorfälle jedes Mal intelligent an das richtige Team weiter und erstellen Sie automatische Korrekturen für gut verstandene Probleme. Dadurch bleibt Entwicklungszeit für wertschöpfende Initiativen, die Umsatz generieren.

Krabbeln, Gehen, Laufen

Wenn man an Automatisierung im Incident Management denkt, denkt man häufig gleich an die tollen geschlossenen Regelkreise, die selbstheilende und automatische Behebung von Incidents. Tatsächlich kann jedoch nur ein kleiner Teil der Incidents automatisch behoben werden. Wir haben bereits die bekannten und wiederholbaren Anforderungen erwähnt, die Automatisierung im Allgemeinen stellt. Was jedoch bekannt und wiederholbar ist, ist die Zeit, die darauf verwendet wird, die Informationen zu erhalten, die zur Triage und Diagnose des Problems erforderlich sind.

Diese Art der Automatisierung ist zudem wesentlich sicherer, wenn sie automatisch ausgeführt wird, als wenn sie auf Abhilfemaßnahmen basiert. Unternehmen, insbesondere in stark regulierten Branchen, benötigen eine verantwortliche, überprüfbare Person mit menschlichem Urteilsvermögen, die den Neustart, das Rollback oder die Änderung von Produktionssystemen genehmigt. Die Kombination von Automatisierung und menschlichem Urteilsvermögen ergibt also einen automatisierten Human-in-the-Middle-Prozess, der das Beste aus beiden Welten vereint.

Ein wirkungsvoller, aber sicherer Ausgangspunkt (Crawl) besteht darin, lediglich mit automatisierten Diagnosen zu beginnen und den Vorfall mit den Details anzureichern, die der Helfer benötigt, sobald er benachrichtigt wird.

Indem dem Responder kontextbezogene Abhilfemaßnahmen zur Verfügung gestellt werden, die er basierend auf der Diagnose manuell auslösen kann, wird eine weitere Effizienzebene erreicht (Walk).

Schließlich werden auf der Grundlage früherer Vorfälle die bekannten Vorfälle, die keine menschliche Entscheidung erfordern, durch eine automatische Behebung vollständig beseitigt (ausgeführt).

In Teil 4 beschäftigen wir uns mit der Lösung von Vorfällen. Wir werden die Prozesse und Entscheidungsfindungen erläutern, die mit der Wiederherstellung des Dienstes im Vergleich zur Behebung der Grundursache verbunden sind, und die Voraussetzungen analysieren, um einen Vorfall für gelöst zu erklären.

Möchten Sie mehr erfahren?

Wir werden auch eine dreiteilige Webinar-Reihe veranstalten, die sich auf die Gewinn- und Verlustrechnung konzentriert und zeigt, wie sie Kunden dabei geholfen hat, sich auf Wachstum und Innovation zu konzentrieren. Klicken Sie auf die folgenden Links, um mehr zu erfahren und sich anzumelden: