Der Blog

Eine Kultur der Schuldlosigkeit ist der Schlüssel zur Bewältigung der Stromausfall-Empörung in Australien

von Matt Stratton 27. Oktober 2019 | 6 min Lesezeit

Nach dem unglücklichen Commonwealth Bank von Australien Ausfall letzte Woche, das mächtige Payment Systems Board – zu dessen Mitgliedern die Vorsitzenden der RBA Und APRA kündigte an, alle Daten zu Ausfällen öffentlich zu machen um zu verhindern, dass sich Banken, Zahlungssysteme und Telekommunikationsanbieter hinter den von den einzelnen Institutionen bereitgestellten Leistungsstatistiken „verstecken“.

Führende B2B- und B2C-Marken wissen, dass die Freude ihrer vernetzten Kunden mit außergewöhnlichen Erlebnissen, häufigen Innovationen und verbesserten Services mit technischer Komplexität und einem erhöhten Risiko technischer Ausfälle einhergeht. Ausfälle wie der letzte Woche sind jedoch heute für alle digitalen Unternehmen, die versuchen, außergewöhnliche Kundenerlebnisse zu bieten, unvermeidlich.

Für die Medien, die Regierung und verärgerte Kunden klingt Transparenz bei Ausfällen und deren Verantwortlichen wie ein effektiver Ansatz, um die Rechenschaftspflicht der Dienstanbieter zu verbessern. Ich bin jedoch besorgt, dass die neue Regelung, obwohl gut gemeint, auf lange Sicht schädlich sein wird. Lassen Sie mich erklären, warum.

Die Bedeutung der Schuldlosigkeit

Zusätzlich zu den Anfragen und möglicherweise strengeren Vorschriften fordern die Kunden rund um die Uhr außergewöhnliche Erlebnisse, was den Druck auf die Unternehmen erhöht, schnell zu reagieren und Vorfälle zu lösen.

Ich befürchte, dass Unternehmen auf den Druck der Medien und der Öffentlichkeit reagieren, indem sie sich darauf konzentrieren, einzelne Personen für Ausfälle und Ausfallzeiten verantwortlich zu machen. So entsteht eine Kultur der Schuldzuweisungen und der Suche nach Sündenböcken – ein Verhalten, das die Zuverlässigkeit der Dienste von Unternehmen gefährden wird. Unserer Erfahrung nach sind jedoch Unternehmen mit der kulturellen und organisatorischen Bereitschaft, aus Fehlern zu lernen und weiteren Problemen proaktiv vorzubeugen, diejenigen mit der geringsten Anzahl schwerer Störungen und der höchsten Kundenzufriedenheit.

Das ist nachvollziehbar: Schließlich machen Menschen nicht weniger Fehler, weil sie Angst haben, dafür verantwortlich gemacht zu werden. Stattdessen werden sie nur besser darin, ihre Fehler zu verbergen. Wenn Menschen glauben, dass ihnen menschliche Fehler zur Last gelegt werden, sprechen sie weniger über auftretende Probleme, egal wie klein sie sind. Wenn dann ein schwerwiegender Vorfall eintritt, haben Organisationen nicht die nötigen Einblicke in das, was in ihren Systemen passiert ist und passiert, was die Reaktion und Schadensbegrenzung weiter verlangsamt.

Zusätzlich, schuldlose Obduktionen , eine Methode, die es Teams ermöglicht, iterativ aus Vorfällen zu lernen und sich zu verbessern, sollte nach jedem Vorfall in Betracht gezogen werden, nicht nur nach den größten Ereignissen. Dafür gibt es zwei Gründe:

  1. Erstens sind kleinere Zwischenfälle oft ein Vorbote größerer bevorstehender Ausfälle. Wenn Unternehmen lernen, was bei kleineren Zwischenfällen schiefgelaufen ist, können sie größere Zwischenfälle in der Zukunft möglicherweise minimieren oder sogar verhindern.
  2. Zweitens bietet die Integration von Post-Mortem-Analysen in den Prozess sowohl den Teams als auch dem Management mehr Möglichkeiten, effektive Post-Mortem-Analysen durchzuführen, und vermittelt ihnen, wie wichtig es ist, aus Vorfällen zu lernen.

Darüber hinaus ermöglichen Postmortems den Teams, kleinere Änderungen häufiger zu veröffentlichen, anstatt größere Änderungen weniger häufig durchzuführen, was die Servicezuverlässigkeit erhöht. Das klingt kontraintuitiv, aber laut DORAs „2019 Accelerate State of DevOps Report“ „Die Forschung zeigt, dass Unternehmen mit kleineren, häufigeren Änderungen bei Vorfällen tatsächlich schneller reagieren und den Dienst wiederherstellen können.“

Best Practices zur Reduzierung von Ausfallzeiten und Ausfällen

Wie können Unternehmen Ausfälle besser verstehen und daraus lernen? Der erste Schritt besteht darin, zu verstehen, dass es unmöglich ist, alle Vorfälle zu verhindern. Bei den heutigen komplexen Systemen kommt es immer wieder zu Ausfällen – das ist eine bedauerliche Tatsache im digitalen Geschäft. Ein Unternehmen kann beispielsweise einen Plan haben, was zu tun ist, wenn ein System ausfällt (z. B. den Apache-Webserver neu starten), aber es kann nicht alle Dinge planen, die bei einem kaskadierenden Ausfall passieren können.

Der nächste Schritt besteht darin, unsere Denkweise über Ausfälle zu ändern. Anstatt zu fragen: „Wie stellen wir sicher, dass es überhaupt keine Zwischenfälle gibt?“, fragen Sie: „Wie können wir die Anpassungsfähigkeit unseres Systems an unvermeidliche Unterbrechungen/Zwischenfälle verbessern?“ Der Schwerpunkt sollte darauf liegen, die Anpassungsfähigkeit (die Fähigkeit eines Systems, sich anzupassen, wenn sich die Umgebung, in der das System existiert, ändert) unserer Systeme zu entdecken und zu verbessern.

Was mich zu meinem nächsten Punkt bringt: Menschen sind ein zentraler Bestandteil jedes Systems und der Ort, an dem die Reaktionsfähigkeit größtenteils liegt.

Menschen: Ihre erste Verteidigungslinie

Die Reaktion auf Vorfälle erfordert die Kreativität und Intelligenz von Menschen auf der Grundlage von Informationen über den aktuellen Zustand der Systeme – nicht über das, was wir vor zwei Monaten beim Schreiben des Runbooks für möglich gehalten hätten. Bei einem schwerwiegenden Vorfall ist es entscheidend, schnell die richtigen Leute zusammenzurufen und ihnen die Werkzeuge, Informationen und Handlungsmöglichkeiten zur Verfügung zu stellen, um den Dienst wiederherzustellen.

Darüber hinaus möchte ich betonen, dass der Schwerpunkt bei einem Vorfall auf der schnellen Wiederherstellung des Dienstes liegt. Vorfälle sind nicht der richtige Zeitpunkt, um die Ursache zu ermitteln oder zugrunde liegende Probleme zu beheben. Ein effektiver Incident-Response-Prozess, der es den Praktikern ermöglicht, zusammenzuarbeiten, um den Service bestmöglich wiederherzustellen, ist unerlässlich. Diese Prozesse müssen nicht kompliziert oder umständlich sein; je unkomplizierter der Prozess ist, desto einfacher ist es, ihn jedes Mal gut durchzuführen. PagerDuty hat unseren eigenen Incident-Response-Prozess veröffentlicht unter https://response.pagerduty.com , und wir ermutigen die Teams, diesen Prozess an ihre individuellen Bedürfnisse anzupassen.

Zusammenfassend lässt sich sagen, dass Unternehmen, die ihren Vorfallreaktionsprozess verbessern möchten, in der Entwicklung eines dreistufigen Ansatzes münden sollten:

  1. Führen Sie eine Methode ein, um aus Vorfällen zu lernen. Sorgen Sie für einen transparenten und verständlichen Prozess für eine schuldfreie Obduktion. Bauen Sie Vertrauen in Ihre Mitarbeiter auf, indem Sie eine Kultur der Schuldlosigkeit schaffen. Das Management muss die Zusicherung geben, dass Vorfälle nicht zu Strafen oder Sanktionen führen. Streichen Sie den Ausdruck „menschliches Versagen“ aus Ihrem Vokabular. Beispielsweise kann eine Person versehentlich eine wichtige Datei gelöscht haben. Das Problem ist nicht, dass die Person diese Aktion durchgeführt hat, sondern dass das System oder der Prozess diese Aktion ermöglicht hat.
  2. Bewerten Sie Ihren Vorfallreaktionsprozess. Engagieren Sie so schnell wie möglich die richtigen Helfer? Erhalten diese die Informationen und Ressourcen, die sie zur Wiederherstellung des Dienstes benötigen? Verfügen Sie über eine klare Methode zur Entscheidungsfindung und Kommunikation? Verfügen Sie über einen Mechanismus, um die Beteiligten auf dem Laufenden zu halten?
  3. Passen Sie Ihre Reaktion auf Vorfälle und Ihren Lernprozess kontinuierlich an und verbessern Sie sie . Ein Teil der Retrospektive nach dem Vorfall sollte sich auf den Vorfallreaktionsprozess selbst beziehen. Wie kann er verbessert werden? Wo hat er gut funktioniert?

Wenn Sie diese drei Schritte befolgen, können Sie sicherstellen, dass Ihr Unternehmen optimal aufgestellt ist, um Ausfälle zu bewältigen und aus diesen Vorfällen zu wachsen. Darüber hinaus können Sie durch kontinuierliches Lernen und Anpassen an zuverlässigeren und robusteren Systemen arbeiten und die Zufriedenheit und Zufriedenheit Ihrer Kunden steigern.

Möchten Sie mehr über bewährte Methoden zur Vermeidung von Ausfällen erfahren und erfahren, wie PagerDuty Ihnen dabei helfen kann? Melden Sie sich an für eine 14 Tage kostenlos testen .