Der Blog

Die Kosten von IT-Ausfallzeiten: Ein Überblick

von PagerDuty 13. April 2021 | 7 min Lesezeit

Was ist Ausfallzeit?

Da die Einführung von Cloud Computing weiterhin branchenübergreifend Innovationen fördert, sind leistungsstarke und robuste Systeme zu einer Notwendigkeit geworden, um mit der Konkurrenz Schritt zu halten und interne/externe SLAs (Service Level Agreements) einzuhalten. Im Hinblick auf die Kundenerwartungen kann eine Minute Ausfallzeit Tausende von Dollar an verlorenen Geschäftsmöglichkeiten und eine Beeinträchtigung der Kundenbeziehung bedeuten.

Was genau ist also Ausfallzeit? Ausfallzeit lässt sich am besten als ein Zeitraum beschreiben, in dem die internen und externen Kerndienste eines Systems, Geräts oder einer Anwendung aufgrund von Aktualisierungen, Wartungsarbeiten, Sicherheitsvorkehrungen oder sogar aufgrund unerwarteter Ausfälle für eine bestimmte Zeit nicht verfügbar oder inaktiv sind.

Arten von Ausfallzeiten

Es gibt zwei unterschiedliche Arten von Ausfallzeiten: geplante und ungeplante.

Geplant (oder geplante) Ausfallzeiten erfolgen zu einem Zeitpunkt, der für die Benutzer am günstigsten ist und die negativen Auswirkungen auf diese minimiert. Geplante Ausfallzeiten sind eine proaktive Maßnahme, um die optimale Funktionalität von Maschinen und Diensten sicherzustellen. Es gibt zwei Möglichkeiten, geplante Ausfallzeiten zu planen: fest oder flexibel. Feste Ausfallzeiten folgen einem festgelegten Zeitplan mit einer bestimmten Start- und Endzeit für die Durchführung der Wartung. Flexible Ausfallzeiten sind ein Zeitfenster, in dem Ausfallzeiten auftreten, obwohl die genaue Startzeit unbekannt ist.

Ungeplant (oder ungeplante) Ausfallzeiten sind Betriebsstörungen aufgrund eines ungeplanten Maschinenfehlers oder eines Anwendungs-/Serverausfalls oder anderer technischer Vorfälle. Beispiele für ungeplante Ausfallzeiten können vom Absturz eines lokalen Computers bis hin zum unerwarteten Offline-Zustand eines gesamten Dienstes reichen. Ungeplante Ausfallzeiten können sporadisch zu jeder Tages- und Nachtzeit auftreten und für das Unternehmen finanziell und rufschädigend sein.

Was verursacht Ausfallzeiten?

Die Ursache für Ausfallzeiten lässt sich im Allgemeinen in eine von mehreren Kategorien einteilen. Menschliches Versagen ist eine der häufigsten. Unabhängig davon, ob ein Entwickler fehlerhaften Code übermittelt oder ein Administrator ein ungetestetes Paket aktualisiert hat, wird die Produktverfügbarkeit beeinträchtigt, wenn Verfahren nicht befolgt oder ein obskurer Systemfehler nicht berücksichtigt wird. Eine weitere Ursache sind Ausfälle von Diensten Dritter, wenn die Ausfallzeit nicht intern, sondern durch den Ausfall peripherer Dienstanbieter verursacht wird. Schließlich gibt es höchst unvorhersehbare „Black Swan“-Ereignisse wie Ransomware-Angriffe, die ebenfalls schwerwiegende Folgen haben können.

Messbare Kosten

Sobald das Ausmaß der Auswirkungen der Ausfallzeit verstanden ist, können Unternehmen die tatsächlichen Verluste in Dollarwert beziffern. Es gibt mehrere Bereiche, in die messbare Ausfallzeitkosten fallen. Der erste sind die Personalkosten im Hinblick auf Produktivitätsverluste. Diese können berechnet werden, indem man die Anzahl der Mitarbeiter, die nicht arbeiten können, mit ihren Stundenlohnkosten multipliziert und das Ergebnis dann mit der Anzahl der Ausfallstunden multipliziert. Andere zusätzliche arbeitsbezogene Kosten, wie die Einstellung von Zeitarbeitern oder die Bezahlung von Überstunden, können ebenfalls gemessen werden.

Geschäftskosten oder Opportunitätskosten können auch aus Umsatzeinbußen oder Produktivitätseinbußen berechnet werden, insbesondere im Vergleich zur Leistung unter normalen Umständen. Schließlich gibt es Vertrags- und Strafkosten, bei denen Kunden, die durch ein Service Level Agreement (SLA) abgedeckt sind, im Falle eines Ausfalls bezahlt werden müssen. Wenn die Auswirkungen der Ausfallzeit für die Kunden ausreichend schwerwiegend sind, können Unternehmen sogar mit Klagen konfrontiert werden – insbesondere in regulierten Branchen.

Unmessbare Kosten

Zu den wichtigsten Kosten zählen möglicherweise jene, die nicht von sich aus messbar sind. Ein Beispiel hierfür ist die Beeinträchtigung der Mitarbeitermoral, da Ausfallzeiten Zweifel an der Überlebensfähigkeit eines Unternehmens wecken und Mitarbeiter daran hindern können, wichtige Aufgaben zu erledigen. Ausfallzeiten können auch unvorhergesehene Kosten verursachen, indem sie Entwicklungs- und IT-Projekte blockieren, da der Arbeitsfortschritt gestört wird und die kognitive Belastung der technischen Teams zunimmt. Schließlich kommt es zum irreversiblen Verlust wichtiger technologiebasierter Marktchancen, da der Ruf eines Unternehmens davon abhängt, wie effektiv es seine Systeme am Laufen halten kann.

Vier Methoden zur Vermeidung von Ausfallzeiten

Was können Unternehmen also tun, um Ausfällen vorzubeugen und die Dauer und Häufigkeit von Ausfällen deutlich zu reduzieren? Diese vier Strategien entwickeln sich schnell zu Best Practices der Branche zur Steigerung der Zuverlässigkeit:

Erfolg durch Misserfolg

Backups von Backups und ein fehlertolerantes Design sind großartig – aber nicht genug. Backups, die nur dann eingreifen, wenn etwas kaputt geht, können Code verbergen, der bei tatsächlicher Produktionsarbeitslast versagt. Große Unternehmen mit großen Budgets lösen Probleme, indem sie automatisierte Tools erstellen, die Anwendungen auf Ausfallsicherheit testen, künstliche Latenz einführen oder ganze Verfügbarkeitszonen abschalten. Kleinere Unternehmen können jedoch einfach regelmäßige Zeiten einplanen, um dies manuell zu tun.

Bei PagerDuty nennen wir diese bewährte Methode „Failure Friday“. Durch das Einschleusen von Fehlern durch geplante Angriffe können Unternehmen proaktiv Systemschwachstellen finden und auf Vorfälle reagieren, indem sie nicht nur Probleme beheben, sondern verhindern, dass sie überhaupt auftreten. Bei dieser Übung führen Unternehmen Angriffe für kurze Zeit durch und bringen die Dienste zwischen den Angriffen wieder in einen voll funktionsfähigen Zustand. Teams sollten auch Dashboards verwenden, um besser zu verstehen, welche Metriken auf Probleme hinweisen und wie sich diese auf die Systeme auswirken.

Kontinuierliche Integrationspraktiken

Continuous Integration (CI) ist eine Softwareentwicklungspraxis, bei der Teammitglieder ihre Arbeit zusammenführen, um Probleme und Konflikte zu reduzieren. Im Wesentlichen wird dabei die Codequalität überprüft, um sicherzustellen, dass keine Fehler auftreten. In vielen Fällen werden automatisierte und sich wiederholende Tests verwendet, sodass bei der Entdeckung eines Fehlers neue Tests erstellt werden, um zu verhindern, dass dieser Fehler bei zukünftigen Codeüberprüfungen auftritt. Durch die Verwendung von Continuous Integration schaffen Unternehmen eine grundlegende Softwarequalität, die das Risiko jeder Version senkt.

Es gibt fünf Arten von Tests, die in Betracht gezogen werden sollten. Der erste sind semantische Tests, die die Beziehung zwischen Daten untersuchen. Unit-Tests untersuchen das Design und die Flexibilität des Codes. Funktionstests prüfen die Lesbarkeit für Menschen. Integrationstests stellen sicher, dass alles in Kombination mit allen anderen Diensten, einschließlich Diensten von Drittanbietern, funktioniert. Schließlich helfen Belastungstests dabei, die Volumenkapazität zu bestimmen und festzustellen, wo Leistungsengpässe auftreten können.

Bewältigen Sie nie zweimal denselben Vorfall

Durch das Auswerten historischer Leistungsdaten, das Analysieren der Grundursache von Problemen und das Einrichten eines Warn- und Reaktionssystems können Sie verhindern, dass frühere Ausfallursachen erneut auftreten. Befolgen Sie diesen fünfstufigen Prozess für den Erfolg.

1. Überprüfen Sie historische Informationen zu Leistungstrends und gehen Sie bestimmten Problemen auf den Grund. So schaffen Sie eine solide Grundlage für die Vermeidung künftiger Probleme.

2. Nutzen Sie Überwachungstools von Drittanbietern und zentralisieren Sie alle Informationen zu Leistungsmesswerten. Auf diese Weise können Unternehmen die Leistung und die Abhängigkeiten zwischen einzelnen Servern, Websites und Anwendungen detailliert untersuchen.

3. Setzen Sie Ziele auf Grundlage der Geschäftsanforderungen, der bisherigen Leistung und der Art und Weise, wie sich diese Leistung auf die Zugänglichkeit der Geschäftsabläufe auswirkte.

4. Wandeln Sie Ziele in Benachrichtigungsschwellenwerte um, sodass Organisationen benachrichtigt werden, sobald ein Problem auftritt, anstatt einfach darauf zu warten, gewarnt zu werden, wenn Ziele überschritten wurden.

5. Fassen Sie umsetzbare und verwandte Warnungen zu Vorfällen zusammen, um Vorfallbenachrichtigungen automatisch zu eskalieren, wenn keine Maßnahmen ergriffen werden. Mit dem richtigen Managementtool können Unternehmen alle Ereignisdaten an einem Ort verwalten, zusätzliche Experten einbeziehen und alle Beteiligten auf dem Laufenden halten.

Testen von Diensten von Drittanbietern

Viele Unternehmen verlassen sich bei der Bereitstellung von Produkten und Dienstleistungen für ihre Kunden auf Drittanbieter. Wenn beispielsweise Amazon Web Services ausfällt, sind auch zahlreiche andere Websites davon betroffen. Daher ist es wichtig, Redundanz sicherzustellen, um einzelne Ausfallpunkte zu verhindern.

Beim End-to-End-Testen von SMS-Anbietern sind einige spezifische Best Practices zu beachten. Bei Kurzwahlnummern sollten SMS-Tests alle zwei Minuten gesendet werden, wobei die Häufigkeit bei weniger gebräuchlichen Langwahlnummern variieren kann. Darüber hinaus sollten interne Warnmeldungen den ganzen Tag über über alle Anbieter einer Organisation gesendet werden. Organisationen sollten auch messen, wie lange es dauert, bis die Nachricht eintrifft, um festzustellen, ob ein Anbieter verfügbar ist und wie seine Leistung ist. Anbieter mit einer SMS-Zustellungslatenz von mehr als drei Minuten sollten herabgestuft und ersetzt werden. Schließlich sollten Organisationen nicht umsetzbare Warnmeldungen und gruppenbezogene Warnmeldungen unterdrücken. Dadurch wird die Anzahl der Seiten reduziert, die Bereitschaftstechniker erhalten, wodurch die Warnmeldungsmüdigkeit minimiert wird und sie sich auf die Lösung von Problemen und die Verbesserung von Prozessen konzentrieren können.

Bereiten Sie sich auf einen Ausfall vor

Wenn sich Unternehmen die Zeit nehmen, einen Plan zur Bewältigung unvermeidlicher Ausfallzeiten umzusetzen, können sie Tausende oder sogar Millionen Dollar an messbaren Kosten einsparen. Darüber hinaus können sie die Gesundheit wohl noch wichtigerer qualitativer Faktoren wie Mitarbeitermoral, Markenreputation und Kundentreue sicherstellen.

Um herauszufinden, wie PagerDuty Ihrem Unternehmen bei der Bewältigung von Ausfällen und Ausfallzeiten helfen kann, Melden Sie sich für eine kostenlose 14-tägige Testversion an.