Der Blog

Die häufigsten Ursachen für Ausfallzeiten

von Zachary Blume 9. März 2017 | 5 Minuten Lesezeit

Laut einer Zusammenfassung von Gartner Die durchschnittlichen Kosten von Ausfallzeiten betragen für ein Unternehmen 5.600 US-Dollar pro Minute . Obwohl die gesammelten Daten von unglaublich großen Unternehmen stammen, sind die Kosten von Ausfallzeiten selbst für kleine Startups keine Kleinigkeit.

Nehmen wir der Einfachheit halber an, dass Ihr Kernprodukt eine Web-App ist, die ausschließlich auf organischen Verkäufen basiert und einen Gesamtumsatz von 1 Million US-Dollar pro Jahr erzielt. Dies entspricht einem Umsatzverlust von etwa 2 US-Dollar pro Minute. Das klingt im Großen und Ganzen nicht nach viel, aber der Umsatz ist nur ein kleiner Teil Ihrer Ausfallkosten. Wir müssen auch die verschwendeten Betriebskosten berücksichtigen.

Auch die Zeit und Produktivität der Mitarbeiter geht während der Ausfallzeiten verloren. Wenn Sie beispielsweise 500.000 US-Dollar pro Jahr für Mitarbeiterkosten bezahlen, bedeutet das einen zusätzlichen Umsatzverlust von 1 US-Dollar pro Minute. Wenn Sie nachzählen, liegen die Kosten jetzt bei 3 US-Dollar pro Minute.

Das sind 180 Dollar pro Stunde. 4.320 Dollar pro Tag.

Das summiert sich schnell, nicht wahr? Jetzt haben wir die Personalkosten und den entgangenen Umsatz berücksichtigt, aber was ist mit anderen verschwendeten Ausgaben? Jeder ungenutzte Teil Ihrer Architektur führt während der Ausfallzeit zu zusätzlichen Verlusten. Ungenutzte Server und Dienste von Drittanbietern können einfach herumliegen, während Ihr Team an einer Lösung arbeitet, und die Lösung selbst könnte zusätzliche (und kostspielige) Ressourcen erfordern.

Je nachdem, wie wichtig Ihr Produkt für das Geschäft Ihrer Kunden ist, können Ausfallzeiten Sie nicht nur Geld, sondern auch das Vertrauen Ihrer Kunden kosten. Die Kosten für einen unzuverlässigen Anbieter lassen sich nur schwer rechtfertigen. Ein Ausfall lässt sich also zwar leicht verschmerzen, der Vertrauensverlust in Ihr Produkt wird jedoch mit jedem weiteren Ausfall noch größer.

Ursachen + Lösungen

Wenn Sie die Ursachen von Ausfällen verstehen, können Sie diese letztlich besser verhindern. Die Ursachen lassen sich auf einige wenige Kategorien reduzieren: menschliches Versagen, Ausfall von Diensten Dritter oder ein höchst unvorhersehbares „Black Swan“-Ereignis.

Menschlicher Fehler

Eine der häufigsten Ursachen für Ausfallzeiten, die ich persönlich gesehen habe, ist menschlicher Fehler . Unabhängig davon, ob ein Entwickler fehlerhaften Code übermittelt oder ein Administrator ein ungetestetes Paket aktualisiert hat, wird die Produktverfügbarkeit beeinträchtigt, wenn das Verfahren nicht befolgt wird oder ein obskurer Systemfehler nicht berücksichtigt wird. Die beste Lösung für dieses Problem ist die Einrichtung eines Systems von Kontrollen und Ausgleichen innerhalb einer Organisation. Codeüberprüfungen, Unit-Tests, Qualitätssicherung, ordnungsgemäße Planung und klare Kommunikation tragen alle viel dazu bei, Ausfallzeiten verhindern das ist definitiv vermeidbar.

Serviceausfälle

Manchmal werden Ausfallzeiten jedoch nicht intern verursacht. Von Zeit zu Zeit können sogar Cloud-Anbieter wie Amazon AWS ausfallen. Es gibt sehr wenig, was eine Organisation tun kann, wenn dies geschieht (zumindest nicht ohne einen geeigneten Plan). Um dies zu bekämpfen, bin ich ein Fan von Netflix's Chaos Monkey System. Für die Uneingeweihten: Chaos Monkey ist ein System, dessen einzige Aufgabe darin besteht, zufällige Dienste innerhalb der Architektur eines Produkts zu deaktivieren. Dies zwingt das System zur Selbstreparatur und trainiert das Team, Ausfälle effektiv zu handhaben, wenn sie wirklich wichtig sind. PagerDuty führt seine eigene Misserfolg am Freitag sowie!

Alarmierung

Während gelegentliche Ausfallzeiten absolut unvermeidbar sind (selbst Facebook fällt von Zeit zu Zeit aus ), wie Sie damit umgehen und sich darauf vorbereiten, bestimmt, wie stark sich dies auf Ihr Unternehmen auswirken wird. Da jede Minute Ausfallzeit zusätzliche Kosten bedeutet, ist die Einrichtung von Workflows zur Verhinderung oder Verkürzung eines Ausfalls von entscheidender Bedeutung. Lösungen wie PagerDuty Beschleunigen Sie die Echtzeit-Lösung von Vorfällen, indem Sie alle so schnell wie möglich benachrichtigen und auf den gleichen Stand bringen und eine Plattform bereitstellen, auf der Kontextinformationen zur Behebung des Problems angezeigt werden. Durch die Aggregation aller Ereignisdaten und die Optimierung der Kommunikation wird es viel einfacher, die Grundursache eines Ausfalls zu identifizieren und Probleme effizient und präzise zu lösen.

Kommunikation

Es ist wichtig, sich daran zu erinnern, dass die Verbesserung Kommunikation nach außen ist genauso wichtig wie die interne Verbesserung. Die frühzeitige und klare Kommunikation von Informationen über einen Ausfall an Ihre Kunden trägt wesentlich dazu bei, das Vertrauen und die Glaubwürdigkeit bei ihnen aufrechtzuerhalten. Durch den Einsatz von Tools wie StatusPage Und StatusCast sowie PagerDuty's Stakeholder Engagement können Unternehmen die Reaktion des Unternehmens und nach außen besser in Echtzeit koordinieren und Statusseiten verwenden, um wertvolle Transparenz über den Zustand eines Produkts zu bieten. Persönlich finde ich nichts misstrauischer als ein Unternehmen, das während einer Krise schweigt. Ihr Schweigen wirkt wie ein Versuch, etwas zu verbergen.

Bereitschaftsdienste

Alle diese Lösungen sind großartig, aber es ist wichtig zu verstehen, dass ein unverzichtbarer Teil der Bewältigung unerwarteter Ausfallzeiten darin besteht, sicherzustellen, dass immer Leute zur Stelle sind, um das Problem zu beheben. Dies lässt sich leicht erreichen, indem Sie einen Bereitschaftsplan für Ihre Ingenieure einrichten. Ein effektiver Bereitschaftsplan ist eine minimale Investition, die dazu beitragen kann, die Produktzuverlässigkeit zu erhöhen sowie Verantwortlichkeit, bessere Servicebereitstellung und eine verbesserte Work-Life-Balance für Ihr Team aufrechtzuerhalten. Ohne Bereitschaftsplan wird jeder Ausfall zu einem „All-Hands“-Ereignis, das das Privatleben jedes Mitarbeiters stört. Auf der anderen Seite ist ein klar definierter Bereitschaftsplan und Eskalationsrichtlinien bedeutet, dass die Arbeitslast ausgeglichen ist und es immer einen engagierten Fachexperten gibt, der bereit ist, ein Problem zu beheben oder Zusammenarbeit zur Lösung vorantreiben wie benötigt.

Letztendlich ist die beste Möglichkeit, Ausfallzeiten zu planen (und zu minimieren), in Ihre Ressourcen und Ihr Team zu investieren. Nicht jede hier erwähnte Lösung ist für jede Organisation geeignet, aber die Kosten dafür nichts ist bedeutend höher als die Kosten, die entstehen, wenn etwas getan wird. Wenn Sie einen etablierten Prozess für den Umgang mit Ausfällen haben, spielt es keine Rolle, ob diese durch einen Hacker oder einen Stromausfall verursacht wurden. Sie und Ihr Team sind darauf vorbereitet.


Bereit, PagerDuty auszuprobieren? Melden Sie sich für eine kostenlose 14-tägige Testversion an .

MELDEN SIE SICH AN