- PagerDuty /
- Der Blog /
- Zuverlässigkeit /
- Die Höhen und Tiefen der Verfügbarkeit
Der Blog
Die Höhen und Tiefen der Verfügbarkeit
Dies ist das erste in einer Reihe von Beiträgen auf die Steigerung der Gesamtverfügbarkeit Ihres Dienstes oder Systems.
Dieser Beitrag soll eine kurze Einführung in einige Konzepte der Systemverfügbarkeit geben, damit nachfolgende Beiträge dieser Reihe Sinn ergeben. Ich gehe auf Konzepte wie Verfügbarkeit, SLA, mittlere Betriebsdauer zwischen Ausfällen, mittlere Betriebsdauer bis zur Wiederherstellung usw. ein. Wenn Sie damit bereits sehr vertraut sind, können Sie diesen Beitrag gerne überspringen.
Der Verfügbarkeit eines Systems oder Dienstes ist der Gesamtprozentsatz der Zeit, in der das jeweilige System aktiv und funktionsfähig ist. Ein System, das beispielsweise insgesamt 5 Stunden pro Jahr ausfällt, hätte eine Verfügbarkeit von etwa 99,94 %. Diese Kennzahl wird häufig in „Neunen“ angegeben: Ein Telefondienstanbieter mit einer Verfügbarkeit von „vier Neunen“ ist beispielsweise zu 99,99 % verfügbar oder hat etwa 53 Minuten Gesamtausfallzeit pro Jahr.
Ausfallzeit ist ein vager Begriff, der aber normalerweise sowohl den Fall abdeckt, dass ein Dienst völlig unzugänglich ist, als auch den Fall, dass er zwar zugänglich ist, aber genügend Fehler verursacht oder so langsam ist, dass er praktisch unbrauchbar ist. Einige Dienstanbieter versuchen, Geplante Ausfallzeit aus ihren Verfügbarkeitsberechnungen, aber das ist falsch. Sie sind nicht verfügbar, wenn Sie ausgefallen sind, unabhängig davon, ob Sie das Problem tatsächlich vorhergesehen und die Ausfallzeit „geplant“ haben oder nicht. Das fast schon widersprüchliche Konzept der geplanten Ausfallzeit wird heutzutage in modernen Web- und SaaS-Unternehmen immer mehr zu einem Anachronismus, aber es ist noch lange nicht tot. Diese Tirade könnte einen eigenen Blogbeitrag füllen, also werde ich sie vorerst überspringen.
Bezahlte Dienste haben oft Service-Level-Agreements (SLAs) mit ihren Kunden vereinbart, welche Mindestverfügbarkeit ihre Kunden haben müssen, bevor finanzielle Entschädigungen gezahlt werden: mit anderen Worten, bevor ihnen bei einem Defekt ein Teil oder das gesamte Geld zurückerstattet wird. Einige Dienste wie Amazon S3 haben sehr explizit definierte SLAs, während andere Dienste, wie Netflix , legt seine Richtlinien nicht explizit dar, erstattet seinen Kunden aber proaktiv Geld für Zeiträume, in denen der Service schlecht war. Obwohl diese SLA-Rückerstattungen bei einem großen Ausfall für den gesamten Kundenstamm eines Dienstes eine Menge Geld ausmachen können, sind sie für einzelne Kunden wirklich wenig wert.
Rückerstattungen für SLA-Verstöße sind allerdings nur ein kleiner Teil der finanziellen Schäden, die ein Ausfall verursachen kann: Einige Dienste, insbesondere Cloud-Dienste, leben und sterben von ihrer Verfügbarkeit. Große Ausfälle eines Verbraucher -orientierter Service kann die Aufmerksamkeit der Kunden und das Vertrauen der Verbraucher beeinträchtigen. Ausfälle (jeder Größe) eines Geschäft -orientierter Service kann das Vertrauen der Kunden stark schädigen, insbesondere wenn diese Kunden auf den Service angewiesen sind, um einen Teil ihrer geschäftskritischen Funktionalität bereitzustellen. Niemand möchte als der Service bekannt sein, der geht immer runter .
Schließlich gibt es noch die Konzepte „mittlere Zeit zwischen Ausfällen“ und „mittlere Zeit bis zur Wiederherstellung“, die im Allgemeinen praktischer sind als ein Verfügbarkeitsprozentsatz. Mittlere Betriebsdauer zwischen Ausfällen (MTBF) ist ein Maß dafür, wie lange Ihr Dienst im Durchschnitt zwischen Ausfallzeiten verfügbar bleiben kann, und mittlere Zeit bis zur Wiederherstellung (MTTR) ist, wie schnell Sie die Dinge wieder in einen funktionsfähigen Zustand bringen können, wenn sie zu bröckeln beginnen.
Wir möchten immer die MTBF erhöhen und die MTTR verringern. Es gibt viele Techniken, um beides zu erreichen, und wir werden in den nächsten Verfügbarkeitsbeiträgen Strategien dazu vorstellen. Allerdings kann die Erhöhung der MTBF ziemlich schwierig sein und erfordert die Entwicklung von Systemen von Grund auf, die sehr robust und ausfallsicher sind. Die Verringerung der MTTR kann dagegen einfach sein, da es viele Dinge gibt, die Sie tun können, und Möglichkeiten zur Vorbereitung, damit Ihr Team bereit ist, wenn die Kacke am Dampfen ist. Im nächsten Beitrag werden wir mit der Diskussion von Möglichkeiten zur Reduzierung der MTTR beginnen. Bleiben Sie dran!