Les hauts et les bas de la disponibilité
C'est la première d'une série de messages sur l’augmentation de la disponibilité globale de votre service ou système.
Cet article est destiné à être une introduction rapide à certains concepts de la disponibilité du système, afin que les articles suivants de cette série aient du sens. Je passerai en revue des concepts tels que la disponibilité, le SLA, le temps moyen entre pannes, le temps moyen de récupération, etc. Si vous êtes déjà très familier avec ces concepts, n'hésitez pas à ignorer cet article.
Le disponibilité Le pourcentage de temps pendant lequel un système ou un service est opérationnel est le pourcentage total de temps pendant lequel le système donné est opérationnel. Par exemple, un système qui est hors service pendant un total de 5 heures par an entraînerait une disponibilité d'environ 99,94 %. Cette mesure est souvent exprimée en termes de « neuf » : par exemple, un fournisseur de services téléphoniques avec une disponibilité de « quatre neuf » est disponible à 99,99 %, soit environ 53 minutes d'indisponibilité totale par an.
Temps d'arrêt est un terme vague, mais qui couvre généralement à la fois le cas où un service est complètement inaccessible ou celui où il est accessible mais génère suffisamment d'erreurs ou est si lent qu'il est pratiquement inutilisable. Certains fournisseurs de services tentent d'omettre temps d'arrêt programmé Les calculs de disponibilité sont basés sur des hypothèses erronées. Vous n’êtes pas disponible lorsque vous êtes en panne, que vous ayez prévu le problème et « programmé » l’indisponibilité ou non. Le concept quasi-oxymorique de temps d’arrêt programmé devient de plus en plus anachronique de nos jours dans les entreprises modernes du Web et du SaaS, mais il est loin d’être mort. Cette diatribe pourrait faire l’objet d’un article de blog en soi, je vais donc l’ignorer pour l’instant.
Les services payants auront souvent accords de niveau de service (SLA) en place avec leurs clients qui définissent le niveau minimum de disponibilité que leurs clients doivent voir avant que des réparations financières ne soient effectuées : en d'autres termes, avant de rembourser une partie ou la totalité de leur argent en cas de panne. Certains services comme Amazon S3 ont des SLA très explicitement définis, alors que d'autres services, comme Netflix , ne précise pas explicitement sa politique, mais remboursera proactivement ses clients pendant les périodes où ils ont reçu un service médiocre. Bien que ces remboursements SLA puissent représenter beaucoup d'argent pour l'ensemble de la clientèle d'un service lors d'une panne majeure, ils ne représentent en réalité que peu d'argent pour les clients individuels.
Les remboursements pour les violations de SLA, attention, ne représentent qu'une petite partie des dommages financiers qu'une panne peut coûter : certains services, en particulier les services cloud, vivent et meurent en fonction de leur disponibilité. Les pannes importantes d'un consommateur -le service de proximité peut avoir un impact sur la notoriété et la confiance des clients. Les pannes (de toute taille) d'un entreprise -un service orienté client peut gravement nuire à la confiance des clients, en particulier si ces derniers dépendent du service pour fournir une partie de leurs fonctionnalités essentielles à l'entreprise. Personne ne veut être connu comme ce service qui ça descend toujours .
Enfin, il existe les concepts de « temps moyen entre pannes » et de « temps moyen de récupération », qui sont généralement plus pratiques qu’un pourcentage de disponibilité. Temps moyen entre pannes (MTBF) est une mesure de la durée moyenne pendant laquelle votre service peut rester opérationnel entre les périodes d'indisponibilité, et Temps moyen de récupération (MTTR) c'est la rapidité avec laquelle vous pouvez remettre les choses dans un état fonctionnel lorsque les choses commencent à s'effondrer.
Nous voulons toujours augmenter le MTBF et diminuer le MTTR. Il existe de nombreuses techniques pour y parvenir, et nous vous proposerons dans les prochains articles sur la disponibilité des stratégies pour y parvenir. Cela étant dit, augmenter le MTBF peut être assez difficile et implique de concevoir des systèmes à partir de zéro qui sont très robustes et résistants aux pannes. Diminuer le MTTR, en revanche, peut être facile, car il existe de nombreuses choses que vous pouvez faire et des moyens de vous préparer pour que votre équipe soit prête lorsque la merde frappe le ventilateur. Dans le prochain article, nous commencerons à discuter des moyens de réduire le MTTR. Restez à l'écoute !