Blog

Les principales causes des temps d’arrêt

par Fleur de Zachary 9 mars 2017 | 5 minutes de lecture

Selon un tour d'horizon de Gartner , le coût moyen des temps d'arrêt pour une entreprise est de 5 600 $ par minute Bien que les données collectées proviennent d’entreprises incroyablement grandes, le coût des temps d’arrêt, même pour les petites startups, n’est pas une mince affaire.

Supposons, pour simplifier, que votre produit principal soit une application Web qui repose uniquement sur des ventes organiques, totalisant 1 million de dollars de revenus par an. Cela représente environ 2 dollars de revenus perdus par minute. Cela ne semble pas beaucoup dans le grand schéma des choses, mais les revenus ne représentent qu'une petite partie de vos coûts d'indisponibilité. Nous devons également prendre en compte les coûts d'exploitation gaspillés.

Les employés perdent également du temps et de la productivité pendant les temps d'arrêt. Si, par exemple, vous payez 500 000 $ par an en frais de personnel, cela représente 1 $ de plus de perte de revenus par minute. Si vous suivez bien les chiffres, nous en sommes maintenant à 3 $ de coût par minute.

Cela représente 180 $ de l'heure. 4 320 $ par jour.

Cela s'additionne rapidement, n'est-ce pas ? Nous avons maintenant pris en compte les coûts liés aux employés et les pertes de revenus, mais qu'en est-il des autres dépenses inutiles ? Chaque élément inutilisé de votre architecture entraîne des pertes supplémentaires pendant les temps d'arrêt. Les serveurs et les services tiers inutilisés peuvent simplement rester inutilisés pendant que votre équipe travaille sur un correctif, et le correctif lui-même peut entraîner des ressources supplémentaires (et coûteuses) nécessaires.

En fonction de l'importance de votre produit pour les activités de vos clients, les temps d'arrêt peuvent non seulement vous coûter de l'argent, mais aussi saper la confiance de vos clients. Il est difficile de justifier le coût d'un fournisseur peu fiable. Ainsi, même si une panne est facilement surmontable, la perte de confiance dans votre produit s'aggrave à chaque nouvelle occurrence.

Causes et solutions

En fin de compte, en comprenant les causes des pannes, vous pouvez maximiser vos chances de les éviter. Les causes peuvent être réduites à quelques catégories : erreur humaine, panne de service d'un tiers ou événement « cygne noir » hautement imprévisible.

Erreur humaine

L’une des causes les plus courantes de temps d’arrêt que j’ai personnellement constatées est erreur humaine . Peu importe si un développeur a commis un code défectueux ou si un administrateur a mis à jour un package non testé, lorsque la procédure n'est pas suivie ou qu'un bogue système obscur n'est pas pris en compte, la disponibilité du produit en souffrira. La mise en place d'un système de contrôles et d'équilibres au sein d'une organisation est la meilleure solution à ce problème. Les revues de code, les tests unitaires, l'assurance qualité, une planification appropriée et une communication claire sont tous des éléments qui contribuent grandement à Prévenir les temps d'arrêt c'est certainement évitable.

Pannes de service

Parfois, les temps d'arrêt ne sont pas causés par des facteurs internes. De temps à autre, même les fournisseurs de cloud comme Amazon AWS descendre. Une organisation ne peut pas faire grand-chose lorsque cela se produit (du moins pas sans un plan approprié en place). Pour lutter contre cela, je suis fan de Netflix Singe du chaos système. Pour les non-initiés, Chaos Monkey est un système dont le seul travail est de supprimer les services aléatoires au sein de l'architecture d'un produit. Cela oblige le système à s'auto-réparer et forme l'équipe à gérer efficacement les pannes lorsqu'elles sont vraiment importantes. PagerDuty mène ses propres Les vendredis de l'échec aussi!

Alerte

Bien que des temps d’arrêt occasionnels soient totalement inévitables (même Facebook tombe en panne de temps en temps ), la façon dont vous gérez et vous préparez cette situation déterminera l'ampleur de son impact sur votre organisation. Étant donné que chaque minute d'indisponibilité signifie des coûts supplémentaires, il est essentiel d'établir des flux de travail pour prévenir ou réduire la durée d'une panne. Des solutions telles que PagerDuty Accélérez la résolution des incidents en temps réel en avertissant et en mettant tout le monde sur la même longueur d'onde dès que possible, et en fournissant une plateforme permettant de faire remonter le contexte pour résoudre le problème. En agrégeant toutes vos données d'événements et en optimisant la communication, il devient beaucoup plus facile d'identifier la cause profonde d'une panne et de résoudre les problèmes de manière efficace et précise.

Communication

Il est important de se rappeler que l’amélioration communication externe est tout aussi important que de l'améliorer en interne. Communiquer des informations sur une panne à vos clients de manière précoce et claire contribue grandement à maintenir la confiance et la crédibilité auprès d'eux. Grâce à l'utilisation d'outils tels que Page d'état et StatutCast , ainsi que celui de PagerDuty Engagement des parties prenantes , les organisations peuvent mieux orchestrer la réponse commerciale et externe en temps réel et utiliser les pages d’état pour fournir une transparence précieuse sur l’état d’un produit. Personnellement, je ne trouve rien de plus méfiant qu’une organisation qui reste silencieuse pendant une crise. Son silence ressemble à une tentative de cacher quelque chose.

Rotations sur appel

Toutes ces solutions sont excellentes, mais il est important de comprendre qu'une partie indispensable de la gestion des temps d'arrêt imprévus est de s'assurer qu'il y a toujours du personnel disponible pour résoudre le problème. Cela peut être facilement accompli en établissant une rotation d'astreinte parmi vos ingénieurs. Une rotation d'astreinte efficace est un investissement minimal qui peut aider à augmenter la fiabilité du produit ainsi qu'à maintenir la responsabilité, une meilleure prestation de services et un meilleur équilibre entre vie professionnelle et vie privée pour votre équipe. Sans rotation d'astreinte, chaque panne se transforme en un événement « à tous les niveaux », ce qui perturbe la vie personnelle de chaque employé. D'un autre côté, un calendrier d'astreinte clairement défini et politiques d'escalade signifie que les charges de travail sont équilibrées et qu'il y a toujours un expert en la matière dédié qui est prêt à résoudre un problème ou favoriser la collaboration pour la résolution comme requis.

En fin de compte, la meilleure façon de planifier (et d’atténuer) les temps d’arrêt est d’investir dans vos ressources et votre équipe. Toutes les solutions mentionnées ici ne conviennent pas à toutes les organisations, mais le coût de leur mise en œuvre est rien n'est significativement plus élevé que le coût de l'intervention. Lorsque vous disposez d'un processus établi pour gérer les pannes, peu importe qu'elles soient causées par un pirate informatique ou une panne de courant. Vous et votre équipe serez prêts à y faire face.


Prêt à essayer PagerDuty ? Inscrivez-vous pour un essai gratuit de 14 jours .

S'INSCRIRE