Blog

Une culture de l'irresponsabilité est essentielle pour répondre à l'indignation suscitée par les pannes de courant en Australie

par Matt Stratton 27 octobre 2019 | 6 minutes de lecture

Après le malheureux Banque du Commonwealth d'Australie panne de courant la semaine dernière, le puissant Payment Systems Board, dont les membres incluent les présidents des RBA et APRA a annoncé qu'il rendrait publiques toutes les données relatives aux pannes pour empêcher les banques, les systèmes de paiement et les opérateurs de télécommunications de « se cacher derrière » les statistiques de performance partagées par chaque institution.

Les grandes marques B2B et B2C savent que le fait de proposer à leurs clients connectés des expériences exceptionnelles, des innovations fréquentes et des services améliorés implique une complexité technique et un risque accru de défaillance technique. Cependant, des pannes comme celle survenue la semaine dernière sont aujourd’hui inévitables pour toutes les entreprises numériques qui tentent d’offrir des expériences client exceptionnelles.

Pour les médias, le gouvernement et les clients en colère, la transparence sur les pannes et sur les responsables semble être une approche efficace pour améliorer la responsabilisation des fournisseurs de services. Cependant, je crains que la nouvelle réglementation, bien que bien intentionnée, soit néfaste à long terme. Laissez-moi vous expliquer pourquoi.

L’importance de l’irréprochabilité

En plus des demandes de renseignements et des réglementations potentiellement plus strictes, les clients exigent des expériences exceptionnelles 24 heures sur 24, ce qui augmente la pression sur les organisations pour qu'elles réagissent et résolvent rapidement les incidents.

Je crains que les entreprises ne réagissent à la pression des médias et du public en se concentrant sur l’identification des personnes responsables des pannes et des temps d’arrêt, favorisant ainsi une culture de la culpabilité et de la désignation de boucs émissaires – des comportements qui nuiront à la capacité des entreprises à maintenir la fiabilité de leurs services. Cependant, d’après notre expérience, les entreprises qui ont la volonté culturelle et organisationnelle d’apprendre de leurs erreurs et de prévenir proactivement d’autres problèmes sont celles qui enregistrent le moins d’incidents majeurs et la plus grande satisfaction client.

Cela paraît logique : après tout, les gens ne commettent pas moins d’erreurs parce qu’ils ont peur d’être tenus pour responsables ; ils deviennent simplement plus doués pour cacher leurs erreurs. Lorsque les individus pensent qu’ils seront tenus pour responsables d’une erreur humaine, ils sont moins susceptibles de parler des problèmes qui surviennent, aussi minimes soient-ils. À ce stade, lorsqu’un incident majeur se produit, les organisations n’ont pas les informations dont elles ont besoin sur ce qui s’est passé et ce qui se passe dans leurs systèmes, ce qui ralentit encore davantage la réponse et l’atténuation.

En plus, autopsies sans reproche , une méthode qui permet aux équipes d'apprendre et de s'améliorer de manière itérative à partir des incidents, doit être envisagée après chaque incident, et pas seulement après les événements majeurs. Il y a deux raisons à cela :

  1. Premièrement, les incidents mineurs sont souvent le signe avant-coureur de défaillances plus importantes à l’horizon, et en apprenant ce qui s’est mal passé lors d’incidents mineurs, les organisations peuvent être en mesure de minimiser, voire de prévenir, un incident majeur à l’avenir.
  2. Deuxièmement, faire des post-mortem une partie commune du processus offre davantage d’opportunités aux équipes et à la direction de pratiquer des post-mortem efficaces et inculque l’importance d’apprendre des incidents.

De plus, les post-mortems permettent aux équipes de publier des modifications plus petites plus fréquemment plutôt que des modifications plus importantes moins fréquemment, ce qui augmente la fiabilité du service. Cela semble contre-intuitif, mais selon Rapport « Accelerate State of DevOps 2019 » de DORA ”, les recherches démontrent que les organisations qui effectuent des changements plus petits et plus fréquents réagissent et rétablissent le service plus rapidement lorsque des incidents se produisent.

Meilleures pratiques pour réduire les temps d'arrêt et les pannes

Comment les entreprises peuvent-elles mieux comprendre les pannes et en tirer des leçons ? La première étape consiste à comprendre qu’il est impossible de tenter de prévenir tous les incidents. Avec les systèmes complexes d’aujourd’hui, des pannes sont inévitables, ce qui est malheureusement le cas dans le monde du numérique. Par exemple, une entreprise peut avoir un plan pour savoir quoi faire en cas de panne d’un système (par exemple, redémarrer le serveur Web Apache), mais elle ne peut pas prévoir toutes les choses qui pourraient se produire en cas de panne en cascade.

L’étape suivante consiste à repenser notre façon de penser les pannes. Au lieu de se demander « Comment pouvons-nous nous assurer qu’il n’y aura aucun incident ? », demandez-vous plutôt « Comment pouvons-nous accroître la capacité de notre système à s’adapter aux interruptions/incidents inévitables ? » L’accent devrait être mis sur la découverte et l’amélioration de la capacité d’adaptation (capacité d’un système à s’adapter si l’environnement dans lequel il existe est en train de changer) de nos systèmes.

Ce qui m'amène à mon prochain point: Les personnes sont un élément clé de tout système et c’est là que se produit la majeure partie de la capacité de réaction.

Les gens : votre première ligne de défense

La réponse aux incidents nécessite la créativité et la capacité intellectuelle des humains, en fonction des informations sur l'état actuel des systèmes, et non de ce que nous pensions qu'il pourrait se passer il y a deux mois, lorsque le manuel d'exploitation a été rédigé. Lors d'un incident majeur, il est essentiel de pouvoir mobiliser rapidement les bonnes personnes et de leur fournir les outils, les informations et la capacité d'agir pour rétablir le service.

De plus, je tiens à souligner que l’objectif lors d’un incident est de rétablir rapidement le service ; les incidents ne sont pas le moment d’identifier la cause ou de résoudre les problèmes sous-jacents. Un processus efficace de réponse aux incidents, qui permet aux praticiens de travailler ensemble pour rétablir au mieux le service, est essentiel. Ces processus n'ont pas besoin d'être élaborés ou lourds ; en fait, plus le processus est simple, plus il est facile de le faire correctement à chaque fois. PagerDuty a publié son propre processus de réponse aux incidents à l'adresse https://response.pagerduty.com , et nous encourageons les équipes à adapter ce processus à leurs besoins individuels.

En résumé, le principal point à retenir pour les organisations qui cherchent à améliorer leur processus de réponse aux incidents est de développer une approche en trois étapes :

  1. Instaurer une pratique d’apprentissage à partir des incidents. Mettez en place un processus transparent et bien compris pour des analyses post-mortem sans reproche. Travaillez à instaurer la confiance dans vos praticiens en veillant à ce que votre culture soit sans reproche. La direction doit garantir que les incidents n’entraîneront pas de sanctions. Supprimez l’expression « erreur humaine » du vocabulaire. Par exemple, une personne peut avoir supprimé accidentellement un fichier critique. Le problème n’est pas que la personne ait effectué cette action, mais que le système ou le processus ait permis que cette action ait lieu.
  2. Évaluez votre processus de réponse aux incidents. Faites-vous appel aux bons intervenants le plus rapidement possible ? Leur fournissent-ils les informations et les ressources dont ils ont besoin pour rétablir le service ? Disposez-vous d'une méthode claire de prise de décision et de communication ? Disposez-vous d'un mécanisme permettant de tenir les parties prenantes informées ?
  3. Continuez à adapter et à améliorer votre réponse aux incidents et votre processus d'apprentissage au fur et à mesure . Une partie de la rétrospective post-incident doit porter sur le processus de réponse aux incidents lui-même. Comment peut-il être amélioré ? Dans quels domaines a-t-il bien fonctionné ?

En suivant ces trois étapes, vous pouvez vous assurer que votre entreprise est mieux placée pour gérer les pannes et se développer à partir de ces incidents. De plus, en continuant à apprendre et à vous adapter, vous pouvez travailler pour avoir des systèmes plus fiables et plus robustes et pour améliorer le bonheur et la satisfaction des clients.

Vous souhaitez en savoir plus sur les meilleures pratiques pour éviter les pannes et sur la manière dont PagerDuty peut vous aider ? Inscrivez-vous à un Essai gratuit de 14 jours .