Blog

Autopsies sans reproche – stratégies pour réussir

par Julie Arsenault 28 octobre 2014 | 5 minutes de lecture

Lorsqu'un problème survient, il est essentiel de comprendre le « quoi » sans se soucier du « qui ». Deux responsables d'ingénierie partagent leurs stratégies pour réaliser des analyses rétrospectives sans reproche.

L'échec est inévitable dans les systèmes complexes. Bien qu'il soit tentant de trouver une seule personne à blâmer, selon Sidney Dekker , ces échecs sont généralement le résultat de problèmes de conception plus vastes dans nos systèmes. La bonne nouvelle est que nous pouvons concevoir des systèmes pour réduire le risque d’erreurs humaines, mais pour ce faire, nous devons examiner les nombreux facteurs qui contribuent aux échecs, à la fois systémiques et humains. Autopsies sans reproche , où le but n'est pas de déterminer qui a commis une erreur mais comment l'erreur a été commise, sont un outil qui peut aider. Bien que la mise en œuvre d'un tel outil ne soit pas une tâche facile, l'effort en vaut la peine. Ici, deux responsables de l'ingénierie décrivent certains des défis et partagent la façon dont ils font des autopsies irréprochables.

Commencez avec le bon état d’esprit

L'attitude que vous adoptez lors de la discussion est essentielle et donne le ton de toute la conversation. « Vous ignorez la partie « cette personne a fait cela », explique Arup Chakrabarti, responsable de l'ingénierie PagerDuty . « Ce qui compte le plus, c'est l'impact sur le client, et c'est sur cela que vous vous concentrez. »

Mike Panchenko, directeur technique chez Opsmatic, explique que cette approche repose sur l'hypothèse selon laquelle personne ne veut faire d'erreur. « Tout le monde doit partir du principe que tout le monde vient au travail pour faire du bon travail », explique-t-il. « Si quelqu'un a fait quelque chose de mal, ce n'est pas une question de caractère ou d'engagement, c'est juste que les ordinateurs sont difficiles et qu'il arrive souvent qu'on casse des trucs. »

N'ayez pas peur de l'échec

Parce que cela va arriver. « Je dis toujours à mon équipe que si elle ne fait pas d’erreurs de temps en temps, c’est probablement qu’elle n’avance pas assez vite », explique Chakrabarti. « Ce qui est important, c’est d’apprendre de ses erreurs le plus vite possible, de les corriger rapidement et de continuer à avancer. »

Étouffez la culpabilité dans l'œuf  

Il n’y a pas de raccourcis. « Il faut être très ouvert et dire : « Hé, je ne tolérerai pas que la personne A blâme la personne B », explique Chakrabarti. « Il faut le dire immédiatement, ce qui est inconfortable. Mais il faut le faire, sinon la personne qui le fait a un laissez-passer. »

Panchenko est d'accord : « Je suis un gars assez direct, donc quand je vois ce qui se passe, je dis immédiatement : « Arrêtez de faire ça. »

Cela vaut également pour l’incitation au blâme.

« Les gens ont naturellement tendance à prendre les choses en main », explique Panchenko. « Mais souvent, c’est la « goutte d’eau » qui fait déborder le vase. » Il décrit une panne récente au cours de laquelle plusieurs nœuds ont été redémarrés en raison d’un bug dans une bibliothèque d’automatisation. Ce bug a été déclenché par la réapparition d’une recette Chef obsolète depuis longtemps dans la liste d’exécution. La recette, à son tour, a été ajoutée à la liste d’exécution en raison d’un malentendu sur l’objectif d’un fichier de rôle laissé en suspens après une autre migration/obsolescence. Le développement de l’ensemble a pris plus d’un mois. « Quiconque était la prochaine personne à exécuter cette commande allait tomber sur cette mine », dit-il, « et généralement la personne qui fait la frappe fatale s’attend à être blâmée. Amener les gens à se détendre et à accepter le fait que le but de l’autopsie n’est pas de déterminer qui va être licencié pour la panne est le plus grand défi pour moi. »

Gérez les problèmes de performances en cours plus tard

Il est naturel d'appréhender le fait de partager des choses qui ne se sont pas bien passées lorsque votre performance professionnelle ou votre crédibilité sont en jeu. L'astuce consiste à distinguer les problèmes de performance récurrents des « échecs » qui surviennent en raison de lacunes dans vos processus ou vos conceptions.

Panchenko s’intéresse au type d’erreurs commises. « Dès que vous constatez une défaillance d’un certain type, vous devez ajouter des mesures de surveillance ou de protection », dit-il. « Si vous procédez ainsi, la principale raison pour laquelle quelqu’un sera considéré comme une mauvaise personne est de ne pas suivre le processus. C’est donc ce que je recherche : avons-nous un processus en place pour éviter les erreurs, et les erreurs se produisent-elles parce que le processus est contourné, ou le processus doit-il être amélioré ? »

Et parfois, oui, il faut licencier des gens. « J’ai eu des situations où un individu répétait sans cesse la même erreur, et il fallait l’encadrer et lui donner l’occasion de la corriger », explique Chakrabarti. « Mais après un certain temps, il faut prendre des mesures. »

Obtenez l’adhésion de la direction  

Arup et Mike conviennent tous deux que les autopsies sans reproche ne peuvent pas être efficaces sans le soutien de la haute direction. « Il faut obtenir le soutien de la direction », explique Chakrabarti, « et la raison pour laquelle je dis cela est que les autopsies sans reproche nécessitent plus de travail. Il est très facile d'entrer dans une pièce et de dire « Dave l'a fait, virons-le et nous avons réglé le problème ». Au lieu de cela, vous dites aux dirigeants que non seulement un membre de votre équipe a provoqué une panne coûteuse, mais qu'il va également participer à la réparation. « Presque tous les dirigeants seront très préoccupés par cela », dit-il.

« Ce qui est sûr, c’est que le ton doit être donné par le sommet », affirme Panchenko. « Et il ne doit pas se limiter à des autopsies. »

Avez-vous déjà mené ou participé à des autopsies sans reproche ? Nous aimerions en savoir plus sur vos expériences – laissez-nous vos commentaires ci-dessous !