Blog

Incidents évités de justesse : comment les analyser et en tirer des leçons

par Jeli 8 juin 2022 | 4 minutes de lecture

Cet article a été initialement publié sur le blog Jeli. Jeli a été acquis par PagerDuty en 2023 et nous le republions ici pour apporter leur leadership éclairé à notre communauté.

Nous avons discuté des incidents qui pourraient être plus propices à un examen plus approfondi que d'autres. . Parmi ces incidents, on trouve également ceux qui auraient pu se produire : les quasi-accidents. Ces incidents sont particulièrement utiles car ils constituent une rampe d'accès facile à l'apprentissage. Après tout, ils sont exempts du nuage noir qui plane souvent sur les incidents qui ont, en fait, manqué leur objectif. Pourtant, trop peu d'organisations tirent parti des leçons de leurs quasi-accidents.

Qu’est-ce qu’un incident évité de justesse ?

Les quasi-accidents ont des caractéristiques similaires à ce que nous considérons habituellement comme un « incident » : quelque chose se produit, nous avons besoin de plusieurs personnes pour collaborer pour résoudre le problème, les gens doivent abandonner ce qu’ils faisaient pour s’y attaquer immédiatement, et nous avons besoin de quelqu’un pour coordonner et communiquer ce qui se passe. Mais contrairement à un incident traditionnel, à la fin du quasi-accident, notre utilisateur final n’est pas impacté ! Grâce au travail acharné des personnes impliquées pendant le processus d’incident, nous sommes en mesure d’empêcher la vague d’impact d’atteindre cette portée.

Les quasi-accidents peuvent prendre diverses formes. En voici quelques exemples :

  • Une erreur dans un système comptable qui a été détectée suffisamment tôt pour être corrigée avant l’envoi des factures.
  • Le système téléphonique d'un centre d'appels était en panne en dehors des heures de bureau. L'équipe interne a pu contourner cette panne à temps pour que le centre d'appels puisse rouvrir.
  • Dans les deux cas, grâce à la rapidité de la réaction, le système a pu accomplir ce qu'il devait faire. En fin de compte, nous n'avons pas besoin de définir complètement les quasi-accidents, car leur objectif est de nous donner l'occasion d'élargir l'univers des événements dont nous pouvons tirer des enseignements.

Que pouvons-nous apprendre des quasi-accidents ?

Un quasi-accident peut nous en dire autant sur nos systèmes, nos organisations et notre travail qu’un incident de « recette originale ».

Évités de justesse:
  • Aidez-nous à comprendre ce qui est important pour nous en tant qu'organisation : qui est notre utilisateur final ? De quoi a-t-il besoin de notre part ? Comment savoir si nous répondons à ce besoin ?
  • Dans l'exemple du centre d'appels, nos utilisateurs peuvent être les employés du centre d'appels ou ceux qui tentent de les joindre. Les deux groupes doivent pouvoir utiliser les systèmes téléphoniques pendant les heures d'ouverture, sinon il s'agit d'un incident à part entière.
  • Dites-nous qui sont les acteurs clés d’un système spécifique : de qui avons-nous besoin lorsque le système cesse de fonctionner ? Comment pouvons-nous travailler avec eux ?
  • Nous pensons peut-être qu’un incident ne nécessite que les ingénieurs de l’équipe comptable, mais nous avons en fait également besoin de personnes capables de contourner les contrôles autour de la publication.
  • Montrez-nous comment nous découvrons les incidents : que regardons-nous ? À quels indicateurs prêtons-nous attention ?
  • Même si le système de comptabilité est opérationnel, comment pouvons-nous vérifier que nous obtenons des résultats précis ? Dans l’exemple du centre d’appels, comment faire la différence entre « arrêt brutal » et « dégradation de la qualité des appels »
  • Expliquez comment fonctionne le système : que nous attendions-nous ? Que s'est-il passé que nous n'attendions pas ?
  • En examinant les quasi-accidents, les gens peuvent mieux comprendre l’architecture derrière les systèmes téléphoniques et l’histoire qui les entoure.
  • Mettez en évidence tout ce qui a dû se produire pour que l’incident soit évité de justesse et fournissez des exemples qui peuvent être utilisés dans d’autres parties de l’organisation.
  • Peut-être que les développeurs en charge du système comptable entretiennent une relation particulièrement étroite avec les personnes chargées de la réconciliation, et cela devrait être davantage encouragé dans les autres équipes. Ou peut-être avions-nous des solutions de contournement rapides prêtes à l'emploi, pour nous assurer de pouvoir apporter des modifications rapides en cas d'incidents. Ces solutions de contournement rapides peuvent également être mises en œuvre dans d'autres processus.

Comment examiner les quasi-accidents

Nous pouvons examiner les quasi-accidents de la même manière que nous examinons n'importe quel incident. Vous pouvez suivre le Procédé Howie avec une clause de non-responsabilité pour les participants : même si vous comprenez que cet incident n'a pas eu d'impact sur les utilisateurs, il y a beaucoup à apprendre d'eux ! Pour vos premières itérations d'examens des quasi-accidents, vous devrez peut-être faire preuve de persuasion. Si tel est le cas, nous vous recommandons de suivre un processus plus léger et peut-être de contourner les entretiens. Une fois que les membres de votre organisation verront l'intérêt d'examiner ces quasi-accidents, ils seront plus susceptibles d'accepter d'investir du temps dans ces enquêtes.

Les quasi-accidents font partie de nos occasions d’apprentissage préférées. Nous avons constaté que les participants sont plus disposés à partager leurs histoires de leur propre point de vue lorsqu’ils sont dans une ambiance festive et savent qu’ils ne risquent pas d’avoir des ennuis. L’analyse des quasi-accidents est un excellent moyen de commencer à tirer des leçons des incidents, car elle apporte la sécurité psychologique nécessaire à l’instauration d’une culture d’apprentissage au sein d’une organisation.