Blog

Qu’est-ce que l’analyse des incidents et pourquoi devriez-vous la faire ?

par Jeli 1er février 2022 | 4 minutes de lecture

Cet article a été initialement publié sur le blog Jeli. Jeli a été acquis par PagerDuty en 2023 et nous le republions ici pour apporter leur leadership éclairé à notre communauté.

Les pannes de service sont monnaie courante dans les opérations logicielles modernes, surtout si vous évoluez rapidement ou si vous travaillez à grande échelle ! De nombreuses entreprises en ont pris conscience et ont commencé à investir dans l'analyse des incidents afin de tirer des leçons de leurs incidents. Commençons par parler de ce qu'est exactement l'analyse des incidents et des avantages que vos équipes peuvent en tirer.

Définition de l'analyse des incidents

L'analyse des incidents est un processus permettant d'identifier ce qui s'est passé lors d'une panne : découvrir des éléments tels que les personnes et les parties du système impliquées, et comment le problème a été traité. Il existe de nombreuses méthodes différentes pour effectuer une analyse des incidents. Cependant, à la base, l'analyse des incidents consiste généralement en :

  1. Collecte de données sur l'événement
  2. Analyse des données
  3. Tirer des conclusions à partir des données
  4. Améliorer la résilience future

Beaucoup considèrent que l'analyse des incidents a pour fonction principale de prévenir la récurrence future des incidents : prendre des mesures correctives pour corriger un bug, améliorer l'observabilité ou mettre à jour les runbooks. Nous voyons cela comme bien plus que cela. Il s'agit d'améliorer la résilience future en préparant mieux les individus, les équipes (et bien sûr leurs systèmes logiciels) à gérer les pannes imprévues.

Aller encore plus loin

Nous aimons nous inspirer de la technique de l’improvisation comique. Nous disons : « Oui ! Nous voulons éviter que cela se reproduise à l’avenir… » et Cela signifie que nous préparerons les ingénieurs avec un ensemble de compétences plus large que la simple prévention du même incident à un moment ultérieur !

Tout comme vous ne vous baignez jamais deux fois dans la même rivière, car elle coule en permanence, vous ne serez jamais confronté deux fois au même incident, car intégration continue/déploiement continu = changement continu. Lorsque l'analyse se concentre sur l'apprentissage, et pas seulement sur la résolution, l'analyse des incidents permet à l'entreprise de mieux réagir aux incidents futurs.

Comment en tirer le meilleur profit

Bien entendu, vous souhaitez que votre organisation soit informée de la nature des événements inattendus et prenne des mesures pour éviter que ce mode de défaillance ne devienne un problème à l’avenir. Cependant, le véritable avantage de l’analyse des incidents est de mieux comprendre le fonctionnement du système dans différents types de conditions de fonctionnement. Cette compréhension peut permettre aux ingénieurs de mieux gérer les surprises futures, dont certaines peuvent ressembler à des incidents passés !

Il est important que votre analyse d'incident fasse les deux : empêcher que des événements similaires ne se reproduisent à l'avenir et enseigne aux ingénieurs un éventail plus large de compétences qui les aident à relever les défis permanents en matière de fiabilité. Comme indiqué dans le Méthodologie IBM Garage pour l'analyse des incidents « Les problèmes répétitifs frustrent les utilisateurs, épuisent les ingénieurs et peuvent entraîner une perte de confiance dans la fiabilité de votre application. Plus généralement, les problèmes répétés nuisent à la réputation de l'équipe ou de l'organisation, entraînant des conséquences commerciales telles que la perte de clients. L'analyse des incidents est une compétence essentielle que tout ingénieur en fiabilité de site, et en fait, tous les rôles techniques, doivent développer. »

Ce que nous allons apprendre ensuite

Nous pensons que l'analyse des incidents est une méthode essentielle pour améliorer non seulement la résilience des équipes d'ingénierie, mais aussi celle de l'entreprise dans son ensemble. Alors, n'hésitez pas à vous plonger dans notre série Incident Analysis 101 ! Nous aborderons des sujets tels que :

  • quels incidents enquêter
  • qui devrait diriger les enquêtes
  • Quels types de données devez-vous utiliser dans vos analyses d'incidents ?
  • comment rédiger des rapports convaincants qui aident les gens à apprendre
  • Comment partager les résultats avec d'autres et favoriser un apprentissage significatif
  • comment décider des améliorations à apporter une fois l'analyse terminée

Pour des informations plus détaillées sur ces sujets et d'autres, vous pouvez toujours consulter Jeli's Howie : Le guide post-incident pour plus d'informations sur l'analyse des incidents.

Bon apprentissage!