- PagerDuty /
- Blog /
- Opérations numériques /
- Le coût de l'augmentation des incidents : comment la COVID-19 a affecté le MTTR, le MTTA et plus encore
Blog
Le coût de l'augmentation des incidents : comment la COVID-19 a affecté le MTTR, le MTTA et plus encore
La transformation numérique s'est accélérée pour de nombreuses entreprises au cours des 18 derniers mois. Même si elle était à l'ordre du jour avant la COVID-19, les équipes ont dû travailler à une vitesse extrême pour numériser et répondre à la demande croissante en ligne. Au cours de cette période, les organisations ont tiré d'importantes leçons qu'elles continueront à appliquer dans ce nouvel avenir. Les dirigeants peuvent tirer ces enseignements et les utiliser pour créer de meilleurs produits, des équipes plus saines et plus efficaces et une clientèle plus satisfaite.
Notre équipe a regroupé certaines de ces conclusions clés dans notre Rapport sur l'état des opérations numériques L’une des leçons importantes que nous avons apprises est que les incidents critiques ont augmenté de 19 % d’une année sur l’autre entre 2019 et 2020, et il ne semble pas que le volume d’incidents ralentisse de sitôt.
Certaines organisations ont eu plus d’opportunités d’apprendre et de se développer que d’autres au cours de cette période. Par exemple, la plus forte augmentation du volume d’incidents critiques a été observée dans les secteurs du tourisme et de l’hôtellerie et des télécommunications, avec 20 % d’incidents critiques en plus. Fin mars 2020, nous avons constaté que les cohortes très stressées, notamment les plateformes d’apprentissage en ligne, les services de collaboration, les voyages, le commerce de détail non essentiel et les services de divertissement, connaissaient jusqu’à 11 fois plus d’incidents critiques.
Dans cet épisode de notre Série de blogs sur l'état des opérations numériques , nous discuterons de la manière dont 2020 a affecté des indicateurs tels que le MTTR (temps moyen de résolution) et le MTTA (temps moyen de reconnaissance), les taux d'épuisement professionnel et d'attrition, et ce que les dirigeants peuvent faire pour améliorer la vie de leurs équipes et de leurs clients dans la perspective d'un avenir numérique.
Comment MTTA et MTTR ont-ils changé ?
Le MTTA correspond au temps nécessaire à un intervenant pour accuser réception de l'alerte. Le MTTR correspond au temps nécessaire pour résoudre l'incident. Ces mesures ne sont pas les seules à déterminer l'excellence opérationnelle, mais de nombreuses organisations les utilisent comme indicateur et en tirent des informations importantes. Ces informations sont utiles pour identifier les points forts et les points faibles des processus de réponse aux incidents.
Les données de notre plateforme ont montré que, même si le MTTR s’améliore, le temps total consacré à la résolution des incidents continue d’augmenter. Cela est probablement dû au nombre croissant d’incidents critiques. Alors que le nombre d’incidents augmente, même si les équipes s’améliorent dans leur résolution, le temps total consacré aux incidents continue d’augmenter. Cela pèse sur les équipes techniques, car elles voient leur charge de travail passer du travail planifié au travail non planifié.
Le MTTA diminue parallèlement au MTTR. En tant qu'équipes à bord de PagerDuty, elles sont en mesure d'atteindre un niveau plus élevé de maturité des opérations numériques via la plateforme. La maturité des opérations numériques correspond au niveau de compétence des équipes, qu'elles soient manuelles ou préventives, dans la gestion des tâches urgentes. Chaque étape est caractérisée par des capacités clés. À mesure que les équipes sont en mesure de standardiser la réponse aux incidents, leur MTTR s'améliore. À mesure qu'elles créent des règles d'astreinte et d'alerte plus efficaces, leur MTTA s'améliore.
Un autre aspect de MTTA est le pourcentage d'accusé de réception, ou le nombre d'alertes critiques reconnues après le déclenchement d'une alerte. C’est une autre manière de démontrer sa maturité opérationnelle. Plus le ack% est élevé, plus vos équipes sont réactives et responsables. Les utilisateurs de PagerDuty ont pu augmenter ack% au cours de la durée de vie d'un compte. Plus le compte utilisait PagerDuty depuis longtemps, meilleurs étaient ack% et MTTA. Même avec des cohortes de performances réparties, le 10e centile étant presque deux fois plus rapide à reconnaître les incidents par rapport au 25e centile, tous les comptes constatent une amélioration du MTTA au fil du temps.
L'adoption mobile de l'application PagerDuty contribue à améliorer le MTTA et l'ack%, car les membres de l'équipe de garde sont rarement à portée de main pour pouvoir répondre à une alerte. Cela signifie que les problèmes ayant un impact sur les clients sont traités plus rapidement que jamais. Mais cela signifie également que les ingénieurs ne sont jamais vraiment absents de leur travail. Alors que la frontière entre le travail et la maison s'estompe, il est important de comprendre le poids de ces alertes sur les équipes techniques.
Comment l’épuisement professionnel et l’attrition ont-ils été affectés ?
Un réveil brutal à 2 heures du matin peut être gênant s'il se produit une fois tous les quelques mois. Mais, s'il se produit plusieurs fois par semaine, l'effet est plus prononcé ; les équipes commencent à s'épuiser, leur santé mentale en souffre et elles finissent par quitter l'organisation dans l'espoir de pouvoir trouver un meilleur équilibre entre vie professionnelle et vie privée ailleurs. Au cours de cette période, La grande démission , il est impératif que les organisations soient capables d’attirer et de retenir les talents.
Les dirigeants qui cherchent à comprendre les points faibles de leurs équipes peuvent examiner les astreintes de manière qualitative et quantitative pour déterminer qui risque de s'épuiser et pourquoi. Les données de notre plateforme nous ont donné un aperçu de ces déclencheurs.
Par rapport à 2019, les organisations ont connu 4 % d'interruptions supplémentaires en 2020. Cependant, en examinant la répartition entre les catégories de temps, il y a eu une augmentation de 9 % des interruptions en dehors des heures de travail et une hausse de 7 % des interruptions pendant les vacances/week-ends , contre une augmentation de 5 % des interruptions pendant les heures de travail et une diminution de 3 % des interruptions pendant les heures de sommeil.
Bien qu'il soit positif que moins d'ingénieurs soient réveillés pendant leur sommeil, l'augmentation de 9 % des heures creuses signifie que le temps passé en famille, les dîners, les séances d'entraînement en soirée et bien d'autres choses encore sont mis de côté pour répondre aux interruptions. Au fil du temps, cet horaire irrégulier représente environ 12 semaines de travail supplémentaires par an pour chaque membre de l'équipe d'astreinte.
Les données de notre plateforme ont également montré que plus les ingénieurs étaient appelés en dehors des heures de travail, plus ils étaient épuisés. L'utilisateur médian subit deux interruptions par mois en dehors des heures de travail. À l'autre extrémité du spectre, les utilisateurs épuisés subissaient 19 interruptions par mois en dehors des heures de travail. Il n'est pas surprenant que ces utilisateurs épuisés soient les plus susceptibles de quitter l'entreprise.
Nous avons constaté que les profils des intervenants quittant la plateforme (notre indicateur d'attrition) ont connu une charge d'incidents en dehors des heures de travail supérieure à la moyenne. À l'aide d'une analyse de régression, nous avons examiné le volume de travail des incidents en dehors des heures de travail pour les utilisateurs supprimés et les utilisateurs restants et avons trouvé une corrélation positive statistiquement significative entre le volume en dehors des heures de travail et les chances de suppression d'un utilisateur.
En d’autres termes, pour fidéliser les employés, les dirigeants doivent comprendre comment réduire les interruptions (en particulier celles qui ne sont pas en période de travail) pour leurs équipes. L’un des moyens d’y parvenir est de mettre en place une réduction intelligente du bruit.
Réduire le bruit pour préserver la santé des intervenants
Ces interruptions en dehors des heures de bureau sont parfois inévitables. Après tout, si votre panier de paiement cesse de fonctionner à 19 heures, vous ne pouvez pas simplement perdre des revenus jusqu'à ce que votre équipe soit de nouveau en ligne le lendemain matin. Mais il arrive parfois que les ingénieurs d'astreinte soient appelés à 2 heures du matin pour des choses auxquelles ils ne peuvent rien faire. Réduction de bruit peut aider car cela permet aux équipes de se concentrer sur ce qui est vraiment important.
Les systèmes de production génèrent de nombreux événements. Seuls certains d'entre eux peuvent donner lieu à une alerte ou à un problème. Sinon, la plupart de ces événements peuvent être simplement enregistrés dans votre système de surveillance pour une inspection plus approfondie. De plus, certaines de ces alertes peuvent être sans rapport. Il peut s'agir d'alertes répétées, d'alertes inexploitables ou d'alertes qui pourraient être résolues par une correction automatique sans intervention humaine.
Les données de notre plateforme ont montré que grâce aux techniques de compression des événements et de regroupement des alertes, nous sommes en mesure d'aider les clients à réduire de 98 % le bruit des événements par rapport aux incidents. Ainsi, les tempêtes d'alertes sont réduites au nombre minimum nécessaire d'alertes exploitables. Si vous souhaitez en savoir plus à ce sujet, vous pouvez consulter Etsy sur la façon dont nous avons aidé l'équipe à identifier de manière proactive les alertes bruyantes et non exploitables et à contrôler ce qui perturbait l'état de flux ou le sommeil profond de l'équipe.
Lorsque les alertes sont pertinentes, vos équipes sont en mesure de gérer moins de tâches, mais avec plus de soin. Cela limite le temps qu'elles doivent passer loin de leurs activités préférées en dehors des heures de travail et peut les protéger contre l'épuisement professionnel et l'attrition.
Cela signifie également qu'ils sont en mesure de se concentrer sur les problèmes critiques et de fournir un excellent service à vos clients. Alors que les organisations continuent de se concentrer sur la fourniture d'une excellente expérience client dans un monde numérique, cela devient encore plus important.
À quoi ressemble l’avenir?
L'année 2020 a changé le rythme de la transformation numérique de nombreuses entreprises. Mais le rythme ne ralentira pas pour autant. Les entreprises doivent désormais se préparer à ce niveau de dépendance au numérique.
Si vous pensez que vos équipes sont prêtes pour une plateforme de gestion des opérations numériques, essayez PagerDuty gratuitement pendant 14 jours . Si vous souhaitez en savoir plus sur nos conclusions, consultez le Rapport sur l'état des opérations numériques .