Blog

La lutte contre les incendies a-t-elle cessé ? L'effet du COVID-19 sur les ingénieurs d'astreinte

par PagerDuty 30 août 2021 | 7 minutes de lecture

Le numérique étant devenu le principal canal de travail, d’éducation, d’achat et de divertissement au cours des 18 derniers mois, il n’est pas surprenant que les charges de travail des équipes techniques et des ingénieurs de garde aient augmenté.

Données du rapport inaugural d'analyse de la plateforme PagerDuty, L'état des opérations numériques , met en évidence cette réalité. En juillet 2021, le nombre moyen d'événements gérés quotidiennement par PagerDuty était de 37 millions, dont 61 000 étaient des incidents critiques. Les incidents critiques sont définis comme ceux provenant de services de haute urgence, non résolus automatiquement dans les cinq minutes, mais reconnus dans les quatre heures et résolus dans les 24 heures. D'après nos données, le nombre d'incidents critiques a augmenté de 19 % entre 2019 et 2020.

Pour de nombreuses équipes chargées de soutenir ce monde en constante évolution, la « lutte contre les incendies » est devenue le mode de fonctionnement habituel. Mais ce virage numérique est là pour durer et la charge de travail ne va pas diminuer. Dans les prochains blogs, nous allons approfondir les conclusions tirées des données de notre plateforme et explorer comment le volume croissant de travail en temps réel pèse de plus en plus sur les équipes techniques. Dans ce premier blog, nous expliquerons comment cette lutte contre les incendies affecte les niveaux d'épuisement professionnel, comment classer et quantifier les interruptions et ce que les équipes peuvent faire pour éviter l'attrition.

Le risque d’épuisement professionnel est une menace réelle

La vie d'un ingénieur de garde est toujours mouvementée, mais nous avons examiné spécifiquement à quoi a ressemblé l'expérience au cours des 18 derniers mois. En comparant les heures travaillées au cours des 12 premiers mois de la pandémie (mars 2020-mars 2021) aux 12 mois précédents (mars 2019-mars 2020), nous pouvons constater que plus d'un tiers des utilisateurs de PagerDuty ont travaillé selon des horaires beaucoup moins cohérents en 2020. qu’en 2019. En moyenne, les individus sont travailler l'équivalent de deux heures supplémentaires par jour Cela représente un total de 12 semaines de travail supplémentaires sur une année.

Les humains sont au cœur de la réponse aux incidents. Il est essentiel pour les entreprises, les managers et les équipes techniques d'être conscients du surmenage. La pression continue, la perturbation des routines des intervenants et l'impact sur la vie des individus sont une recette pour l'épuisement professionnel. Et il est important de se rappeler que toutes les interruptions ne sont pas égales. Certaines ont un impact plus important sur le bien-être des ingénieurs d'astreinte.

Interruptions 24 heures sur 24

Une interruption est une notification non envoyée par courrier électronique (par exemple une notification push sur un téléphone portable, un SMS ou un appel téléphonique) générée par un incident. En examinant les données de notre plateforme, il apparaît clairement que le nombre d'interruptions auxquelles un intervenant est confronté et l'heure de la journée à laquelle il est interrompu affectent son niveau d'épuisement professionnel.

Le le volume total des interruptions a augmenté de 4 % en 2020 par rapport à 2019 , certaines équipes étant plus durement touchées que d’autres. C’est particulièrement vrai pour les petites entreprises, où 46 % des utilisateurs sont interrompus chaque mois, contre 30 % pour les utilisateurs en entreprise. Les petites organisations sont souvent en phase d’hypercroissance et peuvent manquer de ressources par rapport aux grandes entreprises, mais les dirigeants doivent trouver un équilibre entre la volonté de croissance et le risque d’épuisement du personnel technique.

L'heure de la journée à laquelle une interruption se produit est également importante. Entre 2019 et 2020, on a constaté une augmentation de 9 % des interruptions en dehors des heures de travail et une hausse de 7 % des interruptions pendant les jours fériés et les week-ends. Nous définissons les types d’interruptions comme suit :

  • Interruptions des heures ouvrables : Envoyé entre 8h et 18h du lundi au vendredi, heure locale de l'utilisateur.
  • Interruptions en dehors des heures de bureau : envoyées entre 18 h et 22 h du lundi au vendredi ou entre 8 h et 22 h le week-end, heure locale de l'utilisateur.
  • Interruptions des heures de sommeil : Envoyé entre 22h et 8h, heure locale de l'utilisateur.

Lorsque les ingénieurs sont de garde, ils savent qu’ils peuvent être interrompus. Mais il existe une nette différence entre une interruption envoyée à 15 heures et une autre à 3 heures du matin, et l’impact qui en résulte sur la personne. Nous avons analysé plus en détail les interruptions en dehors des heures de travail et identifié trois cohortes distinctes.

Les répondants du « bon » percentile ont subi 2 interruptions par mois en dehors des heures de travail. Ceux du « mauvais » 75e percentile, que nous identifions comme « surmenés », ont sept interruptions par mois en dehors des heures de travail. Et pour ceux du 90e percentile, c’est certainement « moche ». Ces répondants subissent 19 interruptions par mois en dehors des heures de travail. C’est trois fois plus que ceux « surmenés » et dix fois plus que le répondant médian.

Faire face à la grande démission

Opérer dans ce genre de stress n’est clairement pas durable. Le résultat peut être une attrition des employés. Nos données montrent que plus les gens étaient dérangés pendant leurs heures creuses, plus ils étaient susceptibles de quitter la plateforme PagerDuty (notre proxy pour l'attrition). Les profils des intervenants quittant la plateforme ont montré qu'ils étaient confrontés à des incidents en dehors des heures d'ouverture tous les 12 jours, contre tous les 15 jours pour les utilisateurs restants.

Actuellement, de nombreux secteurs sont en plein milieu de ce que les économistes appellent La grande démission Les employeurs ne peuvent pas se permettre de perdre du personnel technique talentueux et qualifié parce qu'il est épuisé. Les organisations doivent gérer activement les charges de travail liées à la réponse aux incidents et affiner leurs processus d'astreinte pour favoriser une meilleure santé des équipes et éviter de surcharger leurs employés. Voici trois façons pour les équipes de reprendre le contrôle.

  1. Mesurez les astreintes de manière qualitative et quantitative grâce à des analyses opérationnelles. Les équipes peuvent mesurer la charge de travail des astreintes en analysant le volume des interruptions et le temps passé en astreinte. Elles peuvent ensuite combiner ces données avec d’autres indicateurs, tels que l’heure de la journée, la gravité, le nombre d’escalades, pour identifier les personnes les plus à risque d’épuisement professionnel et contextualiser leur expérience d’astreinte. Analyse PagerDuty rassemble les données sur les incidents, les services et les équipes, et les transforme en informations et recommandations pour aider les responsables à comprendre la charge qui pèse sur les équipes d'astreinte.
  2. Ne soyez plus interrompu par des alertes inexploitables. Lorsque les intervenants sont bombardés d’alertes, cela crée un environnement stressant où tout est « urgent ». La réduction intelligente des alertes atténue ce bruit, permettant aux intervenants de se concentrer sur les incidents qui nécessitent vraiment leur attention. Vous pouvez régler les alertes pour partager la bonne quantité d’informations que vos équipes souhaitent, même si cela implique de laisser passer certaines quantités de bruit spécifiques. Renseignements sur les événements est l'outil d'IA de PagerDuty pour les opérations numériques. Ses algorithmes d'apprentissage adaptatif séparent les signaux du bruit et alertent les équipes uniquement sur les incidents réels qui nécessitent une intervention humaine.
  3. Créez des séquences d’automatisation capables de corriger automatiquement les problèmes sans intervention humaine. Une autre façon de reprendre le contrôle consiste à donner aux intervenants l'accès à des fonctionnalités en libre-service pour résoudre un problème, sans avoir besoin de faire appel à un expert en la matière ou même d'impliquer un humain. Les équipes peuvent documenter les processus de réponse aux incidents (par exemple, les scripts, les outils, les appels d'API, les commandes manuelles) dans un livre d'exécution qui peut être déclenché automatiquement pour résoudre un incident. Les incidents sont résolus en temps réel, avec un minimum de stress. ce livre électronique sur l'automatisation du Runbook de PagerDuty et Rundeck pour apprendre plus.

Alors que nous nous adaptons à la nouvelle normalité, le mode de lutte contre les incendies doit évoluer vers un modèle de réponse aux incidents plus proactif et préventif pour atténuer l’épuisement professionnel et l’attrition. Un monde en constante évolution nécessite une nouvelle approche qui aide les entreprises à réagir efficacement lorsqu’un incident se produit et réduit les impacts négatifs sur les équipes chargées de soutenir les services numériques. La gestion proactive des charges de travail signifie que les incidents sont traités en temps réel, à chaque fois, tout en réduisant la charge de travail des ingénieurs d’astreinte.

Pour en savoir plus sur les apprentissages des données de notre plateforme, consultez le reste de notre Rapport sur l'état des opérations numériques ou regardez notre Perspectives sur les opérations numériques : le volume et l'impact humain du travail d'astreinte et en temps réel séminaire en ligne.