Blog

Comment éviter le « swoop and poop » de la direction et autres bonnes pratiques pour une maturité opérationnelle

par Hannah Culver 11 août 2021 | 7 minutes de lecture

Nous mangeons à nouveau au restaurant. Nous retrouvons notre famille après une trop longue séparation. Certains d'entre nous retournent peut-être même au bureau. Mais cela ne signifie pas que la pression pour les services numériques est retombée, et l'augmentation de la maturité opérationnelle reste une priorité.

Alors que les transformations numériques ont lieu depuis deux décennies, la COVID-19 a accru la pression pour accélérer les initiatives. Les équipes ont connu davantage d’incidents pendant cette période et, comme la frontière entre le travail et la maison s’est estompée, de nombreuses personnes ont commencé à travailler des heures supplémentaires pour lutter contre les incendies.

En fait, dans un sondage de plus de 700 développeurs et professionnels des opérations informatiques, 58 % des répondants affirment que sur une période de 3 à 6 mois, les incidents ont augmenté de plus de 40 % — avec une augmentation moyenne de 47 % — ce qui exerce une pression considérable sur leurs équipes.

En discutant avec les clients de la façon dont ils se sont adaptés à cet environnement, il existe une distinction claire entre les cohortes d'organisations et les équipes en termes de maturité opérationnelle. En bref, plus une organisation est mature, plus elle s'adapte facilement au rythme changeant et aux exigences accrues. Mais avant d'aborder ce sujet, prenons un peu de recul. Qu'est-ce que la maturité opérationnelle exactement ?

Maturité opérationnelle est un mesure de la cohérence, de la fiabilité et de la résilience globales de l'infrastructure informatique, y compris la manière dont elle est gérée et entretenue . Cela englobe la manière dont les équipes gèrent les incidents. La maturité opérationnelle affecte la santé et le bien-être des équipes qui soutiennent cette infrastructure, ainsi que l'utilisateur final, ce qui en fait un investissement de plus en plus essentiel.

Nous avons déterminé que presque toutes les organisations se répartissent en 5 catégories de maturité opérationnelle : manuel, réactif, réactif, proactif et préventif Pour atteindre le niveau supérieur de maturité opérationnelle, il faut des changements de processus, d'outils et de culture. Nous avons créé un webinaire pour aider les équipes à comprendre où elles se trouvent actuellement et comment s'améliorer.

Pour vous donner un avant-goût de ce qui sera abordé, voici trois bonnes pratiques que vous apprendrez de nos intervenants :

Faites de la réponse aux incidents une réponse commerciale

Pensez à une équipe de pompiers. Lorsqu'ils interviennent sur un incendie majeur, ils ont un chef qui délègue le processus (qui ne participe pas réellement à la lutte contre l'incendie), un navigateur et un communicateur, ainsi que plusieurs pompiers qui s'occupent activement de l'extinction de l'incendie. La réponse aux incidents fonctionne de manière similaire. Les équipes opérationnellement matures auront des rôles désignés pour les incidents majeurs. Elles auront un commandant qui organise les efforts, un responsable des communications qui partage les nouveaux développements, ainsi que plusieurs experts en la matière (EM) qui résolvent l'incident.

Mais Réponse aux incidents commerciaux Cela va au-delà de la simple implication des propriétaires de services et des intervenants directs. Les équipes les plus matures veillent également à ce que les autres parties prenantes de l'entreprise soient tenues au courant tout au long du processus. Il s'agit d'une tâche souvent effectuée par le responsable des communications.

En cas d’incident majeur, plusieurs équipes doivent être au courant du problème. Par exemple, le service client doit savoir qu’il doit s’attendre à un volume plus élevé d’appels et de tickets. Le service commercial peut avoir besoin de reporter des démonstrations ou des appels. Le service marketing peut avoir besoin de savoir qu’il doit s’abstenir de publier une publication sur les réseaux sociaux ou d’anticiper une attention médiatique supérieure à la moyenne. Les dirigeants voudront connaître l’impact global sur l’entreprise, non seulement de l’équipe technique impliquée, mais aussi de l’impact de toutes ces équipes conjointement.

En communiquant avec les parties prenantes, en les tenant informées des nouveautés et en travaillant ensemble sans cloisonnement, les incidents sont résolus plus rapidement et ont un impact moindre sur les clients et la marque. De plus, cela permet d'éviter les « swoop and poop », un terme utilisé lorsque d'autres parties prenantes du secteur d'activité interrompent les efforts de réponse aux incidents pour essayer de comprendre comment cela affectera leurs équipes. Répondre proactivement à leurs préoccupations avant qu'elles ne posent des questions peut faire gagner du temps et de l'énergie aux intervenants.

Apprenez de vos erreurs et apportez des changements

Les incidents se produisent. Vous ne pouvez pas les éviter. Mais vous pouvez en tirer des leçons et, dans certains cas, même empêcher que le même type d'incident ne se reproduise. Cela dépend de la capacité de votre équipe à tirer des leçons des échecs et constitue un autre signe distinctif de la maturité opérationnelle.

Autopsies Les incidents de sécurité constituent un moyen important de tirer des leçons des défaillances du système. Une fois l'incident résolu, les équipes opérationnelles matures se mettent au travail pour déterminer à la fois les raisons de cet incident et les moyens d'éviter qu'il ne se reproduise. Ce processus implique généralement la création d'une documentation complète sur l'incident, y compris les chronologies, les scripts ou les manuels d'exécution utilisés dans le processus de résolution, ainsi que les données de télémétrie pertinentes.

Une fois la documentation terminée, l'équipe d'intervention se réunira (virtuellement ou en personne) et discutera des événements, des causes profondes potentielles, du fonctionnement du processus et des mesures à prendre pour rendre le système plus résistant à ce type de défaillance. Il est important dans ce processus d'aborder l'échec sans reproche afin de préserver la sécurité psychologique et de tirer le meilleur parti de ce processus.

Une fois l'autopsie terminée, les équipes se retrouvent souvent avec une liste d'actions qui pourraient protéger le système contre une défaillance similaire. Il ne suffit pas de créer ces actions et de les laisser sans affectation dans une file d'attente. Une partie de la maturité opérationnelle consiste également à prendre des mesures pour apporter des changements positifs.

Toutes les actions ne sont pas égales. Certaines ont plus de valeur que d’autres. Lorsque vous réfléchissez aux actions à prioriser, examinez-les sous l’angle de leur impact sur l’ensemble de l’entreprise. Si deux actions sont censées prendre le même temps, mais que l’une ne profitera qu’aux propriétaires de services et l’autre à une plus grande partie de l’entreprise, donnez la priorité à celle qui aidera le plus de personnes.

Mesurer l'épuisement professionnel de manière qualitative et quantitative

Les incidents sont imprévisibles. C'est pourquoi ils sont considérés comme des travaux non planifiés. Si nous pouvions tous planifier nos horaires en fonction des pannes prévues, la vie serait beaucoup plus facile. Cependant, les choses ne fonctionnent pas comme ça et les interruptions sont inévitables. Si ces interruptions sont très fréquentes ou se produisent en dehors des heures de travail, comme la nuit, le week-end et les jours fériés, les membres de l'équipe d'astreinte peuvent commencer à se sentir épuisés.

Une récente rapport Une étude de PagerDuty a montré qu'en 2020, l'utilisateur moyen de PagerDuty travaillait 2 heures de plus par jour qu'en 2019. Cela équivaut à 12 semaines de travail supplémentaires par an. En outre, le rapport a révélé que les utilisateurs qui subissaient le plus d'interruptions en dehors des heures de travail étaient ceux qui supprimaient le plus souvent leurs comptes PagerDuty (notre indicateur d'attrition). Les entreprises doivent détecter l'épuisement professionnel tôt avant qu'il n'entraîne une baisse du moral de l'équipe et une attrition.

Comment les organisations peuvent-elles y parvenir ? D’un point de vue quantitatif, les responsables doivent tenir compte du temps passé en permanence, du nombre moyen et de la durée des incidents par période d’astreinte, ainsi que de la fréquence à laquelle leurs équipes sont contraintes de quitter leur emploi du temps en dehors des heures de travail pour intervenir.

Mais l'épuisement professionnel ne se résume pas uniquement à des chiffres. Il est également important d'avoir une idée qualitative de la façon dont les équipes se portent. Par exemple, les managers doivent être attentifs aux rumeurs concernant les nuits tardives ou le sentiment de surmenage des membres de l'équipe. Ils doivent également être conscients de toute baisse de la qualité du travail ou des délais non respectés, qui peuvent être des indicateurs d'épuisement professionnel. Enfin, les managers doivent garder un œil sur le moral de l'équipe et s'assurer que, même si beaucoup d'entre nous travaillent encore à distance, il existe une politique de porte ouverte pour répondre à toute préoccupation.

Si les équipes parviennent à se concentrer sur la prévention de l'épuisement professionnel, à résoudre les incidents en tant qu'entreprise plutôt qu'en tant qu'équipe et à tirer les leçons de leurs erreurs, elles seront sur la bonne voie pour atteindre la maturité opérationnelle. Mais ce n'est pas tout ce que cette transformation exige.

Notre webinaire, « Plongée en profondeur sur la santé opérationnelle ”, explique comment vous pouvez planifier la maturation de votre organisation. Rejoignez Mandi Walls, défenseure DevOps, et Logan Life, responsable principal de la réussite client de PagerDuty, alors qu'ils passent en revue les tactiques permettant de développer la maturité opérationnelle et d'aborder les meilleures pratiques DevOps telles que propriété à service complet et cultiver une culture irréprochable.

Registre pour regarder le webinaire à la demande.