- PagerDuty /
- Blog /
- Opérations numériques /
- Manuel de gestion technique de PagerDuty pour des équipes et des services plus sains
Blog
Manuel de gestion technique de PagerDuty pour des équipes et des services plus sains
En juillet dernier, nous avons lancé L'état des opérations numériques , qui met en lumière le volume de travail en temps réel, sa croissance au fil du temps et la façon dont cela pèse de plus en plus sur les équipes techniques. Nous voulions voir comment les responsables de l'ingénierie de notre propre organisation abordent certains des défis évoqués dans le rapport, nous avons donc demandé à notre Directeur du marketing produit, Julian Dunn , asseyez-vous avec deux de nos propres responsables d'ingénierie chez PagerDuty, Leeor Engel et Dileshni Jayasinghe , pour un table ronde pour discuter de tactiques concrètes pour aborder des sujets tels que :
- Gérer le travail non planifié en temps réel et développer la force de l'astreinte
- Comprendre la santé de l’équipe et du service
- Réaliser des revues opérationnelles et partager les connaissances
Si vous préférez regarder ou écouter le webinaire, vous pouvez consulter l'enregistrement ici Pour ceux qui préfèrent scanner ou lire, nous partagerons quelques-uns des points saillants de leur discussion dans cet article de blog.
Gérer le travail non planifié en temps réel et développer la capacité d'astreinte
Notre conclusions du rapport Les données montrent que les incidents ont augmenté d'environ 19 % pour nos clients entre 2019 et 2020. Engel et Jayasinghe ont tous deux indiqué que leurs équipes étaient confrontées à une augmentation du bruit et des signaux. Une meilleure compréhension des alertes reçues par les équipes peut contribuer à alléger la charge de travail des équipes d'astreinte.
Jayasinghe a expliqué qu'elle encourageait ses équipes à peaufiner leurs outils, notamment la manière et le moment où elles sont alertées et averties, ce qui reflète la philosophie d'Engel selon laquelle il est important de repenser les seuils de surveillance et de déterminer si les alertes reçues par les membres de l'équipe sont exploitables ou non. Le réglage du « bon niveau de bruit exploitable » est quelque chose que nous avons entendu parmi notre clientèle, en particulier avec le changement de modalité de travail.
Comme de nombreuses équipes à travers le monde, les ingénieurs de PagerDuty ont adopté le télétravail et, dans le cadre de ce changement, l'ensemble de l'organisation a dû repenser la manière dont les alertes sont gérées. Auparavant, les membres de l'équipe pouvaient se tourner vers leur chaise et demander de l'aide pour le tri ou poser une question avant de déclencher un incident. Aujourd'hui, Jayasinghe explique qu'il est important de faire preuve de prudence et de déclencher les incidents le plus tôt possible afin que la coordination puisse commencer.
Tout comme nos clients, les équipes de PagerDuty progressent constamment sur leur propre parcours de maturité opérationnelle numérique, et l'un des principaux enseignements que nous avons nous-mêmes retenus est l'importance de développer une force d'astreinte capable de supporter l'augmentation des alertes.
Que vous veniez de terminer vos études ou votre formation initiale, ou que vous n'ayez tout simplement jamais eu à travailler de garde dans vos fonctions précédentes, être de garde pour la première fois peut être intimidant. Dans le webinaire, Dunn se souvient de son époque d'ingénieur logiciel : « Ils ne parlent jamais de l'aspect opérationnel de la chose : être responsable d'un service et être de garde. » Alors, comment les ingénieurs sont-ils censés se mettre à niveau pour être de garde ?
Chez PagerDuty, la philosophie est de partir d'une culture d'appropriation, de sécurité psychologique, d'irréprochabilité et d'apprentissage continu. En bref, Jayasinghe a déclaré que la meilleure façon d'aider les ingénieurs à développer leurs capacités de garde est de s'assurer qu'ils se sentent soutenus. Elle fait savoir à ses équipes qu'elles peuvent toujours escalader le problème sans jugement, et qu'une personne de garde secondaire est toujours prête à aider au triage principal et à résoudre le problème si nécessaire.
Elle estime également que les responsables techniques devraient être munis d'un téléavertisseur et être de garde. « En tant que responsable, il est important d'être de garde et de montrer que vous comprenez les besoins de vos équipes afin de développer l'empathie envers elles. Cela montre aux nouveaux ingénieurs que chacun est responsable de ses services. »
Engel et Jayasinghe suggèrent tous deux de mettre en place un programme de formation d'observation entre le deuxième et le troisième mois de la carrière d'un ingénieur. Engel a également mis l'accent sur le programme de formation d'observation inversée, où l'ingénieur formateur est aux commandes et bénéficie d'un soutien tout au long du processus. Il a souligné que c'est en forgeant qu'on devient forgeron et que cela aide les nouveaux coéquipiers à se familiariser avec les outils et les tableaux de bord.
« Il faut le moins de nouveauté possible lorsque l'on vous appelle. De cette façon, vous avez tout ce dont vous avez besoin à portée de main. Si vous pouvez vous entraîner mentalement à cela en mémorisant ces outils, cela vous sera d'une grande aide. »
Comprendre la santé de l’équipe et du service
En 2020, les données de notre plateforme ont montré que les utilisateurs travaillaient plus longtemps et des heures moins régulières qu'en 2019, avec un tiers de nos utilisateurs travaillant un 12 semaines de travail supplémentaires par an ! De plus, nous avons constaté que plus un ingénieur était sollicité en dehors des heures de travail, plus il était susceptible de quitter la plateforme (notre indicateur d'attrition). Avec des statistiques comme celles-ci, il est clair que la gestion de la santé de l'équipe est primordiale. Mais à quoi cela ressemble-t-il dans la pratique ?
Engel considère la santé selon deux dimensions clés : la perspective humaine et la perspective de service. La perspective humaine signifie comprendre comment votre équipe se porte mentalement, à quelle fréquence elle est interrompue et quand ces interruptions se produisent. La perspective de service (fonctionner avec un Modèle de propriété à service complet ) comptabilise la charge service par service.
Il note qu'il est important de réfléchir à la manière d'obtenir le meilleur « retour sur investissement » en donnant la priorité aux services bruyants et en apportant les changements qui auront le plus grand impact sur votre équipe.
« Une chose à laquelle je prête une attention particulière est de savoir si quelqu'un a été réveillé pendant la nuit, ou pire, plusieurs fois dans la nuit. C'est quelque chose qu'il faut régler rapidement », a déclaré Engel.
Jayasinghe et Engel ont tous deux évoqué l’importance de disposer de procédures pour gérer des nuits comme celles-ci. Jayasinghe recommande aux responsables de créer une documentation qui détermine quand une personne a besoin d’une dérogation pour le reste de son quart de travail ou quand un ingénieur de garde doit bénéficier d’un jour de congé pour récupérer.
« En tant que manager, vous devez rédiger ces politiques afin que les gens soient en mesure de dire : « J'ai été réveillé, je vais prendre le temps de récupérer et de revenir frais » », a déclaré Jayasinghe.
Elle a également suggéré aux équipes de jeter un œil à leurs outils de surveillance. Chez PagerDuty, nous avons un tableau de bord avec lequel toutes les équipes partagent services et indicateurs clés Cela nous permet de détecter les anomalies et les augmentations de charge afin que nous puissions aborder les problèmes de manière proactive avant que quelqu'un ne soit contacté. Grâce à cette approche proactive, Jayasinghe et son équipe sont en mesure de maintenir leur travail non planifié à moins de 20 %.
Jayasinghe a déclaré que les managers qui cherchent à obtenir une vision plus qualitative de la santé de leur équipe devraient s'assurer qu'ils planifient régulièrement des entretiens individuels avec les membres de leur équipe. Elle recommande Pack de démarrage Plucky 1:1 , en particulier les questions relatives à l’équilibre entre vie professionnelle et vie privée, pour avoir une idée de la performance des équipes.
Réaliser des revues opérationnelles et partager les connaissances
À mesure que les équipes grandissent et mûrissent, il est important de créer des processus qui favorisent l'analyse de l'état de santé et le partage des connaissances. Cela aide les équipes d'ingénierie à se tenir au courant et à apprendre les unes des autres. Voici quelques conseils donnés par nos intervenants pour s'assurer que les apprentissages sont largement partagés.
Les revues opérationnelles sont un excellent moyen pour les équipes de comprendre leurs performances. Nous utilisons même Analyses de PagerDuty Pour cela, nous avons spécifiquement étudié les fiches de rapport opérationnelles. Nous avons créé une fiche de pointage des transferts d'astreinte qui couvre des éléments clés comme les interruptions par personne et par service. Cela permet non seulement à l'équipe d'avoir une meilleure idée de ce qui s'est passé pendant la rotation, mais cela contribue également à créer de l'empathie entre les coéquipiers. Ces revues opérationnelles examinent également les SLO du service.
Objectifs de niveau de service (SLO) sont des mesures qui montrent comment la fiabilité d'un service se comporte par rapport à un objectif centré sur le client. La disponibilité et la latence font partie des SLO les plus courants. Si des anomalies dans la surveillance affectent les SLO, l'équipe peut prendre note des éléments d'action qui peuvent l'aider à protéger l'expérience client. Cela permet également de déterminer les incidents sur lesquels il est le plus important de se concentrer, même si cela prendra du temps et des itérations.
« Vous choisissez vos objectifs de niveau de service comme un indicateur représentatif de l’impact sur les clients. Il faut du temps pour déterminer ce qu’est cet indicateur, car il doit s’agir de quelque chose qui compte réellement pour les clients », a réitéré Dunn.
Un autre aspect des SLO est le budget d’erreur correspondant, ou le nombre acceptable de défaillances qu’un service peut subir dans une fenêtre de temps donnée. Engel a noté que les budgets d’erreur aident ses équipes à comprendre comment calibrer la prise de risque et l’expérimentation.
Vous pouvez utiliser votre budget d'erreur restant de chaque fenêtre pour ingénieur du chaos. Chez PagerDuty, nous appelons cela Vendredi d'échec Les équipes peuvent intentionnellement interrompre des parties de services de manière planifiée et sûre pour comprendre comment elles réagiront en cas de panne. Cela prépare les équipes en cas de panne réelle et peut fournir des opportunités d'apprentissage pour atténuer complètement cette panne.
Au-delà des vendredis d'échec, Engel suggère également d'apprendre de autopsies . Toutes les équipes doivent être encouragées à partager les résultats de leurs analyses entre elles et à rendre les réunions de suivi aussi ouvertes que possible. Au-delà de la lecture des analyses actuelles, les équipes peuvent également consulter les analyses historiques pour voir ce qui s'est passé, les mesures qui en ont découlé et l'impact sur le système dans son ensemble. Engel suggère également de faire des analyses avec les responsables de l'ingénierie de toutes les équipes.
« C'est là que nous cherchons des problèmes systémiques qui auraient pu affecter cette équipe, mais qui pourraient être un thème que nous observons également dans d'autres incidents. Peut-être pouvons-nous régler ce problème et éviter à d'autres équipes de se retrouver confrontées à ce problème », a expliqué Engel.
La lecture des rapports d'autopsie est un excellent moyen d'apprendre des échecs passés, tant pour les anciens que pour les nouveaux membres de l'équipe. Mais si vous cherchez spécifiquement des moyens de partager les connaissances entre les équipes à mesure que vous évoluez et grandissez, Jayasinghe a partagé ses conseils.
Elle suggère de doter les nouvelles équipes d’au moins quelques ingénieurs déjà en place afin de maintenir la culture. Les nouveaux managers qui arrivent dans une organisation doivent rejoindre des équipes matures afin de pouvoir apprendre de leurs nouveaux subordonnés. Cela permet de maintenir les pratiques existantes en place. De plus, les nouvelles équipes doivent suivre les anciennes équipes lors des transferts de poste pour se familiariser avec les outils et les tableaux de bord de surveillance.
Jayasinghe et Engel ont souligné que leur groupe de pairs gestionnaires est crucial pour l'apprentissage. Les responsables de PagerDuty s'efforcent de standardiser les outils, les processus et les tableaux de bord et de les documenter dans nos guides opérationnels. Chaque service dispose d'un guide des opérations situé dans un référentiel Github et les liens sont accessibles à tous. Par exemple, vous pouvez consulter notre Guide des opérations de garde .
Apprentissage approfondi auprès de nos leaders en ingénierie
Enfin, Engel et Jayasinghe ont partagé les ressources du secteur qu’ils trouvent les plus utiles. Il s’agit notamment de :
- Livre SRE de Google
- « Architecturer pour évoluer »
- Responsable logiciel hebdomadaire
- Responsable du développement
- Le blog de Lara Hogan
Si vous souhaitez en savoir plus sur Leeor Engel, Dileshni Jayasinghe et Julian Dunn, regardez leur webinaire à la demande, « Perspectives sur les opérations numériques : le volume et l’impact humain du travail d’astreinte et en temps réel. ' Si vous souhaitez voir ce que PagerDuty peut faire pour vos équipes, commencez votre Essai gratuit de 14 jours .