- PagerDuty /
- Blog /
- Meilleures pratiques et informations /
- Leçons sur la communication distribuée à partir de la réponse aux incidents
Blog
Leçons sur la communication distribuée à partir de la réponse aux incidents
Alors que les cas de nouveau coronavirus (COVID-19) continuent d’augmenter dans le monde entier, de nombreuses entreprises ont de plus en plus recours au travail à distance pour minimiser l’exposition de leurs employés. Mais même si certaines de ces entreprises ont déjà adopté le télétravail par le passé, de nombreuses organisations ont actuellement du mal à déterminer comment adapter leurs opérations pour qu’elles fonctionnent entièrement à distance.
Alors que de nombreuses entreprises tentent soudainement de comprendre comment devenir des organisations distribuées du jour au lendemain, nous pouvons tirer de nombreuses leçons de l’analyse des modèles de réponse aux incidents.
Le passage au travail à distance
Alors que les entreprises adoptent de plus en plus le travail à distance, les personnes en Postes en informatique et ingénierie ont été à l’avant-garde de ce changement.
Il y a vingt ans, les équipes d’ingénierie étaient généralement regroupées dans un même lieu physique, disposaient d’une salle de serveurs sur site pour exécuter leurs applications de production et d’un intranet privé sur lequel tout le travail était effectué. Les équipes informatiques et d’ingénierie étaient sur place car la réponse aux incidents en production consistait pour l’équipe d’exploitation à faire rouler un chariot d’urgence dans la salle des serveurs pour enquêter, tandis que les équipes de développement et les responsables commençaient à se réunir dans une salle de conférence qui était désignée comme la « salle de guerre » des incidents. Les incidents majeurs pouvaient avoir un tel impact qu’un responsable utilisait son téléphone portable Nextel fixé à la hanche pour contacter par radio un ingénieur qui était absent ce jour-là et lui demander de se connecter via VPN afin qu’il puisse aider au dépannage.
Au cours de la dernière décennie, le passage à l'utilisation d'infrastructures et d'applications cloud a permis aux équipes informatiques et d'ingénierie d'accéder à leurs applications de production depuis n'importe où dans le monde. Aujourd'hui, la norme est que ces équipes fonctionnent de manière distribuée. Par conséquent, les équipes informatiques et d'ingénierie ont été à l'avant-garde du développement de pratiques efficaces pour le travail à distance.
L’époque des serveurs sur site, des intranets et des salles de crise physiques est généralement révolue dans de nombreuses organisations au profit de solutions plus modernes. L’analyse de la manière dont ces solutions et ces flux de travail fonctionnent peut aider toute organisation qui a du mal à déterminer comment passer au travail distribué.
Leçons tirées d'une décennie de gestion des opérations en temps réel
PagerDuty a aidé des milliers d'organisations gérer leurs opérations en temps réel depuis plus d'une décennie . Nos vies sont de plus en plus connectées à une expérience numérique, ce qui signifie que le monde est toujours connecté. Les clients exigent la perfection et les organisations ne disposent que de quelques secondes, et non de quelques heures, pour résoudre les problèmes numériques lorsqu'ils surviennent. Gérer efficacement les opérations en temps réel consiste à coordonner les réponses et la communication entre les bonnes personnes, au bon moment, lorsque chaque seconde compte. Cela signifie s'assurer que chaque équipe et chaque membre de l'équipe, chaque service et chaque responsable sont impliqués, informés et alignés sur les actions qui se déroulent en temps réel, quel que soit l'endroit où ils se trouvent dans le monde.
PagerDuty est largement reconnu comme un leader en matière de Réponse aux incidents . Nous avons donc pensé qu’il était évident de commencer par examiner les leçons que nous pouvons enseigner sur la façon de gérer une communication efficace pour les équipes à distance. Chez PagerDuty, nos équipes réagissent aux incidents qui se produisent en utilisant non seulement notre propre plateforme, mais également plusieurs autres outils de productivité à distance (chez PagerDuty, nous utilisons Slack et Zoom) pour gérer efficacement le travail en temps réel, quel que soit l’endroit où se trouvent nos équipes.
En cas d'incident majeur, nos collaborateurs utilisent la plateforme PagerDuty pour s'assurer qu'ils peuvent contacter différentes équipes afin de contacter les bons experts en la matière, si nécessaire, pour parvenir à une résolution. La « salle de guerre » physique a été remplacée par une combinaison d'un pont de vidéoconférence (qui dispose d'une option de connexion de secours, si nécessaire), ainsi que d'une salle de discussion dédiée dans laquelle toutes les communications critiques sont enregistrées.
Plusieurs pratiques de communication sont essentiels lorsque l’on travaille à distance :
- Les canaux de communication informels devraient être remplacés par des canaux de communication formels
- Plutôt que de vous fier aux explications verbales, privilégiez l’écriture et l’enregistrement des connaissances
- Plutôt que de restreindre l’information en fonction du besoin de savoir, vous devriez privilégier le partage d’informations en interne
Au lieu d'avoir un canal de communication ad hoc, nos équipes utilisent un canal de communication bien connu et documenté lorsque des incidents se produisent. Lorsque leur participation est demandée lors d'un incident, ils doivent déjà savoir quels canaux de communication rejoindre. Cependant, juste au cas où ils ne le sauraient pas, la plateforme PagerDuty envoie des notifications contenant des liens intégrés qu'ils peuvent utiliser pour rejoindre ces canaux en un seul clic.
La gestion des incidents peut être un travail rapide et stressant. Une grande partie de la communication nécessaire pour coordonner ce travail se fait verbalement sur le pont vidéo. Mais afin de garantir que les connaissances sont écrites et enregistrées, chaque appel d'incident est attribué à un Scribe dont le travail consiste à créer une chronologie des événements clés lors d'un incident en documentant les faits importants et les mesures prises, et en suivant les éléments de suivi à traiter. Notre solution de vidéoconférence nous permet de créer des transcriptions automatiques de l'appel. Cependant, les notes créées par le Scribe sont plus utiles comme référence rapide pour quiconque souhaite se mettre au courant des événements qui se sont produits.
Le Scribe documente la chronologie dans le canal de discussion dédié. Ce faisant, les autres intervenants peuvent rapidement se référer à la chronologie pour rattraper tout ce qu'ils ont manqué lorsqu'ils rejoignent l'appel (soit en tant qu'intervenants nécessaires, soit simplement en tant qu'observateurs). Les observateurs sont encouragés à rejoindre le canal de discussion dédié ou l'appel vidéo (en mode écoute uniquement) s'ils souhaitent mieux comprendre la situation au fur et à mesure qu'elle se déroule.
En cas d'incident, nos équipes envoient généralement des mises à jour aux parties prenantes internes et externes pour les tenir informées de l'actualité. Les parties prenantes internes comprennent généralement les dirigeants, les propriétaires d'entreprise, les équipes en contact avec les clients, etc., et les parties prenantes externes comprennent généralement les clients. Ces notifications sont gérées par la plateforme PagerDuty . Mais les décisions menant à l'envoi de cette notification, y compris la conclusion d'un accord commun sur ce qui est communiqué, sont enregistrées dans le cadre de la chronologie du Scribe qui est également enregistrée dans le canal de discussion dédié.
Cet équilibre entre communication verbale et enregistrée permet de garantir que les équipes réparties travaillent rapidement et communiquent efficacement avec l'ensemble de l'organisation. L'avantage supplémentaire de l'enregistrement de la chronologie du Scribe dans un canal de discussion dédié est qu'elle peut être automatiquement intégrée dans une analyse post-incident à l'aide d'un canal de discussion existant. Intégration de PagerDuty .
Après un incident, nous utilisons la fonction Postmortems de PagerDuty pour nous aider à exécuter une autopsie sans reproche , où nous résumons les événements ayant mené à la résolution de l'incident, identifions les facteurs contributifs et documentons les mesures convenues qui peuvent aider à atténuer ce type d'incident à l'avenir. Ces rapports d'autopsie sont ensuite partagés en interne afin que chaque équipe puisse mieux comprendre l'événement, quel que soit son emplacement physique.
Ce n'est qu'un exemple de la manière dont nous sommes capables de prendre en charge une tâche qui était auparavant reléguée aux salles de guerre en personne et de la gérer au sein d'équipes distribuées de manière très efficace.
Passer au travail à distance pour minimiser l'exposition au COVID-19
Alors que les entreprises s’orientent vers le télétravail, il est essentiel de comprendre comment passer rapidement à des pratiques de communication à distance efficaces pour garantir une perturbation minimale des opérations de l’entreprise. Le monde est toujours connecté et nos clients continueront d’attendre la perfection de notre monde numérique, ce qui est notre responsabilité, d’autant plus que tout le monde s’efforce de minimiser l’exposition au nouveau coronavirus.
Gérer l’équilibre entre la communication verbale et écrite n’est qu’un des nombreux défis auxquels les organisations sont confrontées dans les premières étapes de l’atténuation de cette crise de santé publique en cours. L’utilisation de la plateforme PagerDuty en tandem avec d’autres outils de productivité à distance et des pratiques bien définies peut aider les organisations à maintenir une communication efficace entre les bonnes personnes au bon moment alors qu’elles se tournent vers un travail plus à distance.
Faites-nous savoir s'il y a des sujets spécifiques à travail à distance efficace que vous aimeriez que nous explorions en visitant notre Forums communautaires .