Blog

Bonnes pratiques en matière de communication en cas de panne : équipe d'intervention

par Sam Lewis 7 avril 2015 | 4 minutes de lecture

blog-outage-com-team

Cet article fait partie de notre série en trois parties sur les meilleures pratiques en matière de communication lors d'incidents critiques. Découvrez comment communiquer en cas de panne avec parties prenantes internes et avec clients .

Vous venez de vous rendre compte que quelque chose s'est produit et que vous ne pouvez pas le réparer vous-même. Surtout si vous travaillez dans un environnement DevOps collaboratif , il est préférable de s'en sortir avec un peu d'aide de vos amis. La coordination efficace de la réponse aux incidents entre les experts en la matière et les intervenants de première ligne est un secret de réussite opérationnelle qui différencie les meilleures équipes. Il est donc important que vous disposiez d'un moyen efficace et efficient de sonner l'alarme et de vous assurer que vos conversations sont enregistrées et exploitables.

La première étape pour une communication efficace en cas de panne au sein de votre équipe d'intervention en cas d'incident consiste à s'assurer que les bonnes personnes sont impliquées. Vous devez mettre en place des processus clairs pour identifier les experts en la matière, les contacter et les réunir en un seul endroit. Vous devez également disposer d'une équipe désignée pour gérer la communication externe et, si la panne est suffisamment grave, vous devez les informer immédiatement afin qu'ils puissent prendre une longueur d'avance. alerter vos clients. Un système comme PagerDuty peut aider sur les deux plans en stockant automatiquement les horaires d'astreinte et les méthodes de contact préférées des personnes.

Deuxièmement, il est important de comprendre l'importance de la documentation. Au cours de l'incident, l'équipe d'intervention découvrira de nombreuses informations et prendra rapidement des décisions sur la meilleure façon de contenir le problème. Il est important de documenter sur le moment pour s'assurer que rien n'est oublié ou manqué. Heureusement, il existe des outils et des processus qui peuvent vous aider dans ce cas.

Parler au téléphone.

Tout d'abord, vous allez devoir en parler. Créez une ligne de conférence fixe ; personne ne devrait perdre du temps à configurer manuellement un pont pour chaque appel. Tous les membres de l'équipe doivent connaître les détails de la connexion ou savoir où les trouver. Il est judicieux d'inclure les détails dans l'événement PagerDuty ou dans la description du service, afin qu'ils soient facilement accessibles en cas de besoin. Il est également judicieux d'enregistrer vos conversations au cas où vous souhaiteriez déboguer votre processus.

Les appels téléphoniques sont parfaits pour les conversations et les discussions en temps réel. Mais ils présentent des défauts : ils ne fournissent que des données peu fiables sur la panne et sur la répartition des tâches. Il n'existe aucun texte permettant de tenir les personnes responsables des décisions prises au cours de la conversation. Comment pouvez-vous donc suivre vos conversations ?

Déplacez-le vers un client de chat.

La réponse est ChatOps . Une discussion simultanée dans un client de chat fournit des données exploitables, consultables et horodatées sur qui fait quoi et sur quels services. Et assurez-vous de nommer vos services. Ici, chez PagerDuty, nos services portent le nom de divinités grecques. De cette façon, toute notre équipe peut comprendre de quoi nous parlons lorsque nous faisons référence à Artémis.

Pour rendre la réponse aux incidents encore plus simple, vous pouvez connecter vos outils à votre client de chat. Tuyau dans les incidents PagerDuty , et utilise plugins pour personnaliser et tirer le meilleur parti de votre service de chat. Par exemple, vous pouvez utiliser un chatbot pour contribuer aux mises à jour du serveur du chat, ou vous pouvez avoir Chien de données Les graphiques contribuent aux analyses dans la fenêtre de discussion. Vous pouvez également émettre des actions sur les outils dans la discussion, et les robots peuvent effectuer des actions ou capturer des tâches de suivi.

Tenir un registre.

Enregistrez votre enregistrement de discussion dans un CMS ou dans Remarques sur PagerDuty , afin de pouvoir le citer plus tard. Cela peut être un excellent outil pédagogique pour l'apprentissage post-résolution et peut aider votre équipe à devenir plus efficace à l'avenir en tirant les leçons de la façon dont elle a géré les problèmes dans le passé. Et cette discussion horodatée et consultable qui s'est avérée utile lorsque vous avez résolu votre incident facilite également grandement la rédaction d'un post-mortem.

L’avantage supplémentaire de ChatOps semble évident, mais il convient de le mentionner : la communication écrite est généralement de meilleure qualité que la communication orale. Votre équipe a plus de temps pour organiser ses pensées que lors d’une conférence téléphonique ou d’une réunion en face à face, et elle peut plus facilement se référer à ce que les autres membres de l’équipe ont dit au cours de la conversation pour créer un plan d’action clair.

Apprendre et grandir.

Une communication efficace lors d'un incident vous facilite également la vie lorsque vous formez de nouveaux membres de l'équipe. Vous n'avez pas besoin de réorganiser vos expériences passées pour en faire un plan d'action futur, ni de vous baser sur une stratégie de communication efficace. cahier d'exécution Vous rédigez des supports de formation et des plans d'action en temps réel, prêts à être utilisés dès que vous avez terminé de documenter et de résoudre l'incident.

 

Comment votre équipe communique-t-elle les pannes en interne ? Faites-le nous savoir dans la section commentaires

Pour en savoir plus, consultez Bonnes pratiques en matière de communication en cas de panne : clients .

 

eBook_440_220