Blog

Réduire les coûts de coordination dans la réponse aux incidents

par Les murs de Mandi 31 juillet 2024 | 5 minutes de lecture

Les incidents peuvent survenir n’importe où et à tout moment. Ils peuvent être mineurs, bien définis et faciles à maîtriser. Ils peuvent être importants, désordonnés et complexes, comme la panne majeure que nous avons observée récemment. Ou ils peuvent se situer quelque part entre les deux. Lorsqu’un incident survient, la mobilisation et la coordination des intervenants sont essentielles pour rétablir le service, protéger l’expérience client et atténuer les risques commerciaux.

Au-delà de l'impact sur les clients, les pannes et les dégradations de service ont également des répercussions financières pour une organisation. De la perte de revenus à l'atteinte à la réputation auprès des clients et des marchés financiers, en passant par les amendes et pénalités potentielles pour non-conformité. Les incidents sont cher ! Notre recherche montre que l'incident moyen dure près de trois heures pour un coût estimé à 4 537 $ par minute, soit près de 794 000 $ par incident . Sans même prendre en compte les dommages causés à la réputation de la marque de l’entreprise.

Lors d'un incident actif, le temps c'est de l'argent et nous voulons en réduire l'impact. Le lieu où les intervenants se réunissent et se coordonnent pour répondre à un incident joue un rôle clé dans l'efficacité du processus et la rapidité de la récupération.

Établir des lieux familiers
Nous prévoyons quand les incidents se produisent, et non pas s'ils se produiront. Cependant, les incidents sont inévitables ! Préparer à l'avance un plan d'urgence pour votre équipe améliorera les délais de réponse et renforcera la confiance de vos intervenants.

Si vous avez déjà travaillé ou étudié dans un bâtiment public, vous avez probablement participé à un exercice d'incendie ou à un autre type de formation à la préparation aux situations d'urgence. Lorsqu'une alarme retentit, tout le monde s'entraîne à ce qu'il fera en cas d'urgence réelle : suivre les voies de sortie appropriées, rejoindre son équipe ou ses camarades de classe dans un endroit désigné à l'extérieur du bâtiment pendant qu'un coordinateur s'assure que tout le monde est là où il doit être.

Votre réponse aux incidents doit être similaire. Les intervenants doivent savoir quoi faire avant qu'un incident ne se produise où ils doivent se rencontrer pour travailler sur le dépannage et la résolution de l'incident. Votre équipe le fera probablement dans l'application de chat de votre choix. Intégrer un espace de travail Slack avec PagerDuty donne à votre équipe tous les endroits dont elle a besoin pour coordonner la réponse, non seulement pour les intervenants mais pour le reste de l'organisation.

Les intervenants se coordonnent sur Slack
Tout ce qui permet d'accélérer le processus d'intervention, de réduire les frictions entre les intervenants ou de dissiper la confusion lors d'un incident permettra de réduire les coûts globaux associés à cet incident. La coordination des intervenants à l'aide de méthodes qu'ils connaissent déjà permet d'atteindre ces objectifs.

Pour les équipes habituées à travailler principalement dans un environnement de chat, tel qu'un espace de travail Slack, passer à un autre environnement uniquement pour répondre à un incident pourrait entraver leur capacité à réagir rapidement à l'incident. Les utilisateurs de PagerDuty avec une intégration Slack peuvent déclencher, suivre, faire remonter et résoudre des incidents directement à partir de leurs canaux Slack existants.

Voici quelques-uns des nombreux avantages de l’intégration de Slack :

  • Rapport d'incident rapide :Rationalisez le déclenchement des incidents grâce à la télémétrie automatisée et à l'observation humaine manuelle, permettant une réponse rapide.
  • Coordination d'équipe efficace :Les équipes peuvent utiliser des canaux dédiés pour des incidents spécifiques ou créer des canaux à la demande pour des situations complexes impliquant plusieurs équipes. Un canal statique de réponse aux incidents majeurs garantit une gestion cohérente des événements importants.
  • Ajout d'un répondeur rapide :Ajoutez rapidement des experts en la matière (SME) et d'autres intervenants directement depuis le canal Slack, garantissant ainsi une implication rapide et minimisant les erreurs d'orientation.
  • Des attributions de rôles claires : Attribuez facilement des rôles tels que commandant d'incident et scribe, garantissant clarté et continuité même lors d'incidents prolongés ou de changements de personnel.
  • Actions et mises à jour intégrées : Effectuez des mises à jour de statut et des actions d'automatisation dans Slack, en tenant tous les membres de l'équipe informés et en favorisant le dépannage collaboratif.
  • Examens complets après incident :Toutes les données et conversations sur les incidents sont automatiquement enregistrées, ce qui facilite les examens approfondis après l'incident et les améliorations des réponses futures aux incidents.

Mesurer les parties prenantes
Les incidents peuvent perturber l'ensemble de l'organisation, et pas seulement les intervenants qui gèrent le problème. Les personnes clés – le directeur marketing qui retarde une campagne d'e-mails ou l'ingénieur commercial qui opte pour une démonstration enregistrée plutôt qu'une démonstration en direct – ont souvent besoin de rester informées même si elles ne sont pas directement impliquées dans la réponse.

Les incidents de grande ampleur avec un « rayon d’explosion » important peuvent faire dérailler la productivité de l’entreprise pendant des heures ou des jours. Bien que cela soit amusant bandes dessinées xkcd , ce n'est pas très bon pour vos objectifs. Ce n'est pas non plus une bonne utilisation du temps que des dizaines de non-répondants restent inactifs dans les canaux de réponse au cas où quelque chose se produirait.

Les organisations ont besoin de canaux de communication clairs pour tenir toutes les parties prenantes informées lors d'incidents de longue durée sans perturber les efforts de réponse. La fourniture de mises à jour régulières dans un emplacement désigné, comme une page de statut ou un canal Slack dédié, garantit que tout le monde est à jour sans interférer avec ses autres responsabilités. Cela inclut les parties prenantes exécutives, qui peuvent recevoir des notifications actives sur les changements de statut, et les clients qui apprécieront les mises à jour en temps opportun pour apaiser les inquiétudes et réduire les demandes d'assistance inutiles.

Lier ces méthodes à une seule Mise à jour du statut dans PagerDuty réduit la charge cognitive de l'équipe qui répond. Ils n'ont pas besoin de mémoriser plusieurs emplacements, plusieurs connexions, les canaux à mettre à jour, les listes de diffusion à informer ou tout autre détail gênant.

L'information est un pouvoir. Une réponse intégrée et coordonnée aux incidents est un moyen efficace de tenir tout le monde informé et de garantir un effort plus fluide et mieux coordonné au sein de votre organisation.

En savoir plus sur la solution de gestion des incidents de PagerDuty.