Blog

Automatisez la gestion des incidents majeurs étape par étape pour une réponse meilleure et plus rapide

par Hannah Culver 1er février 2024 | 6 minutes de lecture

Les entreprises qui cherchent à conquérir le marché et à offrir une expérience client exceptionnelle doivent tenir leur promesse d'un service exceptionnel, ce qui signifie moins d'interruptions et une résolution plus rapide. Cela peut se faire en intégrant l'automatisation dans tout le cycle de vie de la gestion des incidents pour les incidents majeurs et en faisant appel à des humains lorsque cela est pertinent.

Examinons quelques-unes des étapes de la gestion des incidents qui sont prêtes à être automatisées pour des gains immédiats, soit pour éliminer le besoin d’intervention humaine, soit pour les soutenir dans les moments critiques.

Avant que tu ne saches qu'il y a un incident

Avant que les intervenants ne sachent qu'un incident se produit, il existe une excellente occasion de laisser les machines prendre en charge l'essentiel du travail grâce à l'automatisation pilotée par les événements. L'automatisation pilotée par les événements commence au niveau de l'événement lorsque les données sont ingérées à partir de sources fiables telles que des outils de surveillance. À ce stade, l'automatisation peut faire plusieurs choses pour garantir que la gestion des incidents se déroule efficacement avec le moins d'interruptions possible pour les experts en la matière. En voici quelques-unes :

  • Réduire le volume des incidents : Si un intervenant doit intervenir sur un problème, il peut être ennuyeux et perturbant d’être alerté plusieurs fois pour le même problème. De plus, cela rend la concentration difficile et ralentit le temps de réponse. En utilisant l’IA et l’automatisation pour regrouper les alertes dans le même incident pour des problèmes connexes, ce bruit est rationalisé afin que les intervenants puissent se concentrer sur le problème en cours.
  • Réduction du volume de l'événement pour un meilleur rapport signal/bruit : Les événements en double, informatifs ou transitoires peuvent contribuer au bruit pour les intervenants, ce qui rend difficile de savoir ce qui est important et ce qui ne l'est pas. La réduction du volume garantit que seuls les événements les plus importants sont mis en évidence.
  • Fournir un contexte à partir des données d’événement : Les événements peuvent se présenter sous des formes très différentes selon les services auxquels ils se rapportent, et ils ne s'accompagnent pas toujours d'informations utiles et facilement assimilables par les intervenants. Grâce à l'automatisation, ces événements peuvent être enrichis d'informations clés et standardisés dans toute l'organisation afin que tous les intervenants puissent comprendre le contexte. De plus, les organisations peuvent utiliser des champs personnalisés pour ajouter encore plus de contexte, par exemple en étiquetant les incidents comme « majeurs » ou « de production » immédiatement en fonction des données entrantes. En fait, cette fonctionnalité est désormais disponible dans Accès anticipé .
  • Fournir un contexte de diagnostic automatique : L'exécution des diagnostics est souvent une tâche manuelle que les intervenants effectuent pour chaque incident. Mais nous n'avons pas besoin de gaspiller de la capacité sur cette tâche. Au lieu de cela, l'automatisation peut lancer des diagnostics, les remplissant avant même qu'un intervenant n'examine l'incident.
  • Auto-correction : Selon nos clients, environ 15 % des incidents peuvent être résolus sans aucune intervention humaine. Ces problèmes bien connus peuvent être entièrement résolus grâce à l'automatisation, ce qui permet de gagner du temps et de réduire l'impact sur le client. Dans de nombreux cas, l'automatisation fonctionne suffisamment rapidement pour que la plupart des clients ne remarquent aucun incident.

Une fois ces tâches gérées par l'automatisation, les incidents restants qui ne peuvent pas être résolus sont acheminés vers la PME appropriée, souvent le propriétaire du service, pour tri.

Pendant le triage

Le triage est la phase au cours de laquelle l'intervenant tente de comprendre ce qui s'est passé. Mais les systèmes sont complexes et la réponse n'est souvent pas simple, ce qui fait que ce processus peut souvent prendre beaucoup de temps et de capacité mentale. Pendant ce temps, les clients attendent que le service revienne à la normale. Il est important que les intervenants soient capables d'utiliser judicieusement leur expertise pour identifier le problème plutôt que de fouiller dans les documents et les autopsies, ou de demander à d'autres PME des informations sur les connaissances tribales pour comprendre ce qui s'est passé. Grâce à l'apprentissage automatique et aux diagnostics automatisés, une grande partie de ce travail de base est déjà en place sur un incident dès que les intervenants arrivent à leur bureau.

L'apprentissage automatique peut faire apparaître le contexte du système pour les intervenants, comme l'origine probable de l'incident, les autres équipes rencontrant le même problème, les incidents passés et la manière dont ils ont été résolus, les événements de changement, etc.

Armés de ces informations, les intervenants peuvent agir rapidement et se tenir au courant des incidents sans avoir à se donner la peine de recueillir des informations. Cela démocratise l'information disponible pour tous les intervenants, qu'ils soient dans l'organisation depuis une décennie et connaissent tout du système ou qu'ils viennent juste de commencer.

Tout en travaillant à une résolution

La résolution concrète d'un problème est l'aspect de la réponse dont les PME ont le plus besoin. À ce stade, l'automatisation sert d'assistant, de moyen de répondre aux questions à l'aide de l'IA et de rationaliser les flux de travail pour que l'équipe d'intervention garde tout codifié et sur la bonne voie. Discutons de chacun d'eux.

GenAI a changé la donne pour de nombreuses entreprises. Mais la façon dont vous l'utilisez fait vraiment la différence. Un facteur important dans l'utilisation de GenAI est de pouvoir poser des questions et interagir avec l'IA pour obtenir rapidement les réponses souhaitées. Avec les chatbots GenAI qui aident à la gestion des incidents, vous pouvez préserver la capacité de l'équipe en lui posant des questions sur le système pour vous donner un point de départ, une idée de l'impact, etc.

Combiné avec un Copilote IA Les workflows d'incidents peuvent également changer la donne. Non seulement les intervenants ont des réponses aux questions clés à portée de main, mais ils savent également quoi faire ensuite et les étapes fastidieuses telles que la création de canaux de communication, la rédaction de mises à jour, etc. sont effectuées pour eux.

Tout en communiquant à la fois en interne et en externe

En parlant de mises à jour, la communication est un élément clé de la gestion des incidents, mais elle peut facilement être oubliée au plus fort d'un incident. Une communication efficace comprend la communication interne avec les principales parties prenantes, la communication externe avec les clients et avec d'autres systèmes tels que votre ITSM. Il est important d'utiliser l'automatisation et GenAI en tandem pour couvrir vos bases et élaborer des communications sur mesure pour chaque public.

Les intervenants peuvent y parvenir de plusieurs manières :

  • Les champs personnalisés :Rédigez les mises à jour dans votre ITSM et mettez à jour l'incident avec toutes les données ITSM pertinentes afin que toutes les équipes, qu'elles soient informatiques ou de développement, soient sur la même longueur d'onde.
  • Modèles de mise à jour de statut : Utilisez GenAI pour créer des mises à jour et les publier automatiquement auprès des principales parties prenantes internes en fonction de groupes pré-assemblés.
  • Pages d'état : Informez automatiquement les clients de ce à quoi ils peuvent s'attendre en matière de réponse et communiquez-les lorsqu'un incident est terminé.

Communiquer tout au long de l'incident permet de renforcer et de préserver la confiance. Les intervenants peuvent avoir besoin d'envoyer un accusé de réception précoce, des mises à jour régulières, puis une réponse de clôture. L'automatisation via les flux de travail d'incident peut permettre aux intervenants de rester sur la bonne voie, ce qui signifie que personne n'est exclu de la boucle, de la reconnaissance d'un incident à sa résolution.

Tirer parti de l'IA et de l'automatisation

Tirer parti de l’IA et de l’automatisation tout au long du cycle de vie des incidents peut améliorer l’expérience des intervenants, des parties prenantes et des clients. Il est important d'adopter ces nouvelles façons de travailler et d'être à l'avant-garde de cette nouvelle technologie. Mais il est peu probable que les machines soient capables de résoudre elles-mêmes de nouveaux problèmes avant longtemps. En attendant, il est essentiel de disposer d’un partenaire stratégique qui aide les organisations à tirer le meilleur parti de l’IA et de l’automatisation. Si vous voulez savoir ce que PagerDuty peut faire pour vous, Essayez-nous aujourd'hui .