• PagerDuty
    /
  • Blog
    /
  • AIOps
    /
  • Qu'est-ce que l'orchestration d'événements ? 7 façons de commencer à utiliser cette nouvelle fonctionnalité puissante de PagerDuty pour réduire le bruit et automatiser le travail manuel dès aujourd'hui

Blog

Qu'est-ce que l'orchestration d'événements ? 7 façons de commencer à utiliser cette nouvelle fonctionnalité puissante de PagerDuty pour réduire le bruit et automatiser le travail manuel dès aujourd'hui

par Vivian Chan 2 août 2022 | 9 min de lecture

Votre équipe doit-elle faire face à trop de bruit ? Votre cœur se serre-t-il un peu lorsque vous pensez à quel point vos règles se sont étalées pour gérer vos besoins de traitement d'événements ? C'est pourquoi nous avons publié Orchestration d'événements plus tôt cette année pour aider les équipes à réduire la quantité de travail manuel nécessaire à la gestion des événements. L'orchestration d'événements est la prochaine évolution de notre ensemble de fonctionnalités de règles d'événements, qui permet d'acheminer, d'enrichir et de modifier les événements lors de l'ingestion pour supprimer le bruit et automatiser les processus.

Nous avons pris les règles d'événement et les avons optimisées pour gérer une logique personnalisée plus complexe et des capacités de traitement d'événements conditionnels plus sophistiquées. Nous avons même écrit notre propre langage de condition ( Langue des conditions de PagerDuty ou PCL, prononcé « pickle ») pour permettre cela – vous pouvez en apprendre davantage sur la façon dont nous l'avons construit à partir de la session Summit « PCL 101 » de l'ingénieur d'état-major Barry Kim ici .

Orchestration d'événements est désormais le meilleur moyen pour les utilisateurs de compresser les volumes de règles, d'améliorer la réduction du bruit et d'automatiser plus efficacement les tâches manuelles bien comprises. Nous avons récemment annoncé que pour garantir que nous consacrons nos ressources à la création de l'expérience d'enrichissement et d'automatisation pilotée par événements la plus robuste et la plus fiable pour nos clients, nous mettrons fin aux règles d'événements et migrerons tous les clients vers l'orchestration d'événements au début de l'année prochaine. Pour plus d'informations à ce sujet et sur les différents options de migration , nous avons tout décrit dans ce Article de la base de connaissances .

Dans ce blog, je vais expliquer en quoi l'orchestration d'événements est différente des règles d'événements et passer en revue sept cas d'utilisation courants de l'orchestration d'événements qui, selon nous, ont le plus d'impact pour nos clients.

Qu'est-ce que l'orchestration d'événements ? Et en quoi est-elle différente des règles d'événements ?

Orchestration d'événements est une mise à niveau directe des règles d'événement. Les orchestrations d'événements de base peuvent effectuer toutes les mêmes actions de traitement d'événements de base que les règles d'événements avec les avantages supplémentaires d'une interface utilisateur améliorée, d'une meilleure création de règles, d'une prise en charge des API et de Terraform et de conditions avancées. Pour les clients disposant du module complémentaire Event Intelligence ou des plans Digital Operations, les orchestrations d'événements avancées apportent encore plus de fonctionnalités, notamment des conditions contextuelles, des webhooks, des notifications d'incidents en pause, l'imbrication de règles et une intégration directe avec les actions d'automatisation.

Vous trouverez ci-dessous quelques-unes des principales raisons pour lesquelles l'orchestration d'événements est supérieure aux règles d'événements :

  • Plus facile à utiliser : d'un point de vue architectural, Event Orchestration tire parti de l'approche plus moderne de PagerDuty en matière de développement front-end en exploitant React comme pile front-end principale. Cela permet aux clients de parcourir leurs règles avec moins de décalage et une meilleure prise en charge des améliorations d'accessibilité à l'avenir.
  • Traitement d'événements plus complexe : grâce au langage de condition pris en charge par Event Orchestration et à la possibilité d'imbriquer des règles, les clients utilisant Event Orchestration peuvent effectuer des actions de traitement d'événements complexes avec une fraction de l'effort de configuration. Ce qui pouvait autrefois être accompli avec 10 règles d'événements peut désormais être réalisé avec 1 règle Event Orchestration.
  • Prise en charge plus robuste de l'automatisation : les utilisateurs peuvent déclencher des webhooks avec des en-têtes personnalisés ou des actions d'automatisation.
  • Traitement d'événements plus précis : l'imbrication des règles permet aux utilisateurs d'exécuter des automatisations avec un degré élevé de précision, car les clients peuvent détailler chaque démarrage de défaillance connu de leurs systèmes, en déployant l'automatisation sur chacun d'eux en toute confiance.

Quels sont les cas d’utilisation les plus courants de l’orchestration d’événements ?

Avec toutes ces fonctionnalités supplémentaires, j'espère qu'il est clair que l'orchestration d'événements a le potentiel d'améliorer considérablement l'expérience de votre équipe dans le cadre de la réponse aux incidents majeurs et mineurs. Mais par où commencer ?

L'une des sessions les plus populaires de notre bibliothèque de vidéos à la demande au Summit 2022 était 7 façons d'utiliser l'orchestration d'événements pour réduire le bruit et automatiser plus souvent. Au cours de la session, Eddie Willits, consultant en services professionnels, rejoint par Frank Emery, chef de produit senior, passe en revue l'orchestration d'événements et les cas d'utilisation les plus courants dans lesquels les clients utilisent cette nouvelle fonctionnalité puissante. Je les ai résumés ci-dessous, mais si vous êtes un apprenant audio/visuel, vous pouvez également regarder leur séance rapide de 20 minutes .

Voici les 7 cas d’utilisation les plus courants pour l’orchestration d’événements aujourd’hui :

1) Répression

Le problème avec le bruit, c'est qu'il est très gênant. C'est particulièrement agaçant lorsque cela ne valait même pas la peine d'arrêter ce que vous faisiez pour le regarder. Les exemples classiques sont les événements provenant d'un environnement de test ou les événements de développement non critiques qui sont envoyés en dehors des heures de travail. Comment pouvez-vous vous assurer que votre équipe ne travaille que sur les incidents qui comptent ?

L'orchestration d'événements peut aider les équipes à se concentrer uniquement sur les événements critiques en interrompant uniquement les intervenants avec les alertes les plus importantes et les plus urgentes. Vous pouvez concevoir une orchestration qui recherche un certain type de signal de faible priorité et configurer une orchestration qui appelle la notification d'incident de pause de PagerDuty pour gérer les événements non pertinents, de faible valeur ou gênants en les rétrogradant ou en les supprimant entièrement. Au lieu de passer du temps à reconnaître les événements gênants, les intervenants peuvent rester concentrés sur les alertes critiques affectant l'entreprise.

2) Fenêtres de maintenance automatisées

À quelle fréquence pensez-vous : « Je dois effectuer une maintenance à minuit ce soir ! Comment puis-je m'assurer que les propriétaires de services ne soient pas réveillés ? »

L'orchestration d'événements est utile dans ce cas d'utilisation, car elle permet de créer une logique personnalisée qui s'adapte aux conditions de règles récurrentes ou planifiées. Les clients peuvent définir quand toutes les alertes doivent être supprimées ou redirigées pour prendre en charge une fenêtre de maintenance en cours ou planifiée. Vous pouvez même obtenir des résultats plus précis qu'une fenêtre de maintenance globale par service en configurant des règles qui ont des façons différenciées de gérer chaque alerte par outil de surveillance. Un exemple que nous avons vu des clients se pencher sur cette question serait de configurer une orchestration qui peut ajuster la gravité en dehors des heures de travail pour les événements spécifiques à l'environnement de production qui coïncident avec les heures de garde et de repos.

REMARQUE : on nous demande souvent ce qu'il advient des alertes lorsqu'elles sont mises en maintenance. Les événements qui arrivent dans PagerDuty sont toujours visibles pour référence, même s'ils sont supprimés. Ceux-ci peuvent être consultés dans le menu « Alertes ».

3) Contrôle des alertes de tempête

Personne ne souhaite être confronté à une tempête d'alertes. Pourtant, cela arrive. La question est de savoir comment contrôler l'expérience de votre équipe lorsque cela se produit lors d'une panne partielle ou totale afin qu'elle soit le moins perturbatrice possible et qu'elle puisse se concentrer sur la tâche la plus importante à accomplir : trouver la solution.

Avec Event Orchestration, les clients peuvent utiliser des règles basées sur des seuils pour contrôler le comportement de création d'incidents lors des tempêtes d'alertes. Vous pouvez configurer des règles spécifiques aux seuils pour déclencher des actions qui s'exécutent jusqu'à un certain seuil ou qui s'exécutent après avoir dépassé un certain seuil. Cela vous donne encore plus de précision pour l'enrichissement, le routage ou le regroupement des événements par rapport au volume d'événements.

4) Routage et enrichissement

Lors du dépannage, les intervenants doivent être en mesure de comprendre rapidement ce qui s'est passé lors d'une panne. Comment pouvez-vous mieux mettre en évidence ces informations lors d'un incident afin que les intervenants ne perdent pas de temps à les rechercher ?

Event Orchestration peut aider les clients à aborder de manière automatisée la standardisation des données d'incident en :

  • remplacer les champs mal formés
  • remplacement de champs en fonction de cas d'utilisation connus
  • mise à jour de la gravité/priorité/urgence
  • Ajuster le comportement de création d'incident (intégration de courrier électronique)

À titre d’exemple, vous pouvez configurer une orchestration dans laquelle, chaque fois qu’un événement contient la charge utile « Le temps de réponse est élevé » supérieure à 1 000 ms, l’incident sera immédiatement signalé comme étant de priorité 1.

5) Fourniture de manuels d'exécution

Chaque fois qu'un nouveau membre rejoint votre équipe, en particulier s'il s'agit d'un junior, il faut un certain temps pour l'initier aux approches spécifiques qui font partie de vos processus de réponse aux incidents. Il faut du temps pour expliquer et former sur la manière d'aborder même les incidents courants et bien compris. L'une des formes d'automatisation les plus élémentaires que nous avons vues chez nos clients pour résoudre ce problème consiste simplement à commencer par écrire comment ils résolvent ces problèmes dans des manuels d'exploitation qui peuvent être partagés comme des moyens éprouvés de gérer les problèmes récurrents.

L'orchestration des événements facilite l'ajout de notes contenant des liens vers des dossiers d'exécution ou des instructions de résolution pour les problèmes connus. De cette façon, lors du tri de l'incident et de l'examen de la charge utile de l'alerte, le dossier d'exécution est facilement accessible pour référence. L'intégration de ces renseignements exploitables lors du traitement des événements lors de l'ingestion signifie que les intervenants de niveau 1 peuvent facilement résoudre les problèmes courants et bien compris sans faire appel à des ingénieurs seniors.

6) Mise à jour des systèmes d'enregistrement

Les clients utilisant des outils ITSM spécifiques pour les incidents majeurs et mineurs seront intéressés par la manière de maintenir leur système d'enregistrement synchronisé avec leurs incidents PagerDuty .

Grâce aux webhooks d'orchestration d'événements, les utilisateurs peuvent s'assurer que les incidents sont ingérés et qu'ils mettent à jour les systèmes connectés. Des règles spécifiques contiennent des webhooks qui déclenchent des charges utiles vers ces systèmes, ce qui crée des enregistrements avec des informations de charge utile d'événements à jour. Nous avons vu cela utilisé avec Jira, ServiceNow et les systèmes CMDB locaux. En savoir plus sur les intégrations de PagerDuty avec les solutions ITSM ici .

7) Diagnostic et correction automatisés

Tout le monde souhaite automatiser ses processus opérationnels. Cela n’est pas surprenant : de nombreuses étapes manuelles sont associées aux incidents. Cependant, il peut être difficile de savoir par où et comment commencer.

Les diagnostics automatisés sont un moyen peu risqué et très rentable de réduire le temps de réponse moyen. Pensez à tous les diagnostics que vous devriez exécuter au début d'une enquête. Imaginez maintenant qu'ils soient déjà exécutés au moment où votre intervenant arrive sur les lieux de l'incident.

Event Orchestration simplifie l'intégration d'outils d'automatisation via des webhooks. Il dispose également d'une intégration native avec les actions d'automatisation PagerDuty , qui peuvent déclencher des diagnostics et des corrections automatisés dans la plateforme PagerDuty . Cela permet de réduire le temps global de résolution puisque les résultats du diagnostic sont directement transmis aux détails de l'incident et prêts à être examinés par l'intervenant.

En savoir plus sur l'orchestration d'événements

Vous pouvez en lire plus sur Orchestration d'événements ou consultez certaines de nos vidéos sur Youtube, notamment Orchestration d'événements dans Terraform et Le plaisir et les mathématiques derrière l'orchestration d'événements .

Pour en savoir plus sur la manière d'étendre l'orchestration d'événements à plusieurs services, lisez ce blog à propos de Global Event Orchestration ou prenez notre visite du produit .