Blog

Réduisez le MTTR et portez l'automatisation à un nouveau niveau avec l'orchestration globale des événements PagerDuty

par Hannah Culver 18 avril 2023 | 5 minutes de lecture

L'orchestration globale des événements de PagerDuty est désormais disponible pour tous. Le puissant moteur de décision de Global Event Orchestration enrichit les événements, contrôle leur routage et déclenche des actions d'auto-réparation basées sur les données d'événement. Les équipes peuvent utiliser cette fonctionnalité sur tout ou partie des services de PagerDuty. Cette fonctionnalité constitue un investissement continu dans Event Orchestration, démontrant l'engagement de PagerDuty à fournir aux clients les meilleures capacités d'automatisation de leur catégorie.

Les clients de notre programme d'accès anticipé constatent déjà la valeur ajoutée de Global Event Orchestration, en vantant la réduction du MTTR et une meilleure standardisation de la réponse aux incidents à grande échelle. Comme l'a déclaré Kiril Yurovnik, responsable technique chez Riskified, « avec un nombre croissant d'événements, il est impératif de minimiser le bruit et la charge de travail, en particulier lorsque les organisations cherchent à optimiser leurs processus informatiques dans le contexte économique actuel. Nous avons utilisé Global Event Orchestration de PagerDuty dans le cadre du programme de disponibilité anticipée, et les résultats ont été positifs. Riskified a pu réduire le bruit à grande échelle, en particulier dans les environnements hors production, ce qui a permis à notre équipe de gagner un temps précieux pour innover sur ce qui va suivre. »

Que sont les orchestrations d’événements mondiaux ?

L'orchestration d'événements mondiaux est comme Orchestration des événements de service En effet, il permet aux utilisateurs de définir des règles complexes qui déterminent ce qui arrive à un événement au fur et à mesure de son traitement. La différence est que Global Event Orchestration enrichit les événements au moment de l'ingestion. Ensuite, une fois les données normalisées, l'événement est acheminé vers un service en fonction de divers critères. Cela garantit que les intervenants disposent des meilleures données d'événement possibles pour démarrer le processus de réponse.

Global Event Orchestration comporte trois composants clés qui lui permettent de réussir à faire évoluer la réponse aux incidents.

Règles d'orchestration globales permettent aux utilisateurs d'appliquer des actions aux événements sur plusieurs services. Les équipes peuvent créer des règles qui traitent les données d'événements sur plusieurs services et utilisent les données traitées pour améliorer le routage des événements. Cela permet aux organisations d'établir et d'améliorer la correction automatique. Cela signifie qu'un humain n'a pas besoin d'être impliqué dans un incident pour le résoudre. Cela réduit également le rayon d'action d'un incident grâce à un routage plus intelligent.

Gestion améliorée des clés d'intégration réduit la charge de travail liée à la gestion des clés d’intégration pour différents outils de surveillance. Cela permet aux utilisateurs de combiner les clés d’intégration dans une seule orchestration d’événements. Mieux encore, une gestion améliorée des clés d'intégration est désormais disponible pour tous les forfaits PagerDuty .

API supplémentaires Permet une gestion à grande échelle. Les équipes peuvent utiliser les API REST pour la gestion des sources d'événements et des règles d'orchestration globales. Ces deux API prennent en charge Terraform. Ces API s'ajoutent aux API REST pour la gestion de l'orchestration d'événements/de services.

« L'exploitation de Global Event Orchestration de PagerDuty a été essentielle pour garantir que nos processus de routage d'événements sont efficaces et évolutifs afin d'optimiser les opérations et les dépenses informatiques », a déclaré Brian Long, ingénieur en infrastructure cloud chez Hyland. « Grâce à Global Event Orchestration, notre organisation est en mesure de détecter la condition « résolue » à partir de nos notifications pour l'exécuter en tant que résolution et réduire le nombre d'endroits où ces conditions doivent être configurées d'au moins un facteur trois. Cela nous libère du temps pour nous concentrer sur l'innovation, et non sur la configuration. »

Comment Global Event Orchestration peut-il aider mon équipe ?

Avec Global Event Orchestration, les équipes verront :

  • Processus codifiés de réponse aux incidents : démocratiser et distribuer des réponses aux incidents bien comprises au sein des équipes réparties
  • Moins d'incidents : utilisez les données d'événements contextuels de tous les services de votre écosystème pour améliorer la précision de la suppression
  • Résolution plus rapide : Appliquez l'automatisation à toutes les équipes et permettez des diagnostics automatisés à grande échelle avec un enrichissement standardisé et une normalisation des données

La manière dont les équipes utilisent Global Event Orchestration peut varier en fonction de la structure organisationnelle. Les capacités s'alignent sur deux équipes différentes : les équipes ITOps, SRE et NOC et les équipes de développeurs.

Équipes ITOps sera en mesure de capitaliser sur les capacités de normalisation des événements, garantissant que tous les événements se ressemblent dès leur arrivée.

Équipes SRE peut créer et étendre l'automatisation à tout ou partie des services d'un écosystème technique. Cela rend la mise à l'échelle et la standardisation de l'automatisation au sein d'une organisation plus faciles que jamais.

Pour les équipes d'intervention de niveau 1 telles que les NOC , Global Event Orchestration les aide à gérer la vague massive d'événements entrants. Les événements peuvent être acheminés vers le NOC s'ils répondent à certains critères. Et, lorsque l'événement passe par des niveaux de règles et des règles imbriquées, l'automatisation peut fournir des diagnostics au répondeur L1. Si la solution à un incident est bien connue, les organisations peuvent créer une correction automatique.

Équipes de développeurs Les incidents seront moins nombreux et leur résolution sera plus rapide. Grâce à la correction automatique, les incidents peuvent être résolus avant même qu'ils n'atteignent les services pour lesquels les équipes de développeurs sont de garde. De plus, grâce à des critères de routage approfondis, les incidents ne rebondissent pas d'une équipe à l'autre. Si l'automatisation, le NOC ou les intervenants L1 ne parviennent pas à le résoudre, l'incident sera transmis à l'expert en la matière (SME). Et, au moment où l'expert commence à travailler sur l'incident, les informations de diagnostic sont déjà disponibles, ce qui réduit le temps de résolution.

Comment puis-je commencer aujourd'hui ?

Global Event Orchestration est généralement disponible pour tous les clients PagerDuty AIOps. Pour le voir en action, rejoignez-nous sur Twitch Vendredi 14 avril.

PagerDuty AIOps aide les équipes à subir moins d'incidents, une résolution plus rapide et une plus grande productivité sans longues implémentations ni maintenance continue lourde. Pour essayer PagerDuty AIOps, vous pouvez demander un essai ici ou prendre notre visite du produit . Si vous souhaitez parler au service commercial, contactez-nous via ce formulaire .

Pour en savoir plus sur Global Event Orchestration, inscrivez-vous à ce séminaire en ligne . Si vous êtes un client PagerDuty AIOps et que vous cherchez à créer votre première orchestration d'événements mondiaux, ceci article de la base de connaissances Je peux vous montrer comment commencer.