- PagerDuty /
- Blog /
- Automatisation /
- Du chaos aux informations exploitables avec les intégrations et l'automatisation de PagerDuty
Blog
Du chaos aux informations exploitables avec les intégrations et l'automatisation de PagerDuty
Nous sommes en 2023. Dans le monde d'aujourd'hui, chaque entreprise et chaque individu, quel que soit son secteur d'activité, s'appuie sur des logiciels pour accroître sa productivité. Nos utilisateurs s'attendent à ce que notre technologie soit disponible et fiable à tout moment. Si votre logiciel est utilisé par des entreprises d'un seul pays pendant les heures de travail normales, elles s'attendent à ce qu'il soit disponible pendant toute cette période. Facile, non ?
Cependant, si votre logiciel sert des clients dans le monde entier, 24 heures sur 24, 7 jours sur 7, avec un besoin de faible latence, vous devrez exécuter vos services dans plusieurs régions et disposer d'équipes prenant en charge les clients dans différents endroits.
Même si ce dernier scénario peut paraître plus complexe, les mêmes principes s'appliquent. Inévitablement, quelque chose va échouer de manière inattendue et le chaos va s'installer en période de stress, comme en cas d'incidents ou de pannes de service. Soyez donc prêt.
Donner un sens au chaos
Aujourd'hui, nos services sont distribués et s'appuient sur différentes plateformes, composants matériels et logiciels, dont certains ne sont même pas gérés par nous-mêmes. Dès qu'un problème survient, nous nous retrouvons en mode « résolution de mystère ». Bien que j'aie grandi en lisant les aventures de Sherlock Holmes, je n'aime pas le faire sous pression. Il est temps de régler ce problème !
PagerDuty Operations Cloud sert de plateforme centrale pour tous les événements provenant de n'importe quel outil que vous utilisez déjà. Vous n'avez pas besoin de changer la plateforme CI/CD, ITSM ou les outils de surveillance que vous utilisez. Il vous suffit de les intégrer à PagerDuty en tirant parti de nos 700+ intégrations intégrées ou en créant votre intégration personnalisée à l'aide de nos événements ou de nos API REST.
Une fois que vous avez activé les intégrations sur vos services, les fonctionnalités AIOps de PagerDuty traiteront et regrouperont intelligemment les événements et les associeront aux services cibles. Cela réduit le nombre d'incidents créés et enrichit les incidents existants avec des informations pertinentes qui vous aideront à identifier la cause première du problème.
Du point de vue d'un intervenant en cas d'incident, vous souhaitez être averti dès qu'un problème est identifié et avoir accès à toutes les informations sur ce qui s'est passé avant et après le déclenchement de l'incident. L'intégration PagerDuty avec Amazon Cloudwatch est un exemple d'intégration qui vous permet d'être averti dès que vos ressources entrent dans une condition d'alarme. Les alarmes déclenchées dans AWS génèrent des alertes dans PagerDuty qui peuvent entraîner des incidents.
Un autre exemple consiste à demander à GitHub d’envoyer toutes les modifications apportées à la base de code dans PagerDuty afin que l’intervenant en cas d’incident sache quand quelque chose de nouveau a été déployé et analyse l’impact potentiel de ces modifications.
Utilisation des API
Il peut y avoir des situations où les intégrations intégrées ne sont pas suffisantes et vous devrez créer vos propres intégrations. Cela peut être accompli en utilisant soit l' API d'événements ou la API REST .
Pour les intégrations qui nécessitent une fréquence plus élevée, telles que les outils de surveillance ou d'observabilité, nous recommandons d'utiliser l'API Events en raison de ses limites de débit et de sa fiabilité plus élevées. Cependant, il est important d'être conscient de Codes de réponse de l'API et approches pour réessayer vos demandes en cas d'erreurs.
Les événements envoyés via l'API sont dirigés vers un service PagerDuty et traités. Ils peuvent entraîner la création d'une nouvelle alerte et/ou d'un nouvel incident, ou la mise à jour ou la résolution d'un événement existant.
L'API Events prend en charge deux types d'événements :
- Événements – Les outils de surveillance doivent envoyer un événement déclencheur à PagerDuty pour signaler un nouveau problème ou mettre à jour un problème en cours, selon le type d’événement.
- Événements de changement – L'API Change Events vous permet d'envoyer des événements d'information sur les modifications récentes, telles que les déploiements de code et les modifications de configuration du système, à partir de n'importe quel système pouvant établir une connexion HTTP sortante. Ces événements ne créent pas d'incidents et n'envoient pas de notifications, mais ils sont affichés dans le contexte des incidents sur le même service PagerDuty .
Pour acheminer efficacement vos événements, l'API Events utilise deux points de terminaison différents : https://événements [.eu].pagerduty.com/v2/enqueue pour Alertes d'événements , et https://événements [.eu].pagerduty.com/v2/change/enqueue pour Changer les événements . Une fois que vous ajouter l'intégration de l'API Events v2 à votre service, vous recevrez les URL de votre compte ainsi qu'une clé d'intégration pour votre service (reportez-vous à l'image ci-dessous).
Grâce à cela, vous pouvez intégrer virtuellement n'importe quel service, outil ou plateforme avec PagerDuty Operations Cloud sans dépendre des intégrations natives fournies par PagerDuty.
Dormain Drewitz, vice-président de la défense des intérêts de la plateforme chez PagerDuty, a récemment eu une conversation avec Nakul Bhagat de l'équipe Produit sur les API de PagerDuty. en train de regarder si vous cherchez plus de détails sur la façon de les utiliser.
Les bonnes personnes, au bon moment
Maintenant que toutes les informations sur les données circulent dans PagerDuty Operations Cloud et sont acheminées vers les services appropriés, vous devez envisager d'impliquer les bonnes personnes au bon moment. intervenants en cas d'incident , ceci est réalisé en définissant Équipes , Horaires de permanence et Politiques d'escalade . Pour autres parties prenantes , cela se fait généralement grâce à l'utilisation de Pages d'état , Mises à jour de statut ou par les ajouter en tant qu'abonnés à un incident actif .
En plus des mécanismes de notification configurés sur les comptes utilisateurs, PagerDuty propose une gamme d'intégrations et d'extensions qui permettent aux équipes de rester dans les outils qu'elles utilisent déjà au quotidien, réduisant ainsi le besoin de changement de contexte et facilitant une adoption plus facile.
Par exemple, lorsque vous activez les intégrations PagerDuty pour les plateformes de communication existantes telles que Slack ou Microsoft Teams, vous permettez à chaque personne de l'organisation d'être informée, de contribuer et d'être informée de ce qui se passe avec un incident spécifique susceptible de causer des problèmes dans différentes parties de l'entreprise. La création de canaux d'incidents et l'ajout d'intervenants et de parties prenantes concernés peuvent être automatisés avec Flux de travail des incidents .
En suivant ces étapes, vous serez bien préparé à fournir un service d'assistance adéquat. Vos clients seront ainsi plus satisfaits qu'avant. Mais pouvez-vous aller encore plus loin ?
Gagnez du temps grâce à l'automatisation
L'automatisation joue un rôle important dans PagerDuty Operations Cloud car elle vous permet d'automatiser les tâches répétitives et de fournir en toute sécurité des capacités limitées à d'autres personnes en libre-service (voir les exemples ici ). En intégrant l’automatisation à votre flux de travail, vous pouvez réduire le risque d’erreurs et améliorer l’efficacité des ingénieurs qui l’utilisent.
Lors de l'exécution de services sur une plateforme Cloud, il existe de nombreux points de défaillance potentiels avant même d'atteindre l'application. Vous pouvez automatiser les diagnostics de la plateforme avec Automatisation des processus ou Automatisation du livre d'exécution dans Flux de travail des incidents Au lieu de vider l'intégralité des journaux, vous pouvez générer ces diagnostics dans votre chronologie des incidents dans un format lisible.
Cela permettra non seulement aux intervenants en cas d’incident de comprendre rapidement où se situent les problèmes, mais permettra également aux autres parties prenantes d’être au courant du travail effectué pour résoudre l’incident.
Un pas après l'autre
Dans cet article de blog, vous avez découvert les capacités de PagerDuty Operations Cloud pour réduire le bruit et permettre une résolution efficace des incidents. Lorsqu'elle est mise en œuvre correctement, une stratégie de gestion des incidents et de disponibilité peut apporter des avantages considérables. Vos clients seront plus satisfaits, votre entreprise prospérera et vos équipes seront plus satisfaites de leur travail et des connaissances qu'elles acquièrent.
Il est toutefois important de ne pas sous-estimer l’importance des outils seuls. Commencez par de petites étapes, recueillez des informations, impliquez d’autres personnes et concentrez-vous sur ce qui est pertinent pour vos clients et votre entreprise.
Dites-nous ce que vous en pensez!
Avez-vous commencé à utiliser nos API REST ou Event ? Faites-le nous savoir en remplissant ce petit formulaire enquête !
Rejoignez également notre Forums communautaires ou contactez-nous équipe-communautaire@pagerduty.com Nous aimerions savoir ce que vous pensez des nouvelles fonctionnalités et ce que vous espérez voir à l’avenir.