Blog

Un examen plus approfondi des nouvelles fonctionnalités AIOps de PagerDuty

par Ariel Russo 29 septembre 2020 | 7 minutes de lecture

Un autre Sommet PagerDuty est dans les livres, et nous nous remettons encore de l'enthousiasme et de l'énergie dont nos clients et notre communauté nous ont fait preuve au cours de la semaine dernière. Nous avons fait plusieurs grandes annonces au cours de la conférence, mais aucune n'est plus significative que les avancées AIOps sur notre plateforme d'opérations numériques.

Nous avons présenté plusieurs façons pour les clients d'appliquer des algorithmes d'apprentissage automatique et d'automatisation à un large éventail de flux de travail sur la plateforme. De la réduction du bruit et de l'analyse des causes profondes à la correction automatique et aux analyses avancées, notre version vise à rendre les équipes informatiques plus efficaces en appliquant AIOps pour réduire la complexité et le travail humain à un moment où les organisations essaient d'en faire plus sans ajouter de ressources.

PagerDuty s’efforce également de réduire la fatigue qui s’accompagne inévitablement de la gestion d’environnements informatiques de plus en plus complexes, fatigue qui a été accentuée par la pandémie mondiale. AIOps est essentiel pour déterminer la relation entre les milliers d’alertes que tous les éléments d’un environnement informatique peuvent désormais générer. L’objectif est de fournir aux équipes informatiques davantage de contexte et d’informations exploitables.

Pour en savoir plus sur AIOps en tant que catégorie de cas d'utilisation et sa définition, assurez-vous de consulter ces blogs :

 

Maintenant, plongeons dans les détails des dernières fonctionnalités AIOps de PagerDuty.

Plongée en profondeur dans l'innovation

Recommandations intelligentes

Rien n'est plus important que la santé et la santé mentale de votre équipe. Mais dans le paysage informatique actuel, rapide et complexe, les déclencheurs environnementaux peuvent aller à l'encontre de cet impératif en provoquant fatigue et épuisement professionnel. Les recommandations intelligentes utilisent l'apprentissage automatique pour suggérer des actions à entreprendre. réduire le bruit et améliorer l'efficacité de l'équipe et la santé, tout en fournissant également les résultats projetés du retour sur investissement de l’adoption des actions prescrites.

  • Recommandations de réduction du bruit PagerDuty identifie automatiquement les services concernés par le bruit d'alerte, diagnostique la cause et fournit aux intervenants et aux propriétaires de services des recommandations uniques sur les méthodes permettant de réduire le bruit qui n'est pas important. PagerDuty a constaté qu'en mettant en œuvre des recommandations de réduction du bruit, les clients peuvent constater une diminution moyenne allant jusqu'à 67 % des alertes et des incidents, soit 67 % de fausses alarmes et de travail inutile en moins !
  • Recommandations en matière de santé de l'équipe. Les équipes sont plus que jamais sollicitées pour maintenir les activités en ligne, mais les intervenants fatigués commettent des erreurs. Améliorez la santé des employés et maintenez votre équipe d'astreinte en alerte en signalant le travail de nuit ou en dehors des heures de travail à l'équipe ou au responsable approprié et en envoyant une recommandation de remplacement de quart à l'intervenant.

 

Analyse avancée organisée et planification du modèle de maturité

En s'appuyant sur l'API d'analyse étendue et puissante publiée par PagerDuty pour ouvrir notre riche ensemble de données aux requêtes des clients, nos dernières améliorations font apparaître les informations analytiques les plus utiles et les plus utilisées directement à nos utilisateurs dans une interface facile à utiliser. Une fois les requêtes et les rapports spécifiques identifiés, la planification régulière des rapports peut être configurée pour tenir les différentes parties prenantes informées.

  • Laboratoire d'analyse PagerDuty extrait des informations de l'ensemble de données approfondies de PagerDuty pour des analyses personnalisées afin de répondre à une myriade de questions (par exemple, quel a été le coût du dernier incident ? Quels incidents ont affecté mon temps de résolution ?). En outre, nous avons codifié notre modèle de maturité et les données de référence de plus de 13 000 clients pour aider les utilisateurs à évaluer où se situe leur entreprise dans son parcours numérique et pour leur montrer comment ils peuvent améliorer leur maturité en prenant des mesures sur la base des recommandations d'optimisation.

Vous pouvez automatiser la création de rapports et partager des analyses là où votre équipe travaille grâce à notre intégration Slack. Les rapports disponibles incluent :

    • Incidents critiques et les plus impactants
    • Santé et optimisation du service
    • Opportunités d'efficacité des coûts opérationnels
    • Santé et optimisation des équipes
    • Analyse de l'impact des affaires

  • Analyse de l'état de préparation à la permanence aide à mettre en place correctement les équipes afin qu'elles puissent s'acquitter avec succès de leurs responsabilités d'astreinte. Utilisez ce rapport pour améliorer votre posture d'astreinte et suivre vos progrès vers la préparation organisationnelle. Une bonne constitution d'équipe peut réduire les délais de résolution et améliorer la capacité de votre organisation à répondre aux incidents.
Dépendances de services dynamiques

L'approche orientée services de PagerDuty repose sur le fait que notre annuaire de services unique en temps réel est à jour et précis. Nous avons apporté des améliorations majeures à notre annuaire de services en rationalisant la manière dont les informations de dépendance sont saisies et mises à jour. Vous pouvez désormais faire apparaître automatiquement les dépendances en amont et en aval pour accélérer la résolution des problèmes, réduire la duplication des tâches et prévenir les incidents futurs. Nous avons également automatisé la tâche consistant à maintenir à jour les informations de dépendance dans votre annuaire de services grâce à des recommandations d'apprentissage automatique et à des données de service intégrées bidirectionnelles provenant de partenaires clés afin que votre équipe puisse opérer à partir d'une seule source de vérité.

  • Dépendances définies par l'utilisateur peuvent être rapidement cartographiés et définis dans une interface simplifiée. Vous pouvez désormais suivre les dépendances et les relations entre les services techniques et commerciaux en amont et en aval, avec une maintenance peu exigeante.
  • Prise en compte automatisée des dépendances Les fonctionnalités de PagerDuty suggèrent des dépendances pertinentes via l'apprentissage automatique et les mettent en évidence directement dans la page Détails de l'incident. Lors du tri actif des incidents, ces informations sur les dépendances vous aident à éviter les impasses, à collaborer rapidement et à prendre les bonnes mesures pour résoudre les problèmes. PagerDuty a publié plusieurs variantes de cette fonctionnalité, notamment :

  • Intégration ServiceNow v7 aide les clients à renforcer leur intégration et à tirer davantage de valeur de leurs investissements dans ServiceNow et PagerDuty en exploitant de nouvelles fonctionnalités bidirectionnelles telles que l'exécution d'un jeu de réponse PagerDuty dans ServiceNow ou la publication d'un appel à l'action de ServiceNow sur la page de détails de l'incident de PagerDuty pour fournir aux utilisateurs des mises à jour de statut en direct. De plus, les dépendances de services métier et techniques de la CMDB de ServiceNow peuvent être partagées avec l'annuaire de services de PagerDuty, ce qui permet aux équipes de comprendre plus clairement l'impact des incidents et d'identifier les services critiques.

Cartographie de l'impact du changement

On estime que 80 % des incidents sont causés par des changements. C'est pourquoi PagerDuty a entièrement intégré les événements de changement dès le processus de livraison du logiciel ( CI/CD pipelines) et référentiels de code, permettant une visibilité sur les changements afin de mieux comprendre leurs impacts. Exploitez ce contexte en temps réel pour identifier immédiatement les endroits où les changements ont provoqué des échecs et prédire les risques que les changements futurs pourraient entraîner sur les services métier critiques.

  • Enquête sur les changements pour la résolution des incidents réduit les temps de résolution en aidant DevOps Les intervenants comprennent quels changements ont probablement causé ou contribué à un problème. Ils peuvent utiliser des informations contextuelles sur les modifications récentes du logiciel ou de la configuration pour diagnostiquer et éventuellement empêcher qu'un problème ne s'aggrave, ou prendre rapidement les mesures suivantes pour coordonner une réponse efficace.
  • Intégrations d'événements de changement avec GitHub , Fantoche , et Évolué offrez aux clients de PagerDuty un moyen plus simple d'ingérer les événements de modification à partir de leur pipeline de livraison de logiciels.

Contrôles d'automatisation flexibles

Appliquer l'IA et l'automatisation à un domaine aussi crucial que les opérations numériques d'une entreprise nécessite une confiance totale. C'est pourquoi nous avons créé des contrôles d'automatisation flexibles pour garantir en toute sécurité qu'un humain garde le contrôle à tout moment. PagerDuty suggère les domaines dans lesquels l'automatisation peut être utile et peut garantir qu'aucun humain n'est interrompu lorsqu'il ne devrait pas l'être, mais les alerte en cas de besoin. Cela offre aux entreprises un moyen fiable d'intégrer et d'accélérer l'automatisation dans toute l'organisation. Poursuivant notre engagement en faveur d'une automatisation conviviale, PagerDuty a annoncé un accord définitif d'acquérir Rundeck, l'un des principaux fournisseurs d'automatisation des runbooks pour l'entreprise, dans le cadre d'une opération qui rendra la correction automatique plus accessible aux clients cherchant à automatiser leurs processus de réponse aux incidents.

  • Notifications d'incidents en pause Réduisez le bruit de fonctionnement en retardant les déclenchements, ce qui donne aux machines la possibilité de corriger automatiquement les problèmes avant d'avertir les intervenants. Les clients peuvent conserver une piste d'audit des déclencheurs et des actions, qu'un intervenant ait été averti ou non.
  • Webhooks déclenchés par des événements Donnez aux équipes d'intervention un moyen de résoudre les incidents plus rapidement et avec moins de ressources en exploitant l'automatisation par bouton-poussoir à l'aide de règles d'événement pour déclencher des processus et des flux de travail externes. Les utilisateurs peuvent également surveiller et suivre l'état des séquences d'automatisation déclenchées sur un service.
  • Enrichissement et extraction de champs dynamiques aide les ingénieurs DevOps à normaliser le contenu des alertes pour qu'il corresponde à leurs exigences de formatage terminologique uniques. Cela peut améliorer les résultats des rapports et des analyses et contribue à éliminer les obstacles à l'adoption de fonctionnalités économes en ressources telles que le regroupement d'alertes intelligent et basé sur le contenu.

Si votre équipe pourrait bénéficier de l’une de ces améliorations, n’hésitez pas à consulter notre essai gratuit ou inscrivez-vous pour obtenir un accès anticipé aux nouvelles fonctionnalités.