• PagerDuty
    /
  • Blog
    /
  • AIOps
    /
  • Comment réduire le bruit, résoudre les problèmes plus rapidement et automatiser plus souvent avec PagerDuty

Blog

Comment réduire le bruit, résoudre les problèmes plus rapidement et automatiser plus souvent avec PagerDuty

par Vivian Chan 1er décembre 2021 | 9 minutes de lecture

Quand nous avons demandé Comment se sentent les leaders technologiques En réponse à la pression croissante exercée sur les services numériques, ils ont indiqué que, sans surprise, leurs investissements dans le numérique ont augmenté. En fait, 72 % d'entre eux intensifient leurs efforts de transformation numérique. Pourtant, si les dirigeants s'intéressent à l'AIOps et à l'automatisation pour aider leurs équipes, il n'est pas toujours clair quelle devrait être leur approche et comment cette technologie peut être appliquée pour résoudre les problèmes de leurs équipes aujourd'hui.

PagerDuty AIOps offre aux organisations un levier stratégique et facile à utiliser pour la transformation numérique en mettant l'action en intelligence exploitable pour maintenir la productivité des équipes et la satisfaction des clients. Dans ce blog, je vais vous expliquer où en est actuellement PagerDuty AIOps, les principaux problèmes que nous aidons nos clients à résoudre et comment notre fonctionnalités récemment lancées permettez à nos clients de tirer plus facilement que jamais parti de notre intelligence unique pour agir afin de réduire le nombre d'incidents et d'obtenir une résolution plus rapide.

Si vous vous demandez : « Attendez, je pensais que PagerDuty ne faisait que des astreintes… quand est-ce que PagerDuty a eu une solution AIOps ? » Ce blog vous rattrapera.

Un aperçu rapide de la solution AIOps de PagerDuty

Commençons par un bref aperçu de l'AIOps et rappelons-nous pourquoi les gens se tournent vers l'AIOps et l'automatisation en premier lieu. Il y a trop de bruit système qui perturbe les équipes techniques. Il y a trop de complexité, ce qui ralentit la résolution des incidents. Et il y a trop de travail manuel qui provoque l'épuisement professionnel des employés.

La solution AIOps de PagerDuty répond aux principaux défis en aidant les équipes à :

  1. Coupez le bruit pour éviter la fatigue des alertes. Nous disposons d'un ensemble de fonctionnalités conçues pour réduire le bruit afin que les intervenants ne soient pas embourbés dans un bruit d'alerte inutile et puissent se concentrer sur le signal.
  2. Fournir une connaissance de la situation pour une résolution plus rapide. Nous disposons d'un ensemble de fonctionnalités permettant de faire apparaître et de corréler les informations pertinentes pour aider les intervenants à s'orienter sur ce qui se passe dans et autour d'un incident afin qu'ils puissent décider de la marche à suivre et parvenir à une résolution.
  3. Automatisez en toute sécurité, autant que possible. Avec l'automatisation des processus PagerDuty et les fonctionnalités AIOps natives telles que l'orchestration d'événements, nous aidons les employés à s'appuyer sur l'automatisation pour s'occuper des tâches manuelles répétitives afin qu'ils puissent se concentrer sur le travail qui compte.

Commençons par nous attaquer à la réduction du bruit

PagerDuty a commencé par superposer la réduction du bruit à la réponse aux incidents de base lorsque nous avons lancé Renseignements sur les événements dans ses premières itérations il y a quelques années. Nous sommes maintenant offrant jusqu'à 98 % de réduction du bruit pour les clients – en leur offrant un buffet d'options en fonction de la manière dont ils souhaitent régler leur bruit et de ce avec quoi ils sont à l'aise.

Encadré : Si vous réfléchissez souvent à la manière de régler le système pour laisser entrer les signaux pertinents que vous souhaitez et garder tout le reste à l'extérieur, Leeor Engel, l'un de nos responsables d'ingénierie, explique les nuances de ce processus. dans ce webinaire .

Certaines équipes se contentent du regroupement d’alertes basé sur le temps, tandis que d’autres prennent le temps de s’entraîner Regroupement d'alertes intelligent Ainsi, la machine apprend à regrouper et à rechercher des modèles pour les gérer à votre place. D'autres équipes sont en proie à des alertes gênantes et souhaitent simplement les éliminer. Nous avons une fonctionnalité appelée Suspendre les notifications d'incident pour traiter ce cas d'utilisation précis, proposer un paramètre de pause manuel. Nous venons de lancer une nouvelle fonctionnalité Mise en pause automatique des notifications d'incident qui proposera même à notre machine learning de désactiver ces alertes pour vous !

Pour les équipes qui souhaitent avoir un contrôle encore plus précis sur leurs paramètres de réduction du bruit, Orchestration d'événements peut être configuré pour cibler le routage des événements en fonction de conditions et d'ensembles de règles imbriqués spécifiques. Cela peut aider à éviter encore plus les interruptions inutiles.

Élargissement de l'analyse des causes profondes pour aider les clients à résoudre les problèmes plus rapidement

En fin de compte, afin d’aider nos clients à résoudre les incidents plus rapidement, nous devions créer des fonctionnalités qui aident à analyser les causes profondes, car le dépannage est l’une des parties les plus chronophages du cycle de vie de la réponse aux incidents.

Incidents passés et Incidents connexes ont été mis à la disposition des intervenants pour examiner comment d'autres coéquipiers ont pu résoudre des problèmes similaires dans le passé. L'accélération dans ce domaine a vraiment commencé lorsque PagerDuty a commencé à ingérer Événements de changement il y a un an. Depuis lors, nous avons continué à développer cet ensemble de fonctionnalités pour aider à contextualiser le changement par rapport aux incidents afin d'aider nos utilisateurs à acquérir une connaissance de la situation lorsqu'ils sont au cœur de l'incident. Lorsque vous pensez à la façon dont 70 % de tous les incidents avoir un certain type de changement comme cause fondamentale du problème, garder une trace de tous les événements de changement et du contexte qui les entoure (le qui, quoi et quand du changement) facilite le choix du bon prochain changement à apporter.

L’évolution suivante a été l’introduction Corrélation des changements , qui montre aux intervenants quels événements de changement récents sont les plus pertinents pour un incident, ce qui leur permet de gagner un temps précieux lors du tri et de l'identification des causes profondes potentielles. Depuis août, les événements de changement et la corrélation des changements sont désormais disponibles sur notre application mobile afin que les intervenants puissent trier rapidement les incidents et réduire le temps de résolution où qu'ils se trouvent.

Il peut souvent être difficile d'identifier véritablement la cause profonde. Les systèmes étant devenus plus complexes et plus imbriqués, il est de plus en plus rare de mettre en évidence une seule cause profonde. En fait, la « cause profonde » ne signifie pas nécessairement que la « racine » avait un problème, mais plutôt que la complexité de cet état particulier a causé un problème. L'ensemble du processus consiste à déterminer lequel des nombreux threads potentiels doit être examiné, puis à creuser plus profondément pour voir ce qu'il faut corriger en amont pour résoudre l'incident. Les intervenants peuvent désormais tirer parti de Origine probable , une fonctionnalité sur la page Détails de l'incident avec une liste de points d'origine probables de l'incident en cours que l'intervenant peut utiliser pour savoir où chercher en premier. Associées aux modifications récentes et aux incidents passés/liés, l'origine probable et d'autres fonctionnalités de cette catégorie sont conçues pour fournir des conseils utiles pour guider les intervenants vers une résolution plus rapide afin qu'ils puissent retourner à leur travail quotidien (ou se rendormir).

Sur PagerDuty Automatisation des processus et plus d'automatisation partout

De nombreux dirigeants sont enthousiasmés par l'idée de résoudre eux-mêmes les incidents grâce à l'automatisation. Mais lorsqu'on leur demande spécifiquement quels types d'incidents ils aimeraient résoudre eux-mêmes, on obtient rapidement la réponse préférée de tous les ingénieurs : « ça dépend ». Ces dépendances incluent la maturité globale de l'équipe dans l'adoption de l'automatisation opérationnelle, la compréhension d'un problème et de sa résolution, l'impact d'un processus automatisé à exécuter et la maturité d'un service logiciel lui-même. PagerDuty prend en charge à la fois la résolution automatisée déclenchée par l'homme pour les incidents nécessitant encore une évaluation humaine et l'automatisation déclenchée par le système pour les circonstances bien comprises.

Annoncé pour la première fois au Sommet PagerDuty , Actions d'automatisation , , qui vient d'être mis à disposition du public, connecte l'automatisation du diagnostic et de la correction au flux de travail de réponse aux incidents de PagerDuty . Il offre aux ingénieurs une expérience utilisateur leur permettant de gérer et de publier l'automatisation à destination des premiers intervenants, déléguant en toute sécurité l'automatisation qui nécessitait auparavant une escalade à des ingénieurs plus spécialisés. Désormais, pour les situations qui nécessitent un jugement humain, les intervenants peuvent exécuter en toute sécurité des commandes de diagnostic à faible impact sur les services impliqués dans un incident pour aider à déterminer la cause probable. Ils peuvent également exécuter des actions correctives lorsque les ingénieurs estiment qu'il est approprié de publier cette automatisation de réparation à leurs premiers intervenants.

Ce travail s'est déroulé parallèlement au développement de Orchestration d'événements . Event Orchestration est un puissant moteur de décision qui introduit une logique personnalisée et des règles imbriquées pour déclencher des actions, notamment des actions d'automatisation utilisant des webhooks, ouvrant la voie à des règles moins nombreuses et plus complexes pour guider l'enrichissement, la modification et le routage des événements à grande échelle afin de conduire à la meilleure action suivante. Nous recevons déjà de très bons retours de clients qui souhaitent l'utiliser avant et après la mobilisation humaine pour atténuer le bruit avant qu'il ne devienne une interruption et pour acheminer ou déclencher des actions afin de contribuer à la résolution une fois qu'une intervention humaine est requise. Au début de l'année prochaine, il sera possible de connecter Event Orchestration aux actions d'automatisation pour déclencher des diagnostics introspectifs, et même une automatisation corrective pour les problèmes bien compris.

La différence PagerDuty

Nous avons parcouru un long chemin depuis le lancement d'Event Intelligence il y a quelques années avec des fonctionnalités de réduction du bruit. La solution AIOps de PagerDuty propose une offre véritablement différenciée avec des fonctionnalités complètes de bout en bout, de l'ingestion d'événements à la résolution d'incidents, grâce à la réduction du bruit intégrée, à l'analyse des causes profondes et à l'automatisation dans une plate-forme unique et indépendante du domaine.

J'espère que ce blog a mis en évidence certaines des façons dont nous avons continuellement investi pour que PagerDuty puisse aider à résoudre les problèmes d'AIOps dès maintenant :

  • Nous aidons les équipes à prendre de meilleures décisions basées sur les données car notre solution est facile à mettre en œuvre, avec un délai de rentabilisation rapide, aucun scientifique de données n'est requis. Nous y parvenons en fournissant des informations approfondies sur les services, les intervenants, les incidents, la surveillance, etc., permettant aux équipes de prendre de meilleures décisions opérationnelles sans avoir à être des experts de la plateforme. Les équipes peuvent immédiatement bénéficier des algorithmes de ML et de science des données que nous avons développés avec notre ensemble de données unique pour bénéficier d'un bruit réduit, d'une recherche plus rapide des causes profondes et d'une plus grande automatisation.
  • Nous démocratisons la plateforme pour fournir des opérations en libre-service avec une configuration décentralisée adaptée aux équipes distribuées et aux modèles d'exploitation hybrides. Qu'il s'agisse de fournir aux équipes informatiques centrales un bouton simple pour déclencher des diagnostics et une correction automatique ou aux équipes DevOps « You Build It, You Own It » un moyen simplifié de résoudre les causes profondes des problèmes, l'offre AIOps de PagerDuty s'intègre parfaitement dans n'importe quelle pile technologique avec plus de 600 partenaires d'intégration.
  • Nous évoluons vers la meilleure action possible tout au long du cycle de réponse aux incidents, avec une automatisation intégrée. Nous sommes conçus pour les travaux critiques, qu'il s'agisse d'orchestration d'événements pour réduire le traitement manuel en fournissant moins de règles imbriquées plus intelligentes, en faisant apparaître les causes probables et les modifications pertinentes en fonction des détails de l'incident, ou en tirant parti de Automatisation des processus PagerDuty pour créer moins d’escalades et automatiser la résolution des incidents.

Creusez plus profondément

En apprendre davantage sur PagerDuty AIOps et comment tout cela s'articule, je vous encourage à Regardez ce webinaire . Ou, si vous recherchez une approche plus pratique, vous pouvez suivre notre visite du produit .