Blog

Accédez à la racine (analyse des causes) en 5 étapes faciles

par Université PagerDuty 10 août 2022 | 5 minutes de lecture

Quelle est l'une des premières choses que vous devez faire lorsque l'on vous attribue un incident via PagerDuty? Si vous avez immédiatement pensé « Reconnaître ! », vous n'avez pas tort, mais après cela, il s'agit de résoudre le problème le plus rapidement possible. sans douleur La première étape de la résolution consiste à rechercher la cause de l'incident afin de pouvoir facilement mettre en place une solution.

Sur la plateforme PagerDuty , l'analyse des causes profondes* fait référence à un ensemble de fonctionnalités qui visent à vous fournir, en tant qu'intervenant, autant de contexte et d'informations exploitables que possible. En faisant apparaître les incidents passés et connexes, ainsi que des informations sur la fréquence des incidents, les intervenants disposeront d'outils pour acquérir rapidement la connaissance de la situation dont ils ont besoin pour déterminer la cause profonde probable et accélérer le triage, et finalement résoudre plus rapidement le problème. Les points d'origine probables basés sur des données historiques seront également mis en évidence pour aider à ajouter du contexte.

Voici les cinq endroits sur la page des détails de l'incident qui vous aideront à enquêter sur les causes profondes potentielles :

  1. Incident aberrant
    Lors de la première ouverture d'un incident, recherchez le Incident aberrant Étiquette de classification. Cette étiquette est située directement sous le nom de l'incident et aura une étiquette de classification « Fréquent », « Rare » ou « Anomalie ». En fonction de cette étiquette de classification, vous pouvez rapidement évaluer si cet incident s'est déjà produit et comment vous pourriez y répondre en fonction des expériences passées. Passez la souris sur l'étiquette pour lire leurs définitions. Outlier Incident classification label of "Frequent," "Rare," or "Anomaly."
  2. Incidents passés
    Une fois que vous avez déterminé la fréquence à laquelle l'incident s'est produit sur le service, accédez à la Incidents passés Cliquez sur l'onglet plus bas sur la page. Une carte thermique s'affiche pour montrer quand des incidents précédents comme cet incident ouvert se sont produits au cours des six derniers mois. Recherchez des tendances dans les couleurs (les couleurs plus foncées correspondent à une concentration plus élevée d'incidents) ou passez la souris sur les couleurs de la carte thermique pour voir plus de détails sur les incidents concernés. En dessous se trouvent des détails sur les 5 principaux incidents passés comme l'incident ouvert (s'il y en a !) ainsi que des informations sur le moment où ils se sont produits et la dernière personne à avoir modifié l'incident. Remarque : cette personne serait une excellente ressource si vous souhaitez lui demander ce qu'elle a fait/voir ses notes sur l'incident ! Pour ouvrir la page des détails de l'incident pour tout incident passé, cliquez sur le titre hypertexte. Past Incidents heat map
  3. Incidents connexes
    Une autre source rapide d'informations est le Incidents connexes Onglet. Ici, vous voyez s'il existe actuellement des incidents en cours qui pourraient être liés à votre problème dans tous les services, contrairement aux incidents passés, qui n'affichent que les incidents similaires sur le même service. Comprendre la portée d'un incident dans l'entreprise (est-ce isolé ou fait-il partie d'un problème plus vaste ?) peut vous aider à comprendre l'impact et à identifier rapidement avec qui vous devez collaborer pour résoudre le problème. View of Related Incidents tab
  4. Origines probables
    Démarrez vos efforts de triage avec le Origines probables Widget situé sur la page des détails de l'incident. Ce widget calculera le pourcentage d'origine probable en fonction des données historiques, comme si l'incident s'est produit directement avant ou après un événement similaire à l'incident ouvert actuel. Screenshot of Probable Origins widget
  5. Corrélation des changements
    Enfin, cela peut considérablement accélérer la résolution lorsque vous êtes au courant de tout changement apporté à votre infrastructure ou à votre code qui pourrait avoir provoqué l’incident. Corrélation des changements , affiché sous Modifications récentes sur la page de détails de l'incident, affiche les trois événements de modification récents les plus pertinents pour un incident en fonction du temps, des services associés ou de l'apprentissage automatique de PagerDuty. Les événements de modification récents indiqueront pourquoi la plateforme a fait apparaître l'événement, vous aidant ainsi à affiner facilement les causes potentielles. Screenshot of Change Correlation display

Vérification des connaissances ! Vrai ou faux : Le L'onglet Incidents passés affiche les incidents résolus du même service, tandis que les incidents associés n'afficheront que les incidents ouverts sur d'autres services. (voir la réponse en bas de la page)

Comment avez-vous réussi ? N'oubliez pas qu'il s'agit de cinq endroits où vous pouvez effectuer des recherches pour obtenir rapidement un contexte et accélérer vos efforts de triage.

Pour résoudre les incidents plus rapidement et réduire encore les temps d'arrêt, combinez cet ensemble de fonctionnalités d'analyse des causes profondes avec les capacités de réduction du bruit et d'orchestration des événements. Si vous avez besoin d'une remise à niveau, suivez les cours Event Intelligence de PagerDuty University, puis montrez votre capacité à travailler plus intelligemment, et non plus durement, en obtenant la certification Event Intelligence !

Ressources pour les prochaines étapes :

Cours sur l'intelligence événementielle peut être trouvé sur le portail d'apprentissage en ligne de l'Université PagerDuty .

  • Réduction de bruit
  • Orchestration d'événements
  • Analyse de la cause originelle

Des informations sur l'examen de certification Event Intelligence sont disponibles sur cette page sous la rubrique « Certification de produits spécialisés ». Pour célébrer le lancement de cette nouvelle série, nous vous offrons une inscription gratuite à l'examen pendant 30 jours, alors inscrivez-vous dès maintenant !

*Remarque : nous désignons cette catégorie de fonctionnalités par le terme « Analyse des causes profondes », mais PagerDuty ne permet pas de prédire ou d'identifier les causes profondes. Nos fonctionnalités aident plutôt à créer un contexte autour des incidents pour accélérer leur résolution. Il convient également de noter que le secteur a adopté le terme « cause probable » ou « prochaine » plutôt que de suggérer qu'il existe une seule véritable « cause profonde ».

Réponse de la vérification des connaissances : Faux. Bien que l'affirmation selon laquelle les incidents passés affichent uniquement les incidents résolus du passé qui se trouvaient sur le même service soit correcte, les incidents associés examineront d'autres incidents actifs (ouverts et récemment résolus) sur TOUS les services (y compris le service sur lequel se trouve votre incident actuel) pour déterminer si des incidents sont liés à votre incident actuel.