Formation au regroupement d'alertes intelligentes
Les incidents complexes sont à la fois épuisants et courants. Dans ce cas, les incidents que je qualifie de « complexes » sont des incidents qui impliquent plusieurs notifications disparates dans votre plateforme de gestion des alertes. Peut-être ces incidents sont-ils logiquement séparés parce que les systèmes ou services sous-jacents étaient considérés comme moins couplés qu’ils ne l’étaient en réalité. Ou peut-être que le comportement sur lequel les notifications attirent l’attention a plusieurs causes sous-jacentes potentielles, ce qui rend difficile l’association des incidents.
Notre comportement par défaut
Le comportement par défaut consiste à regrouper les titres qui sont textuellement similaires. Il est important de comprendre qu'il existe une différence entre « textuellement similaire » et la façon dont notre esprit pourrait regrouper logiquement les types d'alertes courants. Par exemple, si vous avez des messages tels que « l'utilisation de la mémoire sur l'hôte est élevée (> 90 %)” et “l'utilisation de la mémoire sur l'hôte est élevée (> 95 %)” ceux-ci seraient probablement regroupés car ils ne diffèrent que d'un seul « mot » (le centile souligné). D'un autre côté, disons que vous avez des messages d'alerte indiquant « utilisation de la mémoire élevée (>X%) sur le serveur $NAME dans la région $REGION ». Ces messages se liraient de la même manière dans notre esprit car ils suivent un modèle, mais ils contiennent trop de mots différents et distincts pour être correctement regroupés par défaut par Intelligent Alert Grouping. Dans le prochain article, je couvrirai en détail comment créer des titres que Intelligent Alert Grouping reconnaît plus facilement et avec plus de succès par défaut - le but de ce paragraphe est simplement de vous aider à connaître votre point de départ.
Améliorer la précision grâce à la fusion
L'objectif de la valeur par défaut est de vous donner un point de départ. Une fois que vous aurez commencé à utiliser le regroupement d'alertes intelligent régulièrement, il est probable que vous deviez modifier le comportement de vos propres environnements. La première chose à retenir est que l'apprentissage automatique s'entraîne uniquement sur le champ de titre. Dans notre prochain article, je décrirai plus précisément comment améliorer la façon dont vous intitulez les incidents à utiliser avec cette fonctionnalité. La prochaine chose à savoir est que le regroupement d'alertes intelligent utilise la fusion pour renforcer ou réapprendre les modèles. Pour éviter une correspondance de modèle trop agressive, le regroupement d'alertes intelligent modifiera son comportement après 5 à 10 fusions.
Comment fusionner des incidents
Il existe plusieurs façons de fusionner des incidents. La première est que lorsque vous sélectionnez un ou plusieurs incidents dans l'interface utilisateur de PagerDuty , vous verrez apparaître un bouton « Fusionner les incidents ».
Ceci affiche une liste des incidents actifs :
J'ai sélectionné la case supérieure à côté de « Statut » pour sélectionner tous les éléments à fusionner :
Une fois les incidents sélectionnés, une boîte de dialogue apparaît et vous demande de sélectionner l'incident dans lequel vous souhaitez fusionner. Dans ce cas, j'ai sélectionné le plus récent :
Pour plus de clarté, j'ai modifié le titre de l'incident pour montrer que les incidents ont été fusionnés. Le résultat ressemble à ceci :
Il est important de savoir que lorsque des incidents sont fusionnés, l'incident de niveau supérieur reste non résolu et les incidents fusionnés sont tous résolus, ce qui ressemble à ceci :
L’autre façon de fusionner des incidents consiste à ouvrir l’incident et à sélectionner l’option « Fusionner avec un autre incident » dans la liste déroulante « Plus » :
Lorsque vous utilisez cette méthode, les incidents ne seront pas pré-remplis dans une liste déroulante, vous devrez donc connaître le numéro de l'incident et cliquer sur « Rechercher un incident » :
Pour plus d'informations sur la fusion des incidents, veuillez vous référer à notre Documentation de support sur ce sujet Il est important de noter que vous ne pouvez pas annuler la fusion des incidents pour le moment : fusionnez avec précaution !
Si les alertes doivent être séparées
Il peut arriver que vous ayez besoin de déplacer des alertes provenant d'incidents qui ont été fusionnés de manière incorrecte, soit par regroupement, soit par le processus manuel ci-dessus. La principale contrainte à prendre en compte ici est que vous ne pouvez pas déplacer les alertes vers leur(s) incident(s) source(s) d'origine. La raison en est que les incidents sont résolus (pour les fermer) lorsqu'ils sont fusionnés, et vous ne pouvez pas déplacer les alertes vers un incident résolu.
Au lieu de cela, vous devez créer un nouvel incident et y déplacer les alertes souhaitées, car, encore une fois, vous ne pouvez pas déplacer les alertes vers un incident résolu. Les utilisateurs peuvent créer manuellement un nouvel incident à l'aide du bouton bleu « Nouvel incident » dans l'interface utilisateur. Pour plus d'informations sur la façon de procéder, veuillez consulter notre Documentation d'assistance sur la création/gestion des incidents .
Principaux points à retenir et orientations à suivre
Ce post était très long ! Ce qu'il faut retenir :
- Le regroupement d'alertes intelligent utilise le champ de titre de l'incident pour déterminer les incidents à regrouper
- La fusion des incidents qui doivent être regroupés vous permet de modifier manuellement le comportement de correspondance
- Il faut 5 à 10 fusions pour que le regroupement d'alertes intelligent commence à modifier son comportement par défaut
- Soyez prudent lors de la fusion, car vous ne pouvez pas annuler directement la fusion des incidents. Vous devrez créer un nouvel incident et y déplacer les alertes si nécessaire.
Dans cet article, j'ai mentionné que le regroupement d'alertes intelligent utilise le champ de titre pour déterminer quels incidents sont fusionnés ou distincts. Dans notre prochain article, j'expliquerai comment vous pouvez en tirer parti lorsque vous créez vos titres d'incident.
Tous les articles de cette série utiliseront le Étiquette de la série ei-architecture , assurez-vous de jeter un œil pour lire également les autres articles de cette série.