Blog

3 étapes simples pour supprimer le bruit des alertes

par David Cooper 17 avril 2017 | 3 minutes de lecture

Pour beaucoup de nos clients, réduire le bruit d'alerte est une tâche difficile, mais gratifiante. Nettoyer vos alertes signifie moins de pages de fin de soirée et des membres d'équipe plus heureux. Mais cette tâche peut ressembler beaucoup à un rasage de yak si vous ne disposez pas des outils appropriés.

Dans cet article, je vais vous présenter un workflow efficace qui vous permettra d'identifier ces alertes bruyantes et non exploitables et de faire quelque chose à leur sujet. Vous pourrez facilement contrôler ce qui notifie votre équipe, sans avoir à vous soucier des configurations d'outils en amont.

1. Obtenez une vue globale et identifiez les alertes bruyantes

Tout d'abord, vous avez besoin d'une vue globale et en direct de votre infrastructure d'alerte. Pour comprendre véritablement les dépendances des services, le comportement des alertes, ainsi que l'impact d'une panne, vous avez besoin d'une visualisation dans laquelle vous pouvez facilement comprendre des milliers de points de données.

Notre Application de santé des infrastructures , qui vit dans notre Console de commande des opérations , fait exactement cela. Considérez-le comme une chronologie ultime, où vous pouvez repérer ces alertes bruyantes et redondantes qui avertissent continuellement votre équipe.

operations command console

 

2. En savoir plus sur ces alertes

D'où viennent-ils ? Quelle est leur gravité ?

Après avoir identifié une source bruyante, vous pouvez obtenir plus d'informations à ce sujet en plongeant dans notre nouvelle Tableau des alertes . Ici, vous pouvez rechercher, trier et filtrer les alertes sur votre entier infrastructure. Ces alertes ont également toutes été automatiquement normalisées via le API d'événements v2 , ce qui permet de trouver très facilement toutes les informations nécessaires sans avoir à mémoriser des schémas auprès de différents fournisseurs. Dans mon exemple, je peux voir que les alertes provenant de la source prodsql-a toutes ont une gravité = Info. Ce sont des alertes informatives et elles ne devraient vraiment pas alerter mon équipe.

alert tables

 

3. Agissez et réprimez

Parce que j'ai repéré des alertes d'information qui ne devraient pas alerter mon équipe, je vais utiliser PagerDuty Moteur de règles d'événements pour supprimer ces alertes d'information. Les règles d'événement dans PagerDuty s'étendent sur plusieurs intégrations, ce qui est formidable car je n'ai pas besoin de modifier les configurations de mes outils de surveillance en amont, ce qui me fait gagner du temps.

create events rules

Voilà, j'ai identifié avec succès une alerte non exploitable et créé une règle d'événement pour le supprimer. Désormais, ces types d'alertes ne m'alerteront plus, mais toutes ces données existent toujours et sont visualisées dans PagerDuty, ce qui me permet d'avoir à tout moment une vue véritablement globale de mon infrastructure.

Trouver le bon équilibre entre suppression d'alerte est autant un art qu'une science. Cependant, plus vous disposez d'informations et moins votre infrastructure d'alerte est obscure, plus vous avez de chances de vous concentrer sur ce qui compte, de manquer moins d'éléments importants et, au final, de réussir. Chez PagerDuty, nous vous fournissons les solutions nécessaires pour comprendre, apprendre et agir intelligemment sur les événements d'infrastructure. Nous sommes fiers de permettre à d'incroyables équipes de développement et d'exploitation de gérer leurs services en production avec facilité.

Pour plus d'informations sur ces solutions, consultez notre dernière publication de fonctionnalités conçues pour les développeurs .