Parlons de la fatigue d'alerte
Il s'agit du premier article de notre série sur la façon dont vous pouvez utiliser les données pour améliorer vos opérations informatiques. Le deuxième article porte sur bonnes pratiques pour rendre vos mesures significatives dans PagerDuty.
La fatigue liée aux alertes est un problème difficile à résoudre, mais vous pouvez commencer à prendre certaines mesures dès aujourd'hui pour y remédier. En utilisant les données relatives à vos alertes, vous pouvez investir sérieusement dans le nettoyage de vos systèmes de surveillance et la prévention des alertes non exploitables.
Pour vous aider, nous avons compilé un processus en 7 étapes pour lutter contre la fatigue des alertes.
Réduire la fatigue d'alerte en 7 étapes
1. Engagez-vous à agir
Nettoyer vos systèmes de surveillance est une tâche difficile et il est facile de devenir insensible aux niveaux d'alerte élevés. Mais la première étape consiste à décider de faire quelque chose à ce sujet. Jetez un œil rapide à vos données. Combien d'alertes recevez-vous en dehors des heures de travail et quel est l'impact de celles-ci sur l'équipe ?
Ensuite, en équipe, consacrez du temps à nettoyer vos flux de travail d'alerte. Etsy a désigné un « Semaine du piratage informatique » pour s'attaquer à leur gros problème d'hygiène de surveillance, mais réserver quelques heures par semaine ou un jour par mois pourrait également fonctionner.
2. Coupez les alertes qui ne sont pas exploitables et ajustez les seuils
Commencez par examiner vos alertes les plus courantes (Astuce : vous pouvez explorer les incidents dans le nouveau module de PagerDuty). Rapports avancés ). Rassemblez les personnes qui étaient de garde récemment et, pour chaque alerte, déterminez si elle était exploitable.
Une fois que vous avez trouvé des alertes non exploitables, supprimez-les.
Il est courant de surveiller et d'alerter sur l'utilisation du processeur et de la mémoire, car ce sont des indicateurs qui indiquent qu'il y a un problème. Cependant, les mesures en elles-mêmes ne sont PAS exploitables, car elles ne donnent pas d'informations spécifiques sur ce qui ne va pas. Etsy a arrêté de surveiller ces mesures et s'est plutôt concentré sur des contrôles qui donnaient des informations plus spécifiques et exploitables.
Vous devrez peut-être également ajuster les seuils de vos contrôles. Dan Slimmon d'Exosite a partagé une excellente conférence « Détecteurs de fumée et alarmes de voiture » , qui détaille comment deux concepts issus des tests médicaux peuvent vous aider à alerter uniquement lorsqu'il y a un problème. Ces concepts sont la sensibilité et la spécificité, et ensemble, ils vous donnent une valeur prédictive positive (VPP) - la probabilité qu'il y ait réellement un problème lorsqu'une alerte se déclenche. La conférence partage également des stratégies pour améliorer votre VPP en utilisant l'hystérésis (en examinant les valeurs historiques en plus des valeurs actuelles), ainsi que d'autres techniques.
3. Gardez les incidents non graves pour le matin
Bien que toutes les alertes soient importantes, certaines peuvent ne pas être urgentes. Ces problèmes non urgents ne devraient pas vous réveiller, vous ou votre équipe, au milieu de la nuit. Pensez à créer des flux de travail distincts pour les incidents non graves afin qu'ils n'interrompent pas votre sommeil ou votre journée de travail. Dans PagerDuty, n'oubliez pas de désactiver « Incident Ack Timeout » et « Incident Auto-Resolution » sur les services de faible gravité.
4. Consolider les alertes associées
En cas de problème, vous pouvez recevoir plusieurs alertes liées au même problème. Tirez parti des dépendances de surveillance si vous pouvez les définir et exploitez nos meilleures pratiques pour la consolidation des alertes dans PagerDuty:
- Utilisez un clé de l'incident pour indiquer à PagerDuty que certains événements sont liés. Par exemple, si plusieurs de vos serveurs tombent en panne, chacun d'eux peut générer une notification à PagerDuty. Cependant, si ces notifications ont toutes la même clé d'incident, nous regrouperons les notifications en une seule alerte qui vous indique que 30 serveurs sont en panne.
- En cas de tempête d'alertes, PagerDuty regroupe également les alertes déclenchées après le premier incident. Par exemple, si 10 incidents sont déclenchés en l'espace d'une minute, après votre première alerte, vous recevrez une seule alerte agrégée.
5. Donnez aux alertes des noms et des descriptions pertinents
Rien n’est plus désagréable que de recevoir une alerte indiquant que quelque chose est cassé sans informations pour vous aider à évaluer la gravité du problème et la marche à suivre.
- Donnez à vos alertes des noms descriptifs. Si vous indiquez une mesure (par exemple, l'espace disque utilisé), assurez-vous qu'il y a suffisamment de contexte autour du nombre pour permettre à quelqu'un de le mettre en perspective. L'espace disque est-il rempli à 80 % ou à 99 % ?
- Incluez des informations de dépannage pertinentes dans la description de l'alerte, comme un lien vers la documentation existante ou les manuels d'exécution qui aideront l'équipe à approfondir le sujet. Dans PagerDuty, vous pouvez ajouter un URL du client à l'incident, ou inclure un lien vers le livre d'exécution dans la description du service.
6. Assurez-vous que les bonnes personnes reçoivent les alertes
Lorsque les équipes commencent à surveiller, nous les voyons généralement envoyer toutes leurs alertes à tout le monde. Personne ne souhaite recevoir d'alertes qui ne sont pas pertinentes. Par conséquent, si vous avez différentes équipes responsables de certaines parties de votre infrastructure, utilisez les stratégies d'escalade dans PagerDuty pour diriger les alertes de manière appropriée.
7. Tenez-le à jour avec des évaluations régulières
Ne laissez pas vos efforts de nettoyage être vains. Créez un processus hebdomadaire pour examiner les alertes. Etsy a créé un processus d'examen hebdomadaire sympa qu'ils appellent « Opsweekly » (Dépôt Github ici ), mais nous avons entendu parler d’autres entreprises qui utilisent une feuille de calcul lors des examens hebdomadaires.
Pour éviter que la lassitude liée aux alertes ne devienne la nouvelle norme, définissez des indicateurs quantifiables pour l'expérience d'astreinte. Si vous atteignez ces plafonds, il est temps d'agir, que ce soit en surveillant le nettoyage ou en prenant un peu de temps libre. Chez PagerDuty, nous examinons le nombre d'alertes que nous recevons chaque semaine, et si ce nombre est supérieur à 15 pour une équipe d'astreinte, nous effectuons un compte-rendu pour examiner les alertes.
Plus important encore, assumez la responsabilité de surveiller l'hygiène en équipe. Si vous recevez une alerte qui n'est pas exploitable, même une seule fois, faites en sorte que personne ne soit plus jamais réveillé par cette alerte.
Ressources additionnelles:
- Lindsay Holmwood, Application des techniques de gestion des alarmes cardiaques à votre service de garde
- Arup Chakrabarti – Que surveiller et sur quoi alerter dans un système de production
- Dan Slimmon, détecteurs de fumée et alarmes de voiture
- Avleen Vig – Nagios chez Etsy : Comment une place de marché artisanale surveille avec Nagios