Blog

Supprimer le bruit pour guérir la fatigue liée aux alertes

par Vivian Au 28 octobre 2013 | 4 minutes de lecture

Arup PagerDuty Plus tôt ce mois-ci à Conférence mondiale Nagios Amérique du Nord Arup Chakrabarti, responsable de l'équipe d'ingénierie des opérations chez PagerDuty , a donné une conférence sur « Ce que vous devez surveiller et signaler dans un système de production » et a expliqué comment filtrer les mesures utiles pour des alertes exploitables. Au cas où vous l'auriez manqué lors de la conférence, nous voulions partager quelques-unes de ses meilleures pratiques en matière de gestion des alertes informatiques.

Pourquoi y a-t-il un problème d’alerte ?

L'informatique devient de moins en moins chère et l'automatisation est plus facile, ce qui rend la réception d'alertes sur à peu près tout simple, mais leur gestion difficile. Si vous vous abonnez à Google Alerts pour surveiller n'importe quel sujet, vous saurez de quoi je parle. Au début, c'est génial de recevoir des alertes par e-mail sur des « chiots mignons » car elles vous font sourire. Cependant, le contenu n'est pas tout à fait ce que vous voulez, au moment où vous le voulez. Au lieu de dépendre de ces alertes pour vous apporter de bonnes informations, cela devient juste du bruit.

Il en va de même pour la surveillance et les alertes des applications informatiques. Avec la baisse du coût de la collecte de données, les applications de surveillance collectent désormais de plus en plus de données. C'est une bonne chose pour l'analyse, mais le problème réside dans le fait que les alertes augmentent au même rythme exponentiel. Les gens deviennent insensibles aux alertes, ce qui les rend moins efficaces. Le timing et la pertinence sont essentiels à la gestion des alertes. Pour éliminer le bruit, désactivez les alertes qui n'ont pas d'importance.

Alertes de disponibilité : quelles alertes désactiver

Au début, il peut sembler intimidant de déterminer quelles alertes désactiver, car on a peur de passer à côté d'alertes qui signalent un problème important. Une bonne mesure de l'importance des alertes informatiques est l'effet sur vos clients, ou « alertes de disponibilité ». Pour la surveillance de sites Web, si vous êtes un détaillant en ligne et que la page de paiement du panier d'achat est défectueuse, il s'agit d'un problème qui doit être résolu immédiatement. Cependant, s'il existe un problème d'équilibrage de charge qui n'affecte pas la navigation ou l'expérience d'achat du client, il peut ne pas justifier une alerte. Pour les détaillants en ligne, leurs alertes doivent porter sur ce qui affecte la disponibilité des actions souhaitées par les clients sur le site Web.

IT alerts L'analyse de l'historique des alertes est également utile pour déterminer la gravité des incidents. Les clients de PagerDuty peuvent déterminer le nombre d'alertes qu'ils ont reçues chaque semaine et, pour chaque alerte, ils peuvent se demander : une action a-t-elle été entreprise ? Un client a-t-il été affecté ? Est-ce que j'avais le contrôle total de la situation ? Au début, les alertes de faible intensité à 3 heures du matin obligeront un ingénieur à reconnaître l'incident, à valider qu'il n'est pas critique, à retourner au lit et à résoudre la cause première le lendemain. En étiquetant les alertes comme étant de gravité 1, 2, 3, etc. dans les outils de surveillance ou en définissant des seuils, il peut éventuellement désactiver les alertes non critiques au milieu de la nuit et les traiter le matin. Cela laisse de la place pour que seules les alertes de gravité élevée soient envoyées via PagerDuty et contribuera à remédier à la lassitude des alertes.

Réveillez-vous quand vous en avez besoin

Puppy Si des problèmes de gravité 3 et plus surviennent et ne risquent pas d'affecter les clients, l'ingénieur doit-il vraiment se réveiller pendant la nuit pour en prendre connaissance ? Probablement pas. Ces alertes doivent être regroupées et traitées le lendemain. En analysant les schémas et la gravité des incidents, les alertes peuvent être une solution puissante pour maintenir un sentiment d'urgence face aux gros problèmes et pour réduire le temps moyen de résolution (MTTR). Tout comme les adorables chiots Bichon Frisé, le fait de pouvoir dormir pendant un incident de faible gravité pendant une permanence peut faire sourire les ingénieurs.

Conférence mondiale Nagios NA 2013 : Ce que vous devez surveiller et signaler dans un système de production (vidéo)