Blog

Comment éviter la surcharge d'alertes

par Christophe Tozzi 22 juin 2017 | 5 minutes de lecture

À l'ère du Big Data, où l'IoT est omniprésent, connecté au cloud et où nous sommes confrontés à un paradoxe majeur : il est désormais plus facile que jamais de collecter de grandes quantités de données, mais plus nous collectons de données, plus il devient difficile de surveiller efficacement les situations.

Ce problème est similaire à ce que les psychologues appellent « surcharge d'information « — le phénomène qui fait qu’une personne ne parvient pas à prendre des décisions efficaces parce qu’elle a trop d’informations à gérer.

Dans certains contextes, la surcharge d'informations est inévitable. Si vous recevez des centaines d'e-mails chaque jour, vous ne pouvez pas faire grand-chose pour éviter de vous sentir submergé par eux, car vous n'avez pas forcément beaucoup de contrôle sur qui vous envoie un e-mail. Pourtant, en ce qui concerne l'infrastructure du centre de données, la surcharge d'informations n'est pas inévitable. C'est entièrement à vous de décider dans quelle mesure et à quel niveau quels types de données collecter Si vous constatez que vous avez trop de données à analyser de manière réalisable, cela signifie que vous devez repenser vos pratiques de surveillance et de filtrage des alertes.

Bien entendu, comme nous l'avons déjà noté, de nombreux administrateurs peuvent se retrouver confrontés à une bataille difficile lorsqu'il s'agit d'empêcher la surcharge d'informations dans le centre de données. Cela est dû à l'explosion du cloud et à la l'avènement de l'IoT — et toutes les données peu coûteuses qui accompagnent ces tendances — ont rendu plus facile que jamais la collecte de toutes sortes d’informations sur vos serveurs et vos applications.

Ce qui est essentiel et ce qui ne l'est pas

C'est pourquoi il est désormais plus important que jamais de déterminer les types de surveillance dont vous avez réellement besoin, les notifications à configurer et les éléments dont vous pouvez vous passer. Ce n'est pas parce qu'il est facile et peu coûteux d'ajouter une surveillance supplémentaire à votre infrastructure que vous devez nécessairement le faire.

Si vous ajoutez une surveillance à l'aveugle, vous vous tirez une balle dans le pied en collectant plus de données que vous ne pourrez jamais traiter ou exploiter efficacement. Cela se traduit par une fatigue pour votre personnel d'astreinte, une perte de temps consacrée à des problèmes de faible priorité et fait que ces derniers détournent l'attention des problèmes critiques.

La réussite de la gestion des alertes dépend bien entendu de vos besoins particuliers. Il n'existe pas d'approche universelle. En général, il est judicieux d'essayer de se limiter au déploiement de capteurs centrés sur les types d'informations suivants :

  • Incidents de sécurité : Vous souhaiterez être alerté de choses telles que des tentatives de connexion infructueuses répétées ou des analyses de ports afin de pouvoir garder une longueur d'avance sur les menaces.
  • Panne de l'hôte : Si un serveur physique ou virtuel ne parvient pas à démarrer ou tombe en panne soudainement, c'est un événement important à connaître.
  • Épuisement des ressources : Vous ne voulez pas attendre d'être à court de stockage de données ou de bande passante réseau pour découvrir que vous devez en ajouter davantage. Utilisez des capteurs pour vous avertir lorsque l'utilisation commence à approcher le maximum disponible et reste à ce niveau pendant une courte période.

Là encore, votre kilométrage peut varier. Mais la liste ci-dessus fournit les principaux types d'événements essentiels dont vous devez être informé.

Surveillance et alarmes

Il existe d'autres types de données qu'il est utile de surveiller, mais qui ne nécessitent pas forcément d'alarme. Il s'agit notamment des éléments suivants :

  • L'utilisation du processeur: Cela peut varier considérablement au cours de la journée en raison d'un certain nombre de facteurs. Vous souhaitez être informé des tendances générales, mais vous n'avez pas besoin d'une alarme pour vous avertir à chaque fois que l'utilisation du processeur a augmenté.
  • Charge du réseau :   Cela relève de la même catégorie que l'utilisation du processeur. La charge du réseau varie naturellement. Vous devez connaître les tendances de votre centre de données afin de pouvoir planifier une expansion à long terme. Mais il n'est pas nécessaire de déclencher des alarmes simplement parce qu'un grand nombre d'appareils se trouvent sur le réseau à un moment donné, à moins, bien sûr, que la situation soit extrême et durable.
  • Conditions environnementales : Vous devez surveiller des éléments tels que la température du centre de données. Mais ce type d'incident peut généralement être géré de manière automatisée. Au lieu de demander à des capteurs de vous envoyer une alerte lorsque les températures grimpent, utilisez un logiciel qui active les unités de refroidissement à votre place. Vous n'avez besoin d'une alerte que si les températures approchent d'un niveau critique et y restent.

Il est tout à fait possible qu'un problème déclenché par un capteur comme la longueur de la file d'attente du processeur puisse facilement être couvert indirectement avec le point de données le plus pertinent tel que l'utilisation du processeur.

Les bonnes données pour les bonnes personnes

Une autre façon de vous assurer que vous obtenez des résultats optimaux de vos capteurs est de vous assurer que les bonnes notifications d'incident sont envoyées aux bonnes personnes.

Des plateformes comme PagerDuty vous permettent de spécifier un ordre de commande pour gérer différents types d'événements. Plutôt que de bombarder toute votre équipe de notifications d'incidents, assurez-vous que seules les personnes qui doivent gérer les problèmes sont réveillées. Cela minimise le travail non planifié et alerte fatigue en réponse aux problèmes.

Vous pouvez également configurer PagerDuty pour envoyer des notifications à un groupe plus large si les destinataires initiaux ne répondent pas dans un certain laps de temps.

Tirez le meilleur parti des journaux

Enfin, n’oubliez pas qu’il existe de nombreuses façons différentes de traiter les informations. L’une d’entre elles consiste à générer des alertes. Mais une autre consiste à utiliser des outils d’analyse de journaux pour identifier les tendances qui s’étendent sur une grande quantité de données collectées par divers outils de surveillance.

En réduisant les résultats de votre journal à l’essentiel, vous pouvez déterminer à quoi vous devez prêter attention sans avoir à gérer un grand nombre d’événements de manière individuelle.

C'est pourquoi PagerDuty propose des fonctionnalités telles que intégrations avec Splunk et d'autres outils d'analyse . Ils sont idéaux pour fournir un moyen de tirer de la valeur des données de surveillance sans souffrir d'une surcharge d'informations.