Optimiser votre processus de gestion des alertes
Dans un monde plus simple, toutes les alertes seraient créées de la même manière et votre infrastructure serait soit complètement fonctionnelle, soit complètement défectueuse, sans aucun compromis.
En réalité, le monde n’est pas si simple. Surtout aujourd’hui, où les infrastructures sont plus diversifiées et complexes que jamais .
Faire face à cette complexité nécessite une approche différente surveillance et la gestion des alertes. Vous devez faire bien plus que traiter la gestion des incidents comme un processus de réponse aux alertes dans l'ordre dans lequel elles surviennent ou en supposant que chaque alerte nécessite une action.
Cet article explique pourquoi une approche flexible et nuancée de la gestion des alertes est essentielle et comment la mettre en œuvre.
L’infrastructure moderne est complexe
Pour comprendre pourquoi un processus de gestion des alertes flexible est essentiel, examinons les facteurs qui rendent l'infrastructure moderne complexe. Tenez compte des points suivants :
L'infrastructure est fortement stratifiée et interdépendante
À l’époque, vous disposiez d’un ensemble de serveurs et de postes de travail nus, et c’était à peu près tout. Aujourd’hui, à l’ère du tout défini par logiciel, votre infrastructure est une pile complexe de machines physiques et virtuelles, de réseaux définis par logiciel, de clients légers, de capteurs connectés par intermittence, etc., tous entrelacés et superposés les uns sur les autres. Par conséquent, une alerte qui semble provenir d’une source (comme une application Dockerisée) peut en fait être liée à un problème sur une autre partie de l’infrastructure (comme la baie de stockage à laquelle votre serveur hôte Docker est connecté).
Certains problèmes sont plus graves que d’autres
Cela est assez évident pour quiconque a une certaine expérience de la gestion des incidents. Néanmoins, il convient de souligner à quel point la gamme des problèmes actuels peut être large et à quel point il est difficile d'interpréter rapidement la gravité d'une alerte. Par exemple, une alerte vous indiquant qu'un serveur de stockage a cessé de répondre peut sembler très grave à première vue. Mais si le serveur fait partie d'un cluster de stockage évolutif avec basculement automatique, le temps d'arrêt n'est pas réellement une priorité élevée. Aucune donnée n'est susceptible d'être perdue et aucune continuité d'activité ne sera interrompue si l'équipe ne réagit pas immédiatement au problème. De plus, certaines alertes servent d'avertissements mais ne sont pas immédiatement exploitables. Bien que ces informations doivent être conservées pour la détection de modèles et d'anomalies au niveau de l'infrastructure, elles doivent être supprimées au lieu de déclencher une réponse humaine. prévenir la fatigue d'alerte .
Une réponse en temps réel est cruciale
Dans le monde d'aujourd'hui, où tout est connecté en permanence, les utilisateurs seront informés des pannes de service en temps réel. Le processus de gestion des alertes doit donc également se dérouler en temps réel. Le fait que les utilisateurs aient tendance à signaler des problèmes dans des lieux publics comme réseaux sociaux Avant de contacter votre entreprise, il est encore plus impératif de résoudre le problème en temps réel. Soyez proactif plutôt que réactif ; vous ne voulez pas attendre que vos clients aient généré un flux de tweets en colère avant de répondre à une alerte sérieuse.
Les performances des applications sont importantes
Il ne suffit plus de s'assurer que vos applications fonctionnent. Vous devez également vous assurer qu'elles fonctionnent de manière optimale, car les utilisateurs ont peu de tolérance pour les mauvaises performances. Si votre site Web est lent, par exemple, les clients iront ailleurs après seulement quelques clics. dix secondes d'attente . Du point de vue des alertes, cela signifie qu'être averti lorsqu'une application cesse complètement de répondre n'est pas suffisant. Si la surveillance de la disponibilité est essentielle, vous devez également recevoir des alertes en cas de mauvaises performances. De plus, vous devez être capable de les différencier des alertes de non-réponse.
Faire fonctionner les alertes nuancées dans la pratique
Maintenant que vous connaissez les défis de la gestion moderne des alertes, comment pouvez-vous les résoudre ?
La solution consiste à rendre votre processus de gestion des alertes très flexible et plus agile. Utilisez des stratégies telles que les suivantes :
Rendre les alertes hautement prioritaires très visibles
Pour réagir rapidement aux alertes les plus graves, vous devez pouvoir les visualiser facilement. Cela est difficile à faire si les alertes de priorité élevée et de priorité faible sont mélangées sur vos tableaux de bord de surveillance. Cela devient beaucoup plus facile si vous consacrez un tableau de bord aux alertes que votre logiciel de surveillance considère comme hautement prioritaires.
Supprimer les alertes inutiles
L'élimination des alertes inutiles contribuera également grandement à désencombrer vos tableaux de bord et à accroître la visibilité. Vous pouvez le faire en suppression des alertes pour les événements de faible priorité, comme la création d'un nouveau compte utilisateur. L'avantage de supprimer ces alertes, plutôt que de les désactiver complètement, est que les alertes se produisent toujours et peuvent être consultées si nécessaire, mais elles ne distraient pas les administrateurs lorsqu'il y a des alertes plus urgentes à gérer.
Signalement et suppression d'alertes nuancés
Il est important de garder à l'esprit que la suppression ne doit pas nécessairement être une question de choix. Vous pouvez supprimer certaines alertes d'un certain type dans certaines circonstances, mais choisir de ne pas les supprimer dans d'autres.
Par exemple, vous pouvez supprimer les alertes liées à la création de comptes si elles se produisent pendant les heures ouvrables, lorsque le personnel crée normalement des comptes, mais rendre ces alertes visibles si elles se produisent en dehors de cette fenêtre. Vous pouvez également supprimer les alertes concernant un redémarrage du serveur, sauf si les redémarrages se produisent plus de trois fois au cours d'une période donnée.
Il est également essentiel de dédupliquer autant que possible, ainsi que de créer des associations entre les alertes associées pour éviter des efforts de résolution et de communication redondants.
Pour minimiser le bruit des alertes sans manquer d'événements importants, vous devez trier les alertes de manière plus précise en mettant en œuvre des mécanismes tels que la suppression, le regroupement des alertes associées et la personnalisation des seuils de notification.
Envoyer différentes alertes à différentes personnes
Un processus de gestion des alertes qui dirige toutes les alertes vers tous les membres de l'équipe est inefficace. Différents types d'alertes doivent être dirigés vers différents membres de l'équipe en fonction de leurs compétences et de leur disponibilité respectives. Le fait que cette dernière variable soit changeante rend d'autant plus importante la capacité à envoyer des alertes de manière flexible. Un expert en la matière qui est disponible et prêt à gérer un incident une heure peut être absent l'heure suivante.
En envoyant des alertes aux bonnes personnes dès le départ, vous éliminez une grande partie du travail manuel qui serait autrement nécessaire pour trier les problèmes et les attribuer au personnel.
Rapport sur bien plus que de simples temps d'arrêt
Comme indiqué ci-dessus, une gestion efficace des alertes implique aujourd'hui de détecter les ralentissements, et pas seulement les pannes totales. C'est pourquoi il est important de configurer un logiciel de surveillance pour générer des alertes lorsque les systèmes approchent des limites de leur capacité (lorsque la charge du réseau dépasse 80 %, par exemple, ou que la demande pour une application atteint un seuil inhabituel mais ne l'a pas encore dépassé).
Bien entendu, vous n'êtes pas obligé d'accorder à ces types d'alertes la même priorité qu'aux alertes qui signalent une panne totale. Ces derniers incidents seraient plus importants à connaître et à traiter immédiatement. Mais vous ne voulez pas non plus attendre qu'un incident se produise complètement avant d'y répondre. Au lieu de cela, optimisez votre processus d'alerte afin de pouvoir traiter les problèmes de performances bien avant qu'ils ne se transforment en temps d'arrêt.
Dans le DevOps Avec l'âge, l'infrastructure est agile. Votre processus de gestion des alertes doit l'être aussi. L'époque où l'on partait du principe que toutes les alertes avaient la même importance ou que chaque alerte devait être signalée et examinée est révolue. Surveiller l'infrastructure complexe et en constante évolution d'aujourd'hui sans se sentir dépassé nécessite une approche optimisée des alertes, qui rationalise la capacité d'une organisation informatique à identifier et à interpréter les alertes en fonction de leur niveau d'importance.