Déterminer la priorité de l'incident
Alertes. Elles s'accumulent facilement. À un moment donné, vous recevez une poignée d'alertes. Quelques heures, voire quelques minutes plus tard, vous en recevez une montagne. Comment les gérer et éviter que vos intervenants ne soient complètement débordés ?
Ce sont des questions extrêmement importantes. Si votre système de gestion des alertes est inondé de bruit et que les équipes d'intervention sont dans un état permanent d'alerte, alerte fatigue , vous pourriez tout aussi bien ne pas avoir de système de gestion des alertes informatiques en premier lieu. Bruit excessif et fatigue de l'alerte réduire complètement l’efficacité du système de gestion des alertes.
Appliquer le filtrage : alertes sur les incidents
À bien des égards, la clé pour rationaliser votre système de gestion des alertes réside dans une méthode rapide et précise de consolidation des alertes liées aux incidents et de détermination de la priorité des incidents. Le tri des incidents par urgence fournit un filtre automatique pour la plupart des bruits et vous fournit une approximation raisonnable de ce qui nécessite une attention immédiate et de ce qui peut attendre. Gardez également à l'esprit que toutes les alertes ne nécessitent pas un incident ou une réponse. suppression des alertes non exploitables réduit encore davantage le bruit et vous permet de vous concentrer sur ce qui compte.
Vous pourrez probablement automatiser au moins une partie du processus de tri (par exemple, par source et par mots-clés), même s'il est probable qu'une partie (et peut-être une quantité considérable) de ce processus nécessitera une surveillance et une intervention des membres de l'équipe d'intervention agissant en tant que répartiteur. Quelle que soit la méthode que vous utiliserez, les critères de base resteront toutefois les mêmes.
La plupart des programmes prioritaires suivent les ITIL des directives de priorisation des incidents ou quelque chose de similaire. L'un des éléments clés des directives ITIL est que la priorité des incidents repose sur deux facteurs étroitement liés : l'impact et l'urgence. Dans cet article, nous examinerons de plus près ces deux facteurs et la manière dont ils interagissent.
Déterminer l'impact de l'incident
L'impact est généralement basé sur l'étendue des effets d'un incident, c'est-à-dire le nombre de services, d'utilisateurs ou de services clés affectés. Il peut être relativement facile d'automatiser au moins certains éléments du processus de détermination de l'impact. Un grand nombre de rapports quasi simultanés indiquant qu'un service spécifique n'est pas disponible, par exemple, peut être une bonne indication d'un incident à fort impact, tandis qu'un rapport d'un problème provenant d'un seul utilisateur, non accompagné de rapports similaires, est plus susceptible d'indiquer un incident à faible impact. Pour de nombreux services informatiques, le Lignes directrices pour déterminer l'impact d'un incident Cela pourrait ressembler à ceci :
- Fort impact:
- Un système critique est en panne.
- Un ou plusieurs départements sont touchés.
- Un nombre important de membres du personnel ne sont pas en mesure d’exercer leurs fonctions.
- L'incident touche un grand nombre de clients.
- L’incident pourrait entraîner des pertes financières importantes ou nuire à la réputation de l’organisation.
- D’autres critères, en fonction de la fonction de l’organisation et des systèmes affectés, pourraient inclure des éléments tels qu’une menace pour la sécurité publique, une perte potentielle de vies humaines ou des dommages matériels importants.
- Impact modéré :
- Certains membres du personnel ou clients sont concernés.
- Aucun des services perdus n’est critique.
- Des pertes financières et des atteintes à la réputation de l’organisation sont possibles, mais leur portée est limitée.
- Il n’y a aucune menace pour la vie, la sécurité publique ou les biens physiques.
- Faible impact:
- Seul un petit nombre d’utilisateurs est concerné.
- Aucun service critique n’est impliqué et le risque de perte financière ou de perte de réputation est faible, voire nul.
Urgence de l'incident
Il n’est pas toujours facile d’établir une distinction stricte entre l’impact d’un incident et son urgence, mais dans la plupart des cas, l’urgence dans ce contexte peut être définie comme la rapidité avec laquelle un problème commence à avoir un effet sur le système. La panne d’un système de paie peut avoir un impact important, par exemple, mais si elle survient au début d’un cycle de paie, elle est susceptible d’être moins urgente que la perte d’une base de données de relations clients qui est fortement sollicitée au quotidien.
- Haute urgence :
- Un service essentiel aux opérations quotidiennes n’est pas disponible.
- La sphère d’impact de l’incident s’étend rapidement, ou une action rapide peut permettre d’en limiter la portée.
- Les travaux urgents ou les actions des clients sont affectés.
- L'incident affecte des personnes ou des organisations de haut rang (c'est-à-dire la haute direction ou des clients importants).
- Faible urgence :
- Les services concernés sont facultatifs et peu utilisés.
- Les effets de l’incident semblent stables.
- Les travaux importants ou urgents ne sont pas affectés.
Il convient de noter que, tant pour l'impact que pour l'urgence, il suffit généralement de remplir un seul critère (plutôt que tous les critères ou la majorité) pour une catégorie donnée. Les incidents doivent être classés dans la catégorie la plus élevée à laquelle ils correspondent.
Priorité = Impact + Urgence
À ce stade, il devrait être assez facile de voir que la priorité est une fonction directe à la fois de l'impact et de l'urgence. gestion des alertes et processus de répartition des incidents Si vous les mettez en place, s'ils sont acheminés en fonction de critères de détermination de la priorité, vous pourrez faire taire une quantité considérable de bruit d'alerte et les événements à faible impact et à faible urgence seront naturellement relégués au bas de votre liste de priorités. Cela permettra à vos équipes d'intervention en cas d'incident de se concentrer sur le type d'incidents à fort impact et à haute priorité qui nécessitent réellement le plus d'attention, avec très peu de distraction ou de fatigue d'alerte.
Pour en savoir plus sur la manière d'agréger, de classer et de supprimer des événements pour gérer ce qui compte, consultez Moteur de tri des alertes et de règles d'événements de PagerDuty . Vous pouvez également classer facilement les incidents en fonction des définitions personnalisées de priorité .
Et cette montagne d'alertes ? En se concentrant sur ce qui est exploitable et urgent, notamment à l'aide d'un solution comme PagerDuty — vous pourriez simplement découvrir qu’il n’est plus là !