Blog

Gestion des incidents pour les équipes ITOps : apprendre à centraliser

par Chris Riley 30 août 2016 | 5 minutes de lecture

Peut ITOps Les équipes centralisent-elles la gestion des incidents ? Si vous travaillez dans le domaine des ITOps, votre première réponse à cette question peut être un « non » catégorique.

Après tout, les responsabilités des ITOps sont si vastes et si diverses qu’il peut sembler presque impossible de les regrouper toutes sous un même toit lorsqu’il s’agit de gestion des incidents. De l’administration des serveurs à la mise à disposition des PC de bureau en passant par le support technique, sans parler de tâches telles que la gestion des achats et la gestion des sous-traitants indépendants, les équipes ITOps font tout.

C'est ce qui différencie l'ITOps de la plupart des autres services d'une organisation. Si vous êtes un service de programmation, vous pouvez centraliser vos processus de développement et de gestion des bugs à l'aide d'un référentiel de code. Si vous êtes un service commercial, vous pouvez gérer les produits et les contacts clients via une plateforme centralisée comme Salesforce. Ce n'est pas le cas avec l'ITOps, car il couvre de nombreuses tâches différentes.

Nous sommes là pour vous dire que la gestion centralisée des incidents pour ITOps ne doit pas être un rêve irréaliste. Certes, ITOps gère tellement de tâches diverses qu'il n'existe pas de plate-forme universelle pour surveiller et répondre aux problèmes, mais vous pouvez toujours centraliser la façon dont vous gérez les incidents sur l'ensemble de votre infrastructure.

Comment faire ? En utilisant un outil de gestion des incidents capable de s'intégrer à tous les différents volets de votre flux de travail ITOps.

Tirer le meilleur parti de vos services de surveillance

Examinons un exemple simple de la manière dont votre équipe ITOps peut centraliser la gestion des incidents, même si ITOps elle-même n’est pas aussi centralisée.

Si vous êtes un professionnel ITOps dans une petite ou moyenne entreprise, il y a de fortes chances que vous deviez suivre trois principaux types d'infrastructure. Le premier élément est vos serveurs sur site, que vous pouvez utiliser pour héberger un partage de fichiers local ou servir certains sites Web. La deuxième partie est votre cloud public, où vous conservez les sauvegardes de données. Le troisième élément est constitué par les postes de travail locaux, qui doivent être maintenus en état de fonctionnement et connectés à vos serveurs sur site et dans le cloud.

La planification de la gestion des incidents pour chaque partie de cette infrastructure est délicate. Certains systèmes de surveillance peuvent prétendre pouvoir prendre en charge aussi bien les serveurs bare metal, l'infrastructure cloud et les PC. Mais s'ils le font, ils ne sont probablement spécialisés dans aucun de ces domaines. Ils vous proposeront simplement une surveillance générique, sans fonctionnalités avancées conçues pour des types d'infrastructure particuliers.

Pour cette raison, il est préférable d'utiliser une combinaison de services de surveillance adaptés aux différents éléments de votre infrastructure. Pour votre cloud, vous tirerez probablement le meilleur parti d'un système de surveillance centré sur le cloud, comme AWS CloudWatch . Vents solaires pourrait être utile pour vos appareils sur site et votre réseau local. Et vous voudrez peut-être utiliser quelque chose comme Splunk pour analyser toutes les données de journal que vos nombreux appareils génèrent.

Un outil de gestion des incidents pour les gérer tous

Chacune des plateformes de surveillance que nous avons mentionnées est dotée d'un système d'alerte ou de notification, mais les notifications ne sont peut-être pas aussi fiables que vous le souhaiteriez. Même si elles le sont, aucune équipe ITOps ne souhaite recevoir des alertes de plusieurs plateformes différentes, dans des formats différents et avec des types de contenu différents, en même temps. Dans ces conditions, il serait extrêmement difficile de s'assurer que les bonnes alertes parviennent aux bonnes personnes au bon moment.

La bonne nouvelle pour les professionnels de l'ITOps est que la gestion des incidents n'a pas à être si confuse et désorganisée. Même si vous avez mis en place plusieurs systèmes de surveillance pour les différentes parties de vos opérations, vous pouvez centraliser la manière dont vous recevez toutes les alertes.

Tout aussi important, vous pouvez également centraliser la manière dont les notifications sont distribuées à votre équipe. Par exemple, certains de vos services de surveillance peuvent ne pas être en mesure de générer des alertes SMS de manière native. Si vous interconnectez ces services avec une plateforme de gestion des incidents centralisée capable de traduire les notifications dans le format dont vous avez besoin, vous pouvez les transférer sur les téléphones de vos administrateurs selon vos besoins.

Enfin, une solution de gestion centralisée des incidents vous permet également d'éviter les alertes redondantes. Si votre réseau est surchargé, cela peut entraîner des notifications non seulement du service qui surveille vos commutateurs réseau, mais également de la pile de surveillance de vos serveurs, qui détectera une connexion instable.

La réception de plusieurs alertes liées au même problème principal sèmera la confusion au sein de votre équipe et augmentera le temps de réponse. En revanche, la gestion centralisée des incidents garantit que l'équipe reçoit des notifications par incident et non par système de surveillance. Il y a donc moins de bruit et on sait immédiatement ce qui se passe.

En règle générale, l'ajout d'un outil supplémentaire à votre flux de travail ITOps peut sembler n'entraîner qu'un gonflement. Cela peut être vrai dans de nombreux contextes. Mais dans le cas de la gestion des incidents, de la mise en œuvre d'une solution, comme PagerDuty, cette centralisation des notifications peut aider votre équipe ITOps à tirer beaucoup plus de valeur des outils de surveillance que vous avez déjà en place.