Blog

Gestion des incidents à grande échelle

par Patrick O'Fallon 28 mars 2017 | 4 minutes de lecture

La gestion des incidents est primordiale pour le succès de toute entreprise moderne Équipe ITOps . Cependant, tout comme la croissance d'une entreprise, la gestion des incidents à grande échelle peut également déclencher des difficultés de croissance. À mesure que le paysage des appareils, des applications et des systèmes se développe, chacun nécessitant surveillance — il en va de même pour le bruit des alertes et la complexité de la gestion du personnel d'astreinte. Avec un nombre croissant d'ingénieurs dans votre équipe, il peut être difficile d'intégrer et de mettre en œuvre de nouvelles politiques de notification et des opérations en dehors des heures de travail pour garantir l'efficacité de votre équipe et une répartition équitable de la charge. modèles hybrides de l'informatique et environnements informatiques bimodaux peut également compliquer la gestion des incidents. Néanmoins, avec quelques techniques éprouvées, vous pouvez évoluer la gestion des incidents de manière planifiée, délibérée, organisée et efficace.

Ne soyez pas victime de l'évolution de votre environnement ITOps

Commençons d’abord par comprendre le problème avec un exemple où la mise à l’échelle devient un problème sérieux.

Vous avez enfin mis en place votre processus de gestion des incidents, mais vous apprenez peu de temps après que votre entreprise a acheté une nouvelle entreprise. Votre équipe d'exploitation prend désormais en charge l'informatique du nouvel environnement, en plus de ce dont vous êtes déjà responsable. À première vue, vous pensez au scénario idéal dans lequel vous pouvez simplement appliquer les mêmes outils et la même méthodologie à cette toute nouvelle pile.

Cependant, la réalité est rarement parfaite : la nouvelle entreprise peut s’appuyer sur une pile technologique différente et sur des outils de surveillance de la gestion des incidents et méthodologies. Bien que ce scénario soit incroyablement intimidant, il est très similaire à tout scénario de croissance, qu'il s'agisse de développer votre équipe informatique ou adopter plus d'agilité et des structures ITOps bimodales. Quel que soit le scénario d'échelle auquel vous êtes confronté, vous trouverez ci-dessous quelques idées pour toute organisation qui travaille à l'extension de sa surveillance, de sa gestion des incidents et de son équipe.

Identifier les principaux domaines d'échelle

Vous implémentez de nouveaux matériels, logiciels ou services ? Votre environnement ITOps futur présente-t-il de nouvelles complexités ? Votre équipe d'ingénieurs vient-elle de s'agrandir ? Vous avez hérité d'une application dans laquelle des erreurs de code doivent être signalées ? Dans tous les cas, vous devez identifier les domaines dans lesquels votre équipe ITOps est obligée de faire évoluer ses opérations.

Outils de surveillance

Assurer la couverture de vos outils de surveillance sur l'ensemble de votre pile est primordial pour le succès de la mise à l'échelle. Pour vous adapter à ce changement, n'ayez pas peur de mettre en œuvre plusieurs systèmes de surveillance ou des systèmes entièrement nouveaux en dehors de votre pile actuelle. L'objectif de ces systèmes est de gagner visibilité complète de la pile , et dans de nombreux cas, cela nécessite mettre en œuvre différents outils de suivi afin de surveiller de manière appropriée les systèmes disparates et nouveaux. Mais pour vraiment soutenir l'échelle organisée, il doit y avoir un moyen de normaliser , dédupliquer, corréler et gagner des informations exploitables à partir de toutes ces données . Tous les événements générés par ces outils de surveillance doivent être centralisé dans un seul hub , à partir desquels ils peuvent être triés et acheminés vers le bon ingénieur de garde.

Réduction de bruit

Une fois la surveillance en place, l'objectif est de comprendre les données pour une résolution efficace des incidents. L'ajustement du comportement de routage sur vos outils de surveillance et la configuration du seuil approprié constituent une excellente étape suivante pour garantir que votre équipe ne rencontre pas de problèmes. alerte fatigue une fois que vous avez mis en œuvre de nouveaux outils. L'agrégation de ces données et la suppression ou le filtrage des alertes non exploitables de la pagination au sein d'un système de gestion des incidents commun sont essentiels pour aider réduire le bruit et enrichissez la visibilité des incidents sur l'ensemble de votre pile.

La gestion des incidents

Un programme complet Plateforme de gestion des incidents vous aidera à intégrer les données de tous vos outils et à évoluer avec vous au fur et à mesure de votre évolution. Non seulement il unifie toutes vos alertes de surveillance disparates dans un système commun, mais il prend également en charge la croissance de votre équipe d'ingénierie sans générer de confusion autour de la gestion des ressources. De plus, il contribue à faciliter une plus grande responsabilisation ainsi qu'une collaboration plus organisée. En prime, vous pouvez exploiter les analyses d'incidents pour montrer à votre patron dans quelle mesure votre équipe ITOps gère et résout les pannes.

L’échelle et la complexité ne vont pas disparaître

Le monde des ITOps évolue rapidement, mais une chose est sûre : les équipes informatiques sont contraintes de faire évoluer leurs opérations dans presque tous les domaines. Les environnements ITOps traditionnels évoluent vers des architectures et des cadres plus hybrides et agiles et les adoptent. Les utilisateurs exigent en permanence un accès plus rapide et plus fiable aux données sur différents appareils. Par conséquent, il est nécessaire que les équipes ITOps soient équipées d'un plan d'évolution. La gestion des incidents est désormais une nécessité, car les enjeux liés aux temps d'arrêt sont de plus en plus importants.