- PagerDuty /
- Blog /
- Gestion et réponse aux incidents /
- Gestion des incidents de nouvelle génération : infrastructure scriptée
Blog
Gestion des incidents de nouvelle génération : infrastructure scriptée
Le grand avantage des outils de gestion de configuration comme Chef, Puppet et Ansible est qu'ils transforment votre centre de données en Infrastructure « scénarisée » Au lieu de perdre des heures de votre vie à provisionner et à configurer chaque serveur manuellement, vous pouvez utiliser un outil de configuration qui fait le sale boulot à votre place.
Cependant, ces outils ne sont pas conçus pour automatiser la gestion des incidents . Et cela soulève les questions suivantes : pourquoi gérez-vous la gestion des incidents manuellement alors que le reste de votre Opérations informatiques sont scénarisés ? N'est-il pas temps d'intégrer la gestion des incidents dans votre routine d'infrastructure scénarisée ? Oui ! En adoptant une approche d'infrastructure scénarisée pour la gestion des incidents, vous pouvez Surveillance de l'échelle et gestion des alertes tout aussi bien que le reste de vos opérations.
Le problème
Tout d’abord, discutons des raisons pour lesquelles une approche d’infrastructure scénarisée pour la gestion des incidents est si cruciale.
Je commencerai par dire que vous ne devriez pas être trop dur avec vous-même si vous gérez encore les incidents manuellement. Vous n'êtes pas un mauvais administrateur, juste une victime des circonstances. Jusqu'à récemment, les solutions automatisées de gestion des incidents n'étaient pas aussi facilement disponibles que dans d'autres domaines, avec des outils de gestion d'infrastructure comme Chef .
Les exigences en matière de gestion des incidents n'ont pas toujours été aussi complexes qu'elles le sont aujourd'hui. Il y a dix ans, votre centre de données comprenait probablement, au maximum, quelques dizaines de serveurs sur site. Vous pouviez alors gérer manuellement la gestion des incidents.
Mais aujourd'hui, l'infrastructure est plus vaste et plus complexe que jamais en raison des exigences en matière d'évolutivité et d'innovation plus rapide des produits. Vous avez des serveurs bare metal sur site. Vous avez des serveurs virtuels locaux. Vous avez des serveurs cloud, conteneurs et les appareils mobiles. Et avec le La révolution de l'IoT maintenant en plein essor, il y a fort à parier que vous devrez bientôt ajouter des réfrigérateurs, des micro-ondes et des parcmètres à ce mélange.
Si vous souhaitez gérer efficacement les incidents sur tous ces appareils, votre stratégie doit évoluer et éliminer les tâches manuelles répétitives dans la mesure du possible. Pour y parvenir, vous avez besoin de solutions de gestion des incidents de nouvelle génération qui peuvent être automatisées et scriptées de la même manière que vous automatisez la configuration de votre infrastructure de centre de données en plein essor.
La solution
Maintenant, parlons des détails. Pour gérer efficacement les incidents à l'ère de l'infrastructure scriptée, vos outils de gestion des incidents doivent :
- Acheminez les alertes vers les bonnes personnes , à chaque fois, automatiquement. Si une étape manuelle est nécessaire pour informer les bonnes personnes d'un problème, votre processus est interrompu.
- Escalader automatiquement les incidents . Là encore, vous ne pouvez pas attendre qu'un humain réaffecte manuellement un problème lorsque les gens oublient d'agir, surtout si vous disposez d'une infrastructure énorme. Votre logiciel doit être suffisamment intelligent pour le faire à votre place, tout comme Chef et Puppet sont suffisamment intelligents pour configurer vos serveurs automatiquement.
- Gérez le comportement des alertes à grande échelle. Les outils de script d'infrastructure sont particulièrement pratiques car ils savent exploiter au mieux les ressources existantes. Ils savent par exemple où placer vos serveurs virtuels dans le cloud sans vous le demander. De la même manière, vos outils de gestion des incidents doivent être capables de regrouper, de supprimer et d'acheminer automatiquement les alertes vers les services et les équipes appropriés. réduisant le bruit ainsi que le temps de réponse p.
- Intégrer avec ChatOps afin que votre équipe puisse collaborer sur la réponse aux incidents sans séparer le processus de communication du travail de gestion des incidents. De plus, grâce à chatbots ChatOps peut aider à automatiser certaines tâches de réponse.
- Soutenez tous vos surveillance Besoins. Il est probable que vous ayez plusieurs systèmes de surveillance en place, comme AWS Cloudwatch, Nagios et Pingdom. Pour que votre gestion des incidents soit véritablement évolutive et automatisée, ces outils doivent fonctionner ensemble sans intervention manuelle. Une stratégie de gestion des incidents qui automatise les alertes de toutes les sources sauf une est tout aussi problématique qu'une infrastructure Puppet qui configure toute votre infrastructure à l'exception d'un type de serveur que vous provisionnez manuellement. La centralisation de tous vos outils au sein d'une solution qui vous permet de transformer les événements en flux de travail automatisés est essentielle.
- Soyez debout 100% du temps . Cela peut sembler évident, mais je souligne ce point pour rappeler pourquoi il est déconseillé de s'appuyer uniquement sur les notifications sur site. J'aimais Nagios autant que n'importe qui quand c'était en 2002 et que le cloud n'était encore qu'une chose dans le ciel. Mais aujourd'hui, si vous comptez sur uniquement Avec un outil traditionnel comme Nagios fonctionnant localement pour envoyer vos alertes, vous courez le risque de voir votre système de gestion des incidents lui-même tomber en panne en cas de problème avec votre infrastructure. Utiliser Nagios est une bonne chose, mais vous devez transmettre ses alertes, ainsi que celles provenant du reste de vos systèmes de surveillance, à un solution centralisée de gestion des incidents basée sur le cloud , qui ne sera pas affecté par les problèmes sur votre infrastructure.
Si vous avez l'habitude de travailler uniquement avec des systèmes d'alerte et de surveillance traditionnels, les exigences de cette liste peuvent sembler fantaisistes, mais ce n'est pas le cas. Les logiciels de gestion des incidents qui automatisent les flux de travail de réponse rapide autour de toutes vos données d'événements, aussi efficacement que l'infrastructure scriptée peut automatiser votre centre de données, sont désormais disponibles. Et pour être beaucoup plus productif et efficace dans votre travail, c'est le moment d'en profiter.