Leçons de Virtuoso : trois mesures que vous pouvez prendre pour réduire le volume des alertes jusqu'à 94 % en trois semaines
Comment un client a considérablement réduit le volume d'alertes et amélioré ses opérations avec PagerDuty et l'enrichissement des événements
Le consommateur
Nous avons récemment rencontré Shawn Motley, ingénieur DevOps senior chez Virtuose , pour parler de ses expériences avec PagerDuty et le Plateforme d'enrichissement d'événements (EEP). Virtuoso est un portail de voyage pour les clients haut de gamme, avec plus de 200 employés et 8 sites Web. En tant qu'agence de voyages de luxe mondiale, l'image est un élément important de l'activité de Virtuoso. Si l'un de leurs clients rencontre des problèmes lors de vacances coûteuses, leurs conseillers en voyages doivent accéder aux sites Web de Virtuoso, peu importe où ils se trouvent ou quelle heure il est. Leurs sites Web doivent être disponibles en permanence, point final.
L'histoire de fond
Lorsque Virtuoso a commencé à se concentrer sur son initiative DevOps il y a 7 mois, ils recevaient des milliers d'événements toutes les 24 heures, dont la majorité étaient bruit . Ils devaient réduire le volume des alertes, et rapidement. Pour la plupart des organisations, la suppression des alertes dans chacun de leurs systèmes de surveillance individuels n'est pas possible compte tenu des contraintes de ressources, de temps et de tâches opérationnelles. Avec l'EEP, les suppressions sont gérées dans un emplacement central via une interface utilisateur Web intuitive qui encourage la suppression et la gestion actives des événements. En utilisant EEP et PagerDuty, l'équipe Virtuoso DevOps a pu réduire rapidement sa charge d'événements opérationnels quotidiens à seulement quelques événements par jour.
Première étape : mettre en place un système
Lorsqu'ils ont mis en place PagerDuty et la plateforme d'enrichissement d'événements, l'efficacité opérationnelle a immédiatement augmenté. Avec l'EEP Intégration PagerDuty , leurs alertes sont acheminées vers EEP, classées comme exploitables ou bruyantes, enrichies d'informations correctives, puis envoyées à PagerDuty pour une alerte de livraison garantie de leur équipe opérationnelle.
Deuxième étape : enrichissez et personnalisez vos alertes
Ils ont ajouté des enrichissements, qui sont des étapes de résolution spécifiques, à l'alerte d'origine afin que toute personne répondant à un incident dispose des informations nécessaires pour trier et résoudre le problème. Ils ont acheminé ces alertes désormais enrichies via des notificateurs EEP vers des services PagerDuty spécifiques. Les étapes d'enrichissement sont apparues dans l'incident et comprenaient un lien vers l'incident dans l'EEP avec tous les détails.
Cliquer sur « accepter » ou « résoudre » pour une alerte dans EEP a automatiquement effectué cette action dans PagerDuty. De même, répondre à l'alerte SMS ou application mobile PagerDuty reconnaîtrait et résoudrait également l'événement dans EEP.
Troisième étape : mettre en place des triages d'événements hebdomadaires
Maintenant avec une charge d'événements considérablement réduite et la alertes restantes enrichies , ils disposaient des informations dont ils avaient besoin, au moment où ils en avaient le plus besoin. Ils ont vu une excellente occasion de réduire davantage leur bruit et d'ajouter des mesures correctives à leurs alertes en mettant en place des triages hebdomadaires. À partir de l'EEP, ils pouvaient télécharger une liste de tous leurs incidents récents et les attribuer à l'une des deux catégories suivantes : bruit ou actionnable. La plateforme leur a permis de supprimer rapidement et facilement de grands groupes d'événements inutiles grâce aux classifications EEP.
En une semaine, ils ont diminué leur volume d’alerte de 82 % et en trois semaines à 94 %.
Suivi
Avec un nombre d'alertes quotidiennes inférieur à une centaine, ils ont poursuivi leurs triages hebdomadaires et ont pu réduire encore davantage leurs alertes quotidiennes. Actuellement, Virtuoso ne reçoit qu'une poignée d'incidents par jour, dont seulement certains nécessitent une escalade et un engagement avec d'autres équipes. PagerDuty et EEP ont aidé Virtuoso DevOps à améliorer considérablement la connaissance de la situation de leur infrastructure.
Témoignage
« C'est un système génial », a déclaré Shawn. « Il permet à votre entreprise de passer à un niveau supérieur et fonctionne avec tous ces autres partenaires. »
Désormais, grâce au temps précieux que l'utilisation de PagerDuty et EEP leur a libéré, Virtuoso a considérablement accéléré leurs intervalles de déploiement, de construction et de publication. En se concentrant uniquement sur les événements importants, l'équipe des opérations a pu réussir ses initiatives d'optimisation de l'infrastructure.
« Nous pouvons désormais réellement appliquer les philosophies DevOps à notre équipe », a-t-il ajouté. « Nous nous concentrons sur l’automatisation de notre infrastructure, et non sur le tri des alertes. »
« Comme nous avons pu éliminer le bruit, nous disposons désormais d’une télémétrie bien meilleure pour nos serveurs, ce qui nous permet de mieux différencier les problèmes de serveur et de code », a déclaré Shawn. « Nous corrigeons désormais les problèmes système beaucoup plus rapidement et transmettons les problèmes au niveau du code aux développeurs si nécessaire. »