Blog

Optimisez le triage avec des alertes et des suppressions

par Sean Higgins 22 novembre 2016 | 4 minutes de lecture

En tant que plaque tournante qui centralise DevOps et Opérations informatiques données des outils, de nombreuses organisations dépendent de PagerDuty pour les avertir chaque fois qu'un composant de leur infrastructure informatique se comporte de manière inattendue. Si vous avez déjà utilisé PagerDuty , vous avez probablement dû faire face à plusieurs incidents liés à un seul problème, pour lesquels vous êtes notifié chacun. Cela se produit généralement si vous avez configuré des systèmes de surveillance redondants ou si un seul point de défaillance ou de dégradation provoque un effet domino de plusieurs outils déclenchant simultanément des alertes.

Pour résoudre ce problème, nous avons introduit des changements importants dans notre modèle de données en redéfinissant le concept d'alerte dans PagerDuty, en tant qu'objet qui suit l'état de l'outil de surveillance. L'utilisation d'alertes dans PagerDuty est à la base de deux nouvelles fonctionnalités intéressantes : Triage et suppression des alertes.

Présentation du triage des alertes

Avec la disponibilité du nouveau Triage des alertes Grâce à cette fonctionnalité, vous pouvez regrouper les alertes liées dans un seul objet d'incident qui permet une véritable gestion des incidents de bout en bout. Les intervenants ne sont plus avertis en fonction de symptômes individuels et cloisonnés. Au lieu de cela, les flux de travail de résolution sont désormais centrés sur un objet d'incident qui est véritablement représentatif d'un problème ou d'une panne réel ayant un impact sur le service. Cette fonctionnalité redéfinit la manière dont les clients peuvent trier et interagir intelligemment avec les données de leurs systèmes pour réduire le bruit, améliorer la collaboration interfonctionnelle et réduire les délais de résolution.

Les alertes seront automatiquement activées sur les nouveaux services PagerDuty et vous pourrez immédiatement commencer à utiliser les nouvelles fonctionnalités de tri des alertes. Pour les services existants pour lesquels il est judicieux de configurer cela, cliquez simplement sur « Modifier le service » et activez l'option « Créer des alertes et des incidents ».

incident-behavior

Lorsqu'un service est configuré pour Créer des alertes et des incidents , toutes les alertes exploitables créeront un incident parent. Pour regrouper les alertes associées en un seul incident, sélectionnez deux incidents ou plus dans la liste des incidents, appuyez sur Fusionner et sélectionnez l'incident dans lequel tout doit être fusionné.

merge-incidents

Lorsque vous fusionnez plusieurs incidents, vous pouvez facilement modifier le résumé de l'incident pour refléter avec précision le problème en question, afin que les intervenants puissent rapidement se mettre au courant.

merge-incidents-summary

Avantages du triage des alertes

Alert Triage présente de nombreux avantages lorsqu’il s’agit de permettre un flux de travail de résolution d’incident plus fluide.

seamless-incident-resolution-workflow

  • Centraliser les informations d'alerte critiques Au lieu de traiter plusieurs alertes de manière indépendante, sans corrélation ni consolidation, les intervenants peuvent désormais enquêter sur un seul incident pour se mettre rapidement à niveau.
  • Voir tous les services impactés – Identifier rapidement tous les services qui ont été impactés par l’incident.
  • Optimisez le transfert interfonctionnel – Ceci est particulièrement utile pour le NOC et les intervenants de premier niveau, car ils n’ont désormais plus qu’à interagir avec un seul objet pour la réaffectation, au lieu de réaffecter ou d’escalader manuellement les alertes individuelles.
  • Réduire la fatigue liée aux alertes – Les intervenants ne sont désormais avertis que sur un seul incident avec tout le contexte d’alerte consolidé, au lieu de plusieurs fois à partir d’outils cloisonnés envoyant des alertes redondantes.
  • Établir un commandement d'incident pour une meilleure collaboration – Les flux de travail de réponse, tels que la mobilisation des intervenants et les conférences, sont désormais centrés sur l’objet d’incident amélioré avec tout le contexte pertinent, simplifiant ainsi les communications.
  • Tirer parti des actions groupées pour une vitesse améliorée – Lorsqu’une action est entreprise sur un incident parent, elle est automatiquement appliquée à toutes les alertes enfants, et vice versa.

L'utilisation d'alertes et la nouvelle fonctionnalité Alert Triage constituent un élément essentiel pour débloquer une valeur améliorée au sein de PagerDuty et sont disponibles pour tous les clients sans frais supplémentaires. Nous vous encourageons vivement à en savoir plus en lisant les articles d’assistance suivants :

N'hésitez pas à nous contacter support@pagerduty.com Si vous avez des questions ou des commentaires, nous serons ravis d'y répondre. Nous espérons qu'avec Alert Triage, vous et vos équipes bénéficierez des avantages d'une réponse optimisée aux incidents