Blog

Comment réduire le MTTR avec PagerDuty et Puppet's Relay

par Mélissa Sussmann 6 octobre 2020 | 4 minutes de lecture

Biographie : Melissa Sussmann est responsable du marketing technique des produits Relay chez Puppet. Elle aime écrire sur DevOps, la fiabilité des sites, l'open source et la technologie blockchain.

Les équipes DevOps et SRE sont soumises à une pression intense pour réduire le temps moyen de récupération (MTTR) lors de la résolution des incidents. Avec la prolifération des services cloud et la complexité croissante des chaînes d'outils DevOps, les ingénieurs doivent aujourd'hui non seulement apprendre à utiliser ces services, mais aussi à les dépanner lorsqu'un incident survient à 2 heures du matin. Le problème est que de nombreux processus de réponse aux incidents sont encore manuels aujourd'hui : ils rassemblent des runbooks et des scripts ad hoc et organisent les interventions des personnes. Cette approche de « ruban adhésif numérique » donne lieu à ce que nous appelons le « Dépotoir DevOps ”, ce qui augmente finalement le MTTR.

Comment PagerDuty et Relay fonctionnent ensemble

PagerDuty est la plateforme de gestion des opérations numériques leader du secteur qui fournit des notifications fiables, des escalades automatiques, une planification d'astreinte et d'autres fonctionnalités pour aider les équipes à détecter et à résoudre rapidement les problèmes d'infrastructure.

Relay de Puppet est une plateforme d'automatisation pilotée par événements qui rassemble tous les outils et technologies dont les ingénieurs DevOps ont besoin pour gérer efficacement un environnement cloud. Contrairement à de nombreux outils d'automatisation de workflow existants, Relay peut répondre intelligemment aux signaux externes en combinant des déclencheurs basés sur des événements avec un puissant moteur de workflow sur une seule plateforme.

La dernière intégration entre Relay et PagerDuty élimine le « ruban adhésif numérique » en créant des flux de travail réutilisables et pilotés par les événements pour boucler plus rapidement la boucle des incidents grâce à l'approche d'automatisation basée sur les événements de Relay. Les utilisateurs de PagerDuty peuvent désormais :

  • Enrichir les données d’alerte : Utilisation du nouveau Événements de changement lancé lors du PagerDuty Summit, Relay améliore les alertes avec des informations de diagnostic pour accélérer le temps de résolution en présentant plus de contexte autour de l'alerte.
  • Automatiser la communication sur les incidents : Qu'il s'agisse de créer un canal Slack, de mettre à jour un ticket Jira ou de notifier les membres de l'équipe, Relay garantit que la communication est opportune et à jour.
  • Déclencher des workflows de correction automatique : L'apparition d'incidents PagerDuty peut lancer des exécutions de flux de travail Relay pour dépanner et résoudre les problèmes courants de manière sécurisée et rapide.

Exemple : Comment automatiser les plans de communication en cas d'incident

Un moyen essentiel de réduire le MTTR consiste à formaliser un plan de communication sur les incidents. Il est essentiel de s'assurer que les équipes disposent d'un plan solide pour comprendre les rôles et ouvrir des canaux de communication afin de réduire le temps de réponse aux incidents. Relay peut automatiser ce flux de travail pour vous en contactant l'intervenant d'astreinte avec un message détaillant le contenu de l'incident.

Relay utilise des « déclencheurs » et des « étapes » pour automatiser un ensemble d'actions. Les étapes sont réutilisables, modulaires et composables : par exemple obtenir des informations sur un utilisateur, envoyer des messages Slack et Twilio et utiliser l'API d'événement PagerDuty pour fournir plus d'informations sur un incident. Les « déclencheurs » sont basés sur des événements cloud, des événements git, des alertes de surveillance, des tickets et des incidents. Dans l'exemple ci-dessous, nous voyons comment un incident PagerDuty déclenche le flux de travail de réponse aux incidents suivant en utilisant les étapes mentionnées.

Lorsqu'un nouvel incident PagerDuty est déclenché, Relay recherche l'adresse e-mail de la personne d'astreinte, identifie cet utilisateur dans Jira et Slack et crée un ticket Jira pour l'incident de production. Relay crée ensuite un canal Slack en tant que centre de commande des incidents de production, invite la personne de garde, ainsi que le responsable technique concerné, et définit le sujet du canal avec un lien vers le ticket Jira qui a été créé. Enfin, il envoie un message au canal Slack et publie une note indiquant les attentes sur la manière dont une politique en matière d'incidents de production doit être suivie.

Grâce aux nouveaux événements de changement de PagerDuty, Relay élabore le contenu de l'incident avec des données d'alerte enrichies. Cela permet à la personne de garde de répondre rapidement à l'incident, avec moins de travail nécessaire pour la création de tickets et la communication sur ce qui a déclenché le flux de travail.

Essayez ce flux de travail ici.

Personnalisez votre réponse aux incidents

Il existe plusieurs flux de travail de démarrage disponibles pour les utilisateurs de PagerDuty , que vous pouvez trouver sur Page d'intégration de Relay. Vous pouvez utiliser ces workflows pour créer un problème dans Jira, envoyer un message à Slack et envoyer automatiquement un SMS Twillo lorsqu'un incident PagerDuty est déclenché.

Le flux de travail de chacun est un peu différent, c'est pourquoi les flux de travail Relay sont personnalisables en fonction des cas d'utilisation. Relay fournit une aide contextuelle dans sa barre latérale. Cette fonctionnalité vous permet de parcourir la bibliothèque d'intégrations et d'étapes pour faciliter la personnalisation de votre flux de travail.

Inscrivez-vous au relais !

Utilisez Relay avec PagerDuty pour réduire votre temps de réponse aux incidents et améliorer l'observabilité. La réduction de votre délai moyen de résolution (MTTR) est la clé d'une gestion DevOps réussie et l'activation de l'automatisation basée sur les événements signifiera que votre temps de réponse aux incidents sera beaucoup plus court. Relay facilite cela en utilisant des flux de travail qui résolvent des problèmes plus courants et mieux compris que les équipes ont déjà identifiés. Pour en savoir plus sur Relay, visitez notre site à relais.sh et inscrivez-vous à notre bêta gratuite !