Blog

Tirer le meilleur parti de PagerDuty + Datadog

par David M. Lentz 10 octobre 2019 | 6 minutes de lecture

Pour que votre équipe puisse répondre efficacement aux incidents, vous avez besoin d’une définition d’incident partagée et sans ambiguïté afin de pouvoir reconnaître quand un incident s’est produit et attribuer la gravité appropriée. Définitions d'un incident Les indicateurs de niveau de service (SLI) varient selon les équipes, mais quelle que soit la définition que vous utilisez, l'identification et la surveillance des indicateurs de niveau de service (SLI) clés peuvent vous aider à comprendre quand votre service fonctionne normalement et quand ses performances se sont dégradées au point où vous devez déclencher un incident.

Chien de données peut vous aider à surveiller et à alerter sur les mesures de performances de votre infrastructure et de vos applications, y compris vos SLI. Dans cet article, nous passerons en revue quatre bonnes pratiques pour utiliser PagerDuty avec Datadog afin d'enrichir et d'accélérer votre processus de réponse aux incidents et de réduire votre temps moyen de résolution (MTTR).

  • Incidents de base sur des SLI significatifs

Datadog facilite la collecter toutes les métriques qui vous sont potentiellement utiles, mais toutes les mesures ne sont pas des SLI. Un bon SLI est une mesure qui mesure un comportement significatif pour fournir le niveau de service souhaité. Par exemple, si vous exploitez une API et que votre objectif est de minimiser la latence, vous devez utiliser le temps de réponse comme SLI, même si vous surveillez également le taux de réponse de l'API, le taux d'erreur et la charge système de ses serveurs.

Les objectifs de niveau de service (SLO) sont les objectifs de votre équipe en matière de performances de votre service ou de votre application. L'exemple de SLI ci-dessus (temps de réponse) peut être utilisé pour définir un SLO tel que « répondre à 99,99 % des demandes en moins de 300 ms ». Les accords de niveau de service (SLA) sont les engagements de votre organisation envers vos clients. Chaque SLA est composé d'un SLO et d'une conséquence en cas de non-respect de ce SLO, comme un remboursement partiel des frais mensuels payés par le client.

Pour que votre organisation respecte ses SLA, votre équipe doit réussir à respecter vos SLO. Pour suivre vos progrès, vous devez identifier et alerter sur les bons SLI. Si un SLI est violé, c'est une priorité claire : vous devez créer un incident et compter sur PagerDuty et le processus de réponse aux incidents de votre équipe pour corriger tout comportement qui ne respecte pas votre SLO.

  • Déclencher automatiquement des incidents à partir des alertes SLI

Pour détecter de manière fiable un incident et démarrer rapidement votre réponse, vous devez automatiser le processus de déclenchement d'un incident lorsqu'un SLI dépasse un seuil. Lorsque vous intégrer PagerDuty à Datadog , une alerte dans Datadog peut déclencher immédiatement un incident dans PagerDuty, déclenchant ainsi le processus de réponse aux incidents de votre équipe. Pour créer automatiquement un incident, définissez une alerte dans Datadog basée sur un SLI, et @-mentionnez PagerDuty dans le corps de l'alerte.

Lorsque l'alerte se déclenche, un événement apparaîtra dans votre flux d'événements Datadog et l'intégration créera un incident dans PagerDuty. Si la métrique revient d'elle-même à un état de non-alerte, l'intégration résoudra automatiquement l'incident dans PagerDuty. De cette façon, votre équipe de réponse aux incidents n'a pas besoin d'agir, mais PagerDuty conserve l'historique de l'incident pour référence future.

En plus d'accélérer votre processus de réponse, le déclenchement automatique d'incidents peut vous permettre de disposer d'un historique fiable des moments où votre équipe n'a pas respecté vos SLO. Vous pouvez consulter ces données historiques dans le Tendances des incidents PagerDuty rapport, qui montre combien d'incidents ont été déclenchés, quand et quels services PagerDuty ont été affectés.

  • Commencez votre réponse aux incidents en étant bien informé

Pour accélérer la résolution des incidents, vos intervenants ont besoin d'informations contextuelles et actuelles sur chaque incident, y compris les données de surveillance actuelles du ou des services impliqués, ainsi que de toutes les dépendances potentiellement impactées. Vous pouvez configurer chaque service PagerDuty pour inclure un graphique Datadog pertinent, ou un tableau de bord complet, dans chaque incident. Cela permet aux intervenants d'afficher des données montrant l'état et l'historique du SLI sous-jacent d'un incident, ainsi que des mesures associées qui les aident à évaluer l'état de santé de tous les composants et services en amont et/ou en aval.

Si vous utilisez tests synthétiques dans Datadog pour confirmer la disponibilité et les performances des points de terminaison d'API sur lesquels s'appuie votre service ou application, vous pouvez inclure les résultats des tests sur les tableaux de bord Datadog qui s'affichent dans vos pages d'incident PagerDuty . Cela permet aux intervenants de voir immédiatement l'état des services en amont lors d'un incident. Si le tableau de bord révèle qu'un incident est provoqué par une panne dans un dépendance à un tiers , vous pouvez reconfigurer votre application pour utiliser un service différent à la place.

Vous pouvez également collecter des données de surveillance à partir des composants internes de votre application (comme les points de terminaison, les bases de données, les moteurs de mise en cache et le DNS) et les afficher sur vos tableaux de bord d'incident, comme illustré dans la capture d'écran ci-dessus. La surveillance des performances de ces composants peut vous aider à repérer les problèmes qui pourraient expliquer la cause d'un incident.

  • Intégrer les deux manières

En intégrant PagerDuty à Datadog, vous pouvez ajouter et mettre à jour de manière transparente des informations sur les incidents en temps réel sur les deux plateformes pour garantir que les membres de l'équipe disposent d'informations complètes et à jour à portée de main.

Les informations sur les incidents que vous collectez ou créez dans PagerDuty peuvent être automatiquement envoyées à Datadog pour garantir que toutes les équipes disposent d'informations sur l'incident. Vous pouvez configurer l'intégration pour mettre à jour en permanence votre flux d'événements Datadog avec les informations de vos incidents PagerDuty , par exemple lorsqu'un incident est reconnu ou délégué. Vous pouvez superposer ces événements sur les graphiques Datadog pour les corréler avec des métriques afin de pouvoir étudier la portée, l'impact et les causes potentielles d'un incident.

Lorsque votre équipe met à jour un incident dans PagerDuty, par exemple pour résoudre l'incident ou pour l'annoter en ajoutant une note dans le **Remarques** dans l'interface utilisateur de PagerDuty : vous pouvez voir ces modifications apparaître automatiquement dans le flux d'événements Datadog.

Vous pouvez également configurer l'intégration pour ajouter automatiquement vos informations de surveillance Datadog à vos incidents PagerDuty . Lorsqu'une alerte se déclenche dans Datadog, celle-ci peut créer automatiquement un incident dans PagerDuty, mais vous pouvez également créer manuellement un incident à tout moment en publiant un événement mentionnant PagerDuty dans votre flux d'événements Datadog.

Pour reconnaître ou résoudre l'incident directement à partir du flux d'événements, ajoutez un commentaire à l'événement qui le mentionne @ PagerDuty-reconnaître ou @ PagerDuty-résoudre . Le résultat est que l'incident est mis à jour (reconnu et résolu) comme si ces modifications avaient été apportées dans l'interface utilisateur de PagerDuty , comme le montre la capture d'écran ci-dessous.

Tirez le meilleur parti de PagerDuty + Datadog

Une réponse rapide et efficace aux incidents peut vous aider à minimiser tout effet négatif sur vos utilisateurs et votre entreprise. Intégrez PagerDuty à Datadog pour déclencher automatiquement des incidents, visualiser les données pertinentes dans une seule vue et réduire votre MTTR. Si vous n'utilisez pas déjà Datadog, vous pouvez commencer par un essai gratuit de 14 jours.