Blog

Démocratisez les capacités d'automatisation de votre équipe avec les actions d'automatisation PagerDuty®

par Joseph Mandros 4 avril 2022 | 5 minutes de lecture

Soyons réalistes. Les incidents peuvent coûter cher. vraiment coûteux. Mais le coût élevé des incidents dans un environnement de production n'est pas toujours dû à un service compromis ou à une expérience client négative. Selon les données de réponse de PagerDuty , plus de 50 % de la durée de vie d'un incident est consacrée aux premiers intervenants dans les phases d'enquête et de mobilisation (ce que nous appelons le « triage ») — en d’autres termes, déterminer ce qui aurait pu mal se passer et appeler la bonne personne pour résoudre le problème.

Avec la statistique ci-dessus à l'esprit, il est clair que la dépense fantôme du cycle de vie de votre incident est celle de votre personnel. temps — l'ingénieur qui a découvert l'incident, l'ingénieur d'astreinte qui a répondu au problème et déterminé la cause profonde, et tous les autres experts en la matière qui sont impliqués dans le cycle de vie de l'incident. Et lorsque vous ajoutez des processus manuels à l'ensemble du calendrier de réponse, les choses peuvent coûter cher. Très cher.

En réalité, le temps de votre organisation de développeurs est tout aussi précieux et important que les résultats financiers de l'entreprise. Et à mesure que le développement de services et d'applications continue de gagner en complexité, le « temps gagné » devient une mesure encore plus importante à suivre, quantifier et améliorer en permanence. Trouver un moyen d'automatiser différents aspects du processus de réponse aux incidents peut aider votre équipe à gagner du temps et à renforcer l'efficacité à tous les niveaux. Comment pouvez-vous y parvenir, demandez-vous ? Entrez PagerDuty ® Actions d'automatisation (anciennement PagerDuty Rundeck Actions) .

PagerDuty ® Actions d'automatisation

PagerDuty ® Le module complémentaire Automation Actions connecte vos intervenants de première ligne à l'automatisation corrective directement dans PagerDuty. Au lieu de transmettre les escalades aux spécialistes lorsqu'un incident se produit, les intervenants peuvent trier et résoudre les incidents eux-mêmes à l'aide d'une automatisation déléguée en toute sécurité. En conséquence, les équipes réduisent le MTTR, réduisent les interruptions pour les spécialistes et diagnostiquent et corrigent rapidement les incidents.

PagerDuty ® Actions d'automatisation connecte les diagnostics et les corrections automatisés au flux de travail de réponse aux incidents. Diagnostic automatisé Il s'agit d'un ensemble d'actions pour les services de production que vos intervenants peuvent invoquer automatiquement lorsqu'un incident se produit. Plutôt que de devoir faire appel à des spécialistes experts qui exécutent manuellement des tests courants, les intervenants peuvent invoquer eux-mêmes cette automatisation en toute sécurité depuis PagerDuty et voir les réponses fournies en temps réel dans votre chronologie des incidents.

Exécutez des actions désignées telles que des redémarrages de service, des diagnostics, etc.

Grâce à ces tests de diagnostic, les intervenants peuvent transmettre l'incident au spécialiste approprié de manière plus efficace pour résolution, plutôt que d'impliquer un grand groupe ou de faire appel à l'échelon hiérarchique habituel des intervenants. Les spécialistes pourront voir les résultats de ces diagnostics courants et pourront commencer immédiatement.

De plus, les équipes peuvent également invoquer ces actions et collaborer sur l'incident directement depuis leur instance Slack . Cela élimine le besoin d'accéder à un service via un terminal et de changer de contexte entre les fenêtres, ce qui crée un moyen plus rapide et plus efficace de résoudre les incidents, tout en réduisant les escalades vers des spécialistes. À mesure que vous maîtrisez votre utilisation des diagnostics automatisés, vous pouvez commencer à les utiliser pour des tâches telles que la correction et le déclenchement automatisés à l'aide d'Event Intelligence.

PagerDuty ® Les actions d'automatisation aident à résoudre quatre principaux problèmes au sein du processus de réponse d'une organisation :

  • Une expertise cloisonnée. Les intervenants de première ligne ne connaissent pas la composition génétique de chaque application ou service au sein de l’environnement d’une organisation.
  • Interruptions constantes des spécialistes Les intervenants transmettent l'information à l'ingénieur dont ils ont besoin. pense est le spécialiste de cette application ou de ce service, ce qui réduit le temps consacré à l'innovation et ralentit le délai de résolution.
  • Étapes de diagnostic répétitives et manuelles. Les premières étapes à suivre lorsqu'un incident survient sont souvent les mêmes. Ces mêmes étapes manuelles doivent être exécutées avant de pouvoir commencer à résoudre l'incident.
  • Environnements de production complexes et tentaculaires. Il peut falloir du temps pour savoir à quels systèmes accéder et quelles mesures prendre. De plus, tous les intervenants ne disposent pas de l'autorité nécessaire pour accéder à des systèmes de production spécifiques, ce qui rend souvent le processus d'escalade difficile et chronophage.

PagerDuty ® Les actions d'automatisation résolvent les problèmes ci-dessus en :

  • Déléguer l’automatisation entre les équipes. Déployer des procédures automatisées auprès des intervenants de première ligne qui sont généralement invoquées par des spécialistes.
  • Résoudre les incidents plus rapidement avec moins d’escalades. En créant une automatisation pour les demandes et opérations courantes, les équipes peuvent passer moins de temps à déterminer à qui s'adresser et plus de temps à trouver une solution.
  • Déclenchement d'une automatisation assistée par l'homme/auto-réparatrice. Appelez des actions de diagnostic avant même que les intervenants ne soient contactés à l'aide de PagerDuty Orchestration d'événements .
  • Appeler l'automatisation en toute sécurité avec la sécurité à l'esprit. Les intervenants ne voient que les actions qu'ils sont autorisés à invoquer pour les systèmes impactés par un incident, et toutes les actions sont enregistrées pour maintenir une posture de sécurité solide.

 

Pour résumer ce qui précède avec quelques points rapides, PagerDuty ® Les actions d’automatisation aident les équipes à :

  • Diminuer des temps de réponse jusqu'à 30 minutes et un MTTR jusqu'à 25 %
  • Réduire le volume d'incidents qui remontent l'échelle
  • Distribuer expertise en la matière au sein des équipes d'intervention
  • Déclenchement automatisation de l'assistance humaine et de l'auto-réparation avant même que les intervenants ne soient appelés
  • Invoquer automatisation sécurisée derrière des pare-feu et des VPC
  • Déployer actions automatisées à la place des procédures manuelles
  • Enrichir documentation des incidents pour des autopsies plus fluides et un travail réduit pour l'opérateur

Pour en savoir plus sur le portefeuille d'automatisation PagerDuty , Visitez notre pôle d'automatisation . Si vous souhaitez en savoir plus sur Actions d'automatisation de PagerDuty et comment cela peut aider votre équipe à économiser du temps et de l'argent, contactez votre gestionnaire de compte ou Apprenez-en davantage aujourd'hui.