Blog

Annonce du cycle de vie de résolution des incidents modernes

par Dave Cliffe 8 mai 2017 | 5 minutes de lecture

Aujourd'hui, nous sommes ravis d'annoncer une suite de nouvelle fonctionnalité pour permettre une résolution encore plus rapide et accélérer l'apprentissage des incidents majeurs ayant un impact sur l'entreprise avec le cycle de vie de résolution d'incident définitif . Avec cette version, nous vous aidons à différencier les incidents majeurs des autres problèmes opérationnels quotidiens et à adopter facilement les meilleures pratiques pour rationaliser la résolution des incidents et l'apprentissage dans votre organisation. Ces étapes comprennent :

  • Évaluer - Permettez aux intervenants de diagnostiquer rapidement l’impact local et global en utilisant des regroupements d’alertes et en communiquant de manière transparente la priorité aux autres.
  • Répondre — Coordonner les équipes, collaborez à votre façon en utilisant les outils de votre choix, et impliquer les parties prenantes pour orchestrer la réponse à l’échelle de l’entreprise et favoriser une résolution encore plus rapide.
  • Apprendre Construire des chronologies post-mortem en quelques minutes plutôt qu’en heures et initiez la conversation sur la façon d’apprendre des incidents passés et de s’améliorer en tant qu’organisation.

modern incident resolution lifecycle

La nécessité d’une meilleure résolution des incidents

La complexité est en hausse. Pour répondre aux exigences croissantes des clients, les organisations sont obligées d'adapter leurs opérations de manière à introduire davantage de complexité et de chaos. De plus en plus de personnes sont impliquées dans les opérations et dans Réponse aux incidents , à travers un mélange toujours croissant de systèmes, d’applications, d’outils et de couches d’abstraction, ce qui entraîne de plus en plus de risques pour l’entreprise.

À mesure que les opérations numériques se développent au sein d’une organisation, en particulier lorsque les développeurs se voient confier des responsabilités opérationnelles, posséder les services qu'ils créent en production — l’un des principaux défis consiste à garantir la meilleure expérience client possible en cas de panne. Les organisations qui cherchent à améliorer leur réponse aux incidents doivent d’abord établir des pratiques, des rôles et une terminologie cohérents.

Appropriez-vous le processus de réponse aux incidents

De nombreuses organisations attribuent le rôle d’établir et d’affiner les processus de résolution des incidents à une personne ou à une équipe. Chez PagerDuty, nous bénéficions de notre collaboration directe avec nos clients, qui comptent parmi les équipes d’opérations numériques les plus matures au monde. Que vous choisissiez de l’appeler « ingénierie des insights » ou SRE (ingénierie de fiabilité du site), ou simplement « gestion des incidents majeurs », la première étape cruciale consiste à répondre à cette question : est un incident sur votre produit ou service ?

1. Qu’est-ce qu’un incident ?

Il peut être difficile de faire la distinction entre les problèmes de maintenance opérationnelle quotidiens et les incidents ayant un impact sur les clients, c'est pourquoi il est préférable que cette évaluation soit effectuée par les équipes individuelles dans leur domaine du produit. Il est essentiel de donner à ces équipes un cadre pour les décisions de triage (P1 à P5, ou Sev-1 à Sev-3, ou tout autre niveau que vous décidez d'utiliser) établir un terrain d'entente lors d'une fusillade. Ceci nouvelle capacité dans PagerDuty aide désormais tout le monde distinguer les incidents majeurs des autres problèmes opérationnels mineurs ou non triés.

2. Comment réagissez-vous face à un incident ?

L’étape suivante consiste à établir comment votre organisation répond aux incidents. Si vous pouvez définir des rôles clairs pour les personnes impliquées dans la réponse, cela contribue grandement à garantir un processus efficace. Une fois de plus, PagerDuty bonnes pratiques de réponse aux incidents open source est une excellente ressource pour ce que nous avons vu couramment dans les organisations opérationnellement matures et ce que nous pratiquons nous-mêmes. Nous faisons en fait pratiquer le processus en toutes circonstances, y compris pendant notre Les vendredis de l'échec .

3. Posséder les outils

La troisième et dernière étape est probablement aussi le plus grand défi : assurer la cohérence de votre processus à grande échelle. C’est pourquoi nous voyons fréquemment les propriétaires de processus de gestion des incidents créer ou gérer les outils qu’ils souhaitent que l’organisation utilise. Dans ce domaine, PagerDuty vise à faciliter l’adoption de votre processus par l’organisation de deux manières : par l’automatisation et la simplification.

Intégrez votre chaîne d'outils

Si vous utilisez un Gestion de la technologie de l'information (ITSM) ou une solution de billetterie telle que ServiceNow ou Logiciel JIRA ( voir toutes nos intégrations ), nous élargissons considérablement nos intégrations avec les deux produits pour éliminer les efforts en double des intervenants ou des gestionnaires d'incidents et garantir que le résultat de la phase d'évaluation peut nourrir de manière transparente dans l'outil de votre choix. Nous introduisons également une extensibilité supplémentaire qui vous permet de créer des actions personnalisées directement accessibles via l'incident dans PagerDuty — simplifiant le dépannage en automatisant tâches ou remédiations courantes .

Afin de rationaliser votre processus, nous introduisons également notre nouvel incident constructeur post-mortem pour aider les équipes à simplifier considérablement l'acte d'analyse et d'apprentissage d'un incident majeur. Les post-mortems, également appelés rapports d'incident, rapports post-incident ou analyse des causes profondes, sont essentiels pour faciliter la bonne culture autour de l'apprentissage continu et de l'amélioration des services et du processus de réponse aux incidents. En outre, nous avons également élargi notre modèle d'autorisations pour garantir que les équipes peuvent gérer leurs propres artefacts tout en adhérant à votre processus de niveau supérieur.

En tant que leader de la gestion des opérations numériques, PagerDuty vous aide à faire évoluer votre processus d'astreinte et votre processus de résolution des incidents, quel que soit votre niveau de maturité opérationnelle. Êtes-vous propriétaire du processus ou des outils de résolution des incidents de votre organisation ? Dites-nous ce qui a fonctionné pour vous et ce que nous pouvons continuer à améliorer afin de mieux vous accompagner !

Découvrez toutes nos nouvelles fonctionnalités en vous inscrivant à un essai gratuit de 14 jours de PagerDuty.

S'INSCRIRE MAINTENANT


Note: la fonctionnalité de priorité des incidents et notre nouvelle extension JIRA sont toutes deux disponibles en quantité limitée pour les clients Standard et Enterprise à l'heure actuelle. Veuillez nous contacter support@pagerduty.com pour l'activer sur votre compte.