- PagerDuty /
- Blog /
- Meilleures pratiques et informations /
- L'avenir de la réponse aux incidents est automatisé, flexible et proactif
Blog
L'avenir de la réponse aux incidents est automatisé, flexible et proactif
Nous savons que nos clients comptent sur PagerDuty comme pilier de leurs opérations critiques en temps réel. Nous souhaitons donc nous assurer que chaque amélioration contribue à rationaliser la réponse aux incidents. Comment pouvons-nous aider nos clients à passer moins de temps à éteindre les incendies et plus de temps à innover ?
L'une des valeurs de PagerDuty est de défendre le client, et nous prenons cela très au sérieux. Lorsque nous créons et améliorons des fonctionnalités, nous cherchons à rester à l'écoute de ce qui se passe chez nos clients : qu'est-ce qui les empêche de dormir la nuit ? De quoi ont-ils besoin aujourd'hui ? Comment leur situation a-t-elle changé récemment ? Et comment pouvons-nous les aider à atteindre leurs objectifs pour demain ?
J'ai rencontré Dan McCall, vice-président des produits pour la réponse aux incidents, pour en savoir plus sur sa philosophie de développement de l'héritage de la meilleure solution de réponse aux incidents de PagerDuty. Pour en savoir plus sur toutes les fonctionnalités que l'équipe de Dan développe chez PagerDuty, consultez sa session, « Incident Response Keynote: Automated, Flexible, Proactive ». L'inscription est simple, il suffit de cliquer sur ici .
Q : Dan, est-ce que certaines tendances se sont dégagées de mes échanges avec les clients ? Quelles sont les principales tendances ?
J'entends souvent les clients parler de maximisation de l'efficacité, de minimisation des efforts et d'une plus grande orientation des données afin de renforcer la résilience à grande échelle. Ce qui est intéressant, c'est que c'est le cas qu'ils débutent leur parcours DevOps ou qu'ils le fassent depuis des années. Cela est logique : la complexité augmente et les incidents se produisent plus souvent dans tous les domaines, mais cela a des répercussions différentes sur les clients. Pour certains, l'objectif est simplement d'avoir la bonne personne au bon moment, tandis que d'autres privilégient l'ajustement de la réponse pour rationaliser les processus en cours et limiter l'impact sur la santé des intervenants.
Mais il y a une chose que j’entends le plus souvent : même si le renforcement de la résilience et l’amélioration de l’efficacité sont des tâches difficiles à accomplir dans le meilleur des cas, tout est devenu beaucoup plus difficile à cause de la « Grande Démission ». En fait, dans notre dernière enquête auprès des clients, 64 % de nos répondants ont déclaré qu’ils connaissaient une augmentation du taux de rotation du personnel cette année. Il va sans dire que l’attrition met les équipes à rude épreuve : il faut des ressources pour embaucher et intégrer de nouvelles personnes, et le fait de travailler avec un personnel en sous-effectif peut conduire à un cercle vicieux de travail manuel encore plus important et d’épuisement professionnel. Et cette situation rend encore plus urgente la nécessité de remettre les opérations dans un état plus sain et plus mature.
Q : Qu’entendez-vous par maturité opérationnelle ?
La maturité opérationnelle consiste à offrir une expérience meilleure et plus prévisible à vos équipes afin que vous puissiez aborder et anticiper les problèmes sous-jacents à l'attrition et à l'épuisement professionnel, avec des processus et des comportements permettant de remédier à une partie de ce turnover potentiel.
Nous avons créé ce modèle de maturité des opérations numériques après avoir examiné les équipes et les organisations sur notre plateforme, en codifiant les comportements que nous avons observés.
Pour ceux d'entre vous qui sont peut-être nouveaux dans le domaine de la maturité opérationnelle, les clients nous demandent souvent à quoi ressemble une « bonne » entreprise. Pour aider les organisations à mesurer leur maturité opérationnelle, nous avons développé le modèle de maturité des opérations numériques. Ce modèle permet aux organisations de définir la maturité opérationnelle, d'apprendre à identifier où elles se situent sur le spectre et de comprendre où concentrer leurs efforts pour s'améliorer.
Pour aller plus loin et rendre cela encore plus tangible, notre équipe d'analyse de produits a modélisé le modèle de maturité opérationnelle avec des données sur notre plateforme. Nous voyons que les équipes réactives connaissent systématiquement une rotation plus élevée que les équipes préventives – rien qu’au dernier trimestre, le delta était de plus de 2x ! Lorsque l'on y réfléchit dans le contexte de la Grande Démission, il est plus évident que jamais que nos produits peuvent faire une grande différence en aidant nos clients à relever leurs défis opérationnels les plus urgents. Je vous recommande vivement de consulter cette conférence, « Passer de la réactivité à la proactivité (et au-delà !) », de Scott Bastek et Tejere Oteri, à laquelle vous pouvez accéder en vous inscrivant ici .
Q : Comment ce que vous avez entendu de la part des clients façonne-t-il votre vision de l’avenir de notre solution de réponse aux incidents ?
Lorsque nous réfléchissons à la manière dont nous pouvons orienter notre produit pour aider au mieux nos clients à réaliser cette transformation et à améliorer leur maturité opérationnelle, la vision de mon équipe est de rendre la réponse aux incidents plus :
- automatique pour éliminer le gaspillage et l'inefficacité
- Flexible pour répondre à une multitude de besoins commerciaux uniques à grande échelle
- Proactif anticiper et prévenir les perturbations de l’activité
Et nous allons le faire tout en restant fidèles à l’essence de ce que nos clients connaissent et aiment à propos de PagerDuty.
Q : L’automatisation peut signifier beaucoup de choses pour beaucoup de gens. Lorsque vous pensez à la réponse automatisée aux incidents, qu’est-ce que cela signifie pour vous ?
Pour moi, la réponse automatique aux incidents signifie que les humains et les machines travaillent mieux ensemble. Pour illustrer cela, je pense souvent au concept de Échecs du Centaure La version TLDR est la suivante : l’IA peut battre un humain au jeu d’échecs, mais un humain associé à l’IA peut battre l’IA pure.
L'automatisation comme première ligne de défense permet aux équipes d'équilibrer les charges de travail critiques entre les humains et leurs machines, aidant ainsi les humains à travailler plus intelligemment lorsqu'ils sont nécessaires et supprimant la charge lorsqu'ils ne le sont pas. Le processus de réponse aux incidents comporte de nombreux aspects qui impliquent des efforts manuels ou des tâches bien comprises. Notre objectif est de supprimer cette charge inutile de vos humains, afin que ceux-ci puissent rester concentrés et faire mieux leur travail.
Un exemple de la manière dont nous y parvenons est la possibilité d'appeler des diagnostics automatisés directement depuis votre application mobile, afin que votre intervenant n'ait pas à exécuter manuellement un ensemble de tâches routinières associées aux diagnostics standard lorsqu'il arrive à son bureau. Grâce à l'automatisation, tout est déjà exécuté et prêt à être utilisé au moment où votre intervenant arrive sur le lieu de l'incident.
Dans le meilleur des cas, l'automatisation et l'IA peuvent prendre en charge des tâches que vos équipes ne devraient pas faire en premier lieu. En aidant les gens à effectuer moins de tâches manuelles et répétitives, ils restent plus motivés, ce qui réduit l'épuisement professionnel et contribue à réduire l'attrition. Avoir plus de temps pour réfléchir et se concentrer sur la manière d'innover signifie également disposer des cycles supplémentaires dont vous avez besoin pour tirer les leçons des incidents et améliorer les processus afin de renforcer la résilience que vous souhaitez.
Q : PagerDuty a investi activement dans plusieurs acquisitions. Comment cela s’inscrit-il dans votre feuille de route ?
Nous sommes ravis de tirer parti de partenariats très solides avec nos acquisitions les plus récentes, Rundeck en 2020 et Catalytic plus tôt cette année, pour offrir de meilleures expériences à nos clients.
Pour la réponse aux incidents, nous avons travaillé avec nos collègues de l'acquisition de Rundeck pour prendre leur produit (maintenant connu sous le nom de Process Automation) et intégrer profondément les actions d'automatisation dans notre expérience de réponse aux incidents, en commençant par l'ingestion et l'orchestration des événements, jusqu'au mobile et même notre expérience Web.
Les intervenants de première ligne se retrouvent souvent à effectuer les mêmes étapes de diagnostic récurrentes lorsqu'il s'agit de trier et de résoudre les incidents, ce qui leur fait perdre du temps sur des tâches à forte valeur ajoutée, oblige les spécialistes à lutter contre les incendies au lieu d'innover et prolonge le MTTR. Il était donc très important pour nous de rendre le processus le plus simple et le plus léger possible pour les équipes qui souhaitent commencer à tirer parti de l'automatisation dans leur cycle de vie de réponse aux incidents. Grâce à la possibilité d'appeler les diagnostics automatisés de plusieurs manières, les équipes peuvent gagner du temps qu'elles auraient dû consacrer à des tâches manuelles et routinières. Au lieu de cela, elles peuvent avoir les résultats prêts au moment où l'intervenant arrive à son bureau.
Avec Catalytic, nous adoptons une approche différente. Lorsqu'un incident survient, les organisations disposent généralement d'une liste de contrôle des étapes importantes à suivre, qui sont souvent manuelles et difficiles à mémoriser, surtout dans le feu de l'action à 2 heures du matin ! Trouver et mémoriser ces étapes peut distraire l'équipe d'intervention de son objectif principal : résoudre l'incident. Nous proposons des scénarios de réponse légers depuis quelques années maintenant et nos clients nous ont demandé de nouvelles façons d'automatiser les étapes de leurs processus de réponse aux incidents avec plus de flexibilité, c'est pourquoi nous sommes ravis de présenter Incident Workflows.
Plus tard cette année, nous allons mettre à niveau nos jeux de réponse légers en puissants Flux de travail des incidents basé sur le nouveau moteur de workflow issu de notre acquisition Catalytic. Ces workflows vous permettront de définir une réponse orchestrée à l'aide de la logique « si-ceci-alors-cela », ce qui facilitera la configuration d'une séquence d'actions courantes sur les incidents (telles que l'ajout d'un intervenant, l'abonnement de parties prenantes ou le démarrage d'un pont de conférence) dans une réponse orchestrée.
Vous pouvez personnaliser vos workflows d'incidents pour refléter les processus uniques de votre organisation pour un certain nombre de cas d'utilisation, par exemple en fonction de la priorité, du statut ou de l'urgence des incidents. Et à mesure que vous tirez des enseignements d'un incident, vous pouvez ensuite encoder ces enseignements dans vos workflows pour automatiser ces tâches répétitives et banales pour la prochaine fois qu'un incident se produit.
Q : Selon vous, laquelle de ces annonces suscitera le plus l’enthousiasme de nos clients ?
Il est difficile de n’en choisir qu’un, alors je vais en présenter deux et vous devrez consulter ma session pour découvrir toutes les bonnes choses que nous vous réservons. Tout d’abord, je pense que les clients vont être vraiment enthousiasmés par la direction que nous prenons pour l’avenir des Response Plays. Nous avons déjà reçu des retours incroyables sur la façon dont Incident Workflows apportera une amélioration au niveau des fonctions par étapes sur Response Plays avec l’interface utilisateur puissante et la flexibilité modulaire basée sur des éléments tels que la priorité. Personnellement, je suis très impatient de voir ce que les clients feront avec Incident Workflows et comment ils se les approprieront. L’un des aspects intéressants de la construction de cette « plateforme » est que, bien que nous montrions comment elle peut être utile dans les incidents majeurs, elle peut être utilisée d’une multitude d’autres façons. Vous pourrez en savoir plus à ce sujet lors de ma session au Summit, où Stephanie Gridley, une responsable de la résilience de Wayfair, explique comment son équipe pourrait utiliser la fonctionnalité pour les incidents P1 et P5.
Les clients seront également ravis de voir des mises à jour sur certaines fonctionnalités essentielles qu'ils attendaient depuis longtemps, comme les modèles de notification de mise à jour de statut. Ce qui deviendra encore plus intéressant, c'est lorsque ces fonctionnalités commenceront à s'alimenter mutuellement pour réaliser des choses encore plus intéressantes. C'est le lien entre ces fonctionnalités fonctionnant en contexte les unes avec les autres qui fournit un impact multiplicateur supérieur à la somme des parties.
Si vous souhaitez en savoir plus sur les autres éléments prévus dans la feuille de route de la réponse aux incidents pour cette année, consultez la conférence virtuelle de Dan : « Conférence sur la réponse aux incidents : automatisée, flexible, proactive ». Il n'est pas trop tard pour vous inscrire au Sommet PagerDuty – Inscrivez-vous ici.