Blog

6 bonnes pratiques pour une meilleure gestion des incidents

par David Hayes 15 mai 2018 | 10 min de lecture

Les entreprises modernes gèrent aujourd'hui des portefeuilles technologiques de plus en plus complexes et sont contraintes d'innover, tout en étant confrontées à des enjeux bien plus importants que jamais en matière de maintien des performances et de la fiabilité des services. Bien que ces exigences puissent sembler paradoxales, de nombreuses organisations ont réussi à mettre en œuvre des processus leur permettant d'équilibrer à la fois agilité et risque. Dans cet article, je vais aborder l'importance d'intégrer la réponse aux incidents à votre outil ITSM et vous expliquer les étapes à suivre pour équilibrer efficacement agilité et risque.

Étape 1 : Intégrer la réponse aux incidents et l'ITSM

Vous ne pouvez pas ajouter de minutes lors d'une panne, il est donc essentiel de prioriser efficacement votre travail planifié en dehors d'un incident, et cela consiste en partie à utiliser une plate-forme de gestion des incidents d'entreprise comme PagerDuty pour gérer et relier votre travail imprévu au travail planifié qui est suivi. dans votre outil ITSM comme Jira, ServiceNow ou Remedy.

Comment est-ce que ça aide ? Premièrement, les informations circulent de l'ITSM vers PagerDuty afin que les intervenants sachent ce qui a changé et qui signale un impact. Ensuite, les éléments de suivi de PagerDuty sont renvoyés à l'ITSM, y compris les résultats de l'autopsie qui doivent être priorisés.

Un employé donné peut avoir des dizaines de tickets prioritaires dans un outil ITSM, mais il ne devrait jamais en avoir qu'un (ou idéalement 0) qui lui soit attribué dans PagerDuty à un moment donné afin qu'il puisse se concentrer sur les problèmes ayant un impact sur les clients qui nécessitent des réponses immédiates. De même, le concept d'incidents non attribués n'existe pas dans PagerDuty: s'il y a un problème, quelqu'un en est responsable.

Étape 2 : Mobilisation proactive

En termes simples, le moyen le plus simple d'accélérer votre réponse est de la lancer plus tôt. Le meilleur moyen d'y parvenir n'est pas de suivre ce qui affecte vos machines, mais ce qui affecte vos clients. Les organisations qui utilisent Real User Monitoring peuvent vérifier si les utilisateurs sont en mesure de charger, de télécharger ou d'acheter leurs outils avec succès. De plus, comme vous cherchez principalement à détecter les problèmes avant qu'ils n'affectent les utilisateurs (même si cela peut entraîner des faux positifs), la surveillance de l'infrastructure sous-jacente est tout aussi importante pour identifier la cause d'un problème rencontré par un client.

L'automatisation joue également un rôle dans l'accélération de la réponse aux incidents, et votre outil de surveillance doit automatiquement attribuer les problèmes à un responsable. Dans le même ordre d'idées, pour éviter qu'un problème n'affecte vos revenus, l'outil de surveillance doit également attribuer et avertir immédiatement quelqu'un de tous les problèmes dépassant une certaine priorité en utilisant la méthode de communication préférée de cette personne (téléphone, e-mail, SMS, etc.).

Pour faciliter l'automatisation, PagerDuty s'intègre à des centaines d'outils de surveillance. Ainsi, par exemple, si votre outil de surveillance détecte que votre panier est passé de lent à complètement insensible, PagerDuty peut automatiquement créer un incident avec la bonne priorité pour garantir que le répondeur dispose de toutes les informations.

Dans le même esprit, créez des flux de travail automatisés chaque fois que cela est possible. Si un Sev1 doit faire appel à des parties prenantes exécutives, automatiser cette réponse jouer .

Étape 3 : Définir un processus

Éliminez l'ambiguïté, la confusion et le temps perdu lors d'une intervention en définissant votre processus et en clarifiant les différents rôles impliqués. Nous vous recommandons d'inclure les rôles suivants : commandant d'incident + adjoint, scribe, agent de liaison client et experts en la matière. (Pour plus de détails sur la signification de chaque rôle, consultez https://response.pagerduty.com/before/différent_roles/ .)

En cas de panne, les choses peuvent devenir un peu folles et la hiérarchie organisationnelle passe au second plan par rapport aux rôles d'intervention. Lorsque les dirigeants commencent à randomiser le processus défini, vous devez les retirer du processus et communiquer de manière claire et concise pourquoi certains processus sont suivis. Si le PDG souhaite modifier le processus à la volée, il peut décider de devenir le responsable de la réponse. Commandant d'intervention .

Pour aider tout le monde à rester ensemble, rappelez-vous ce qui suit :

  • Sondage pour de fortes objections. Sollicitez des objections, pas un consensus. Cela vous évitera de vous retrouver coincé dans l'attente de discussions non urgentes et de consensus au lieu d'agir pour résoudre le problème.
  • Définissez des limites de temps et attribuez des tâches à des personnes. De nombreuses informations arrivent lors d'un incident et une communication claire et concise est essentielle en temps de crise. L'attribution de tâches et de délais aux tâches permet à chaque rôle de se concentrer sur une seule chose, réduisant ainsi la confusion et le double travail et, idéalement, le temps de résolution.
  • Normaliser le jargon et l’étiquette. Assurez-vous que chacun sache quand et comment s'exprimer. Pour une communication et une réponse efficaces, il est essentiel de maintenir un ton et une discussion pragmatiques et centrés sur le problème, sans émotion.

Étape 4 : Élaborez votre stratégie de communication

Il est également important de définir un processus de communication avec les personnes extérieures à l'équipe d'intervention principale. Selon le type d'incident, vous pouvez avoir affaire à des clients internes (nous les appelons souvent parties prenantes), à des clients externes et même au marché dans son ensemble. Par exemple, lorsque vous répondez à un incident de sécurité, vous devrez peut-être faire appel au service juridique en plus d'autres dirigeants.

Ces groupes doivent tous être tenus au courant en fonction des besoins, mais le mauvais endroit pour le faire est là où les intervenants travaillent. La dernière chose que vous souhaitez est que quelqu'un se joigne à l'appel et demande une mise à jour de l'état, car cela perturbe les personnes qui essaient de discuter des correctifs pendant l'appel. Pour revenir à ce que je disais plus tôt, vous ne voulez pas qu'un dirigeant se joigne à un appel et exige que l'équipe répare la panne en 10 minutes. Cela implique que l'équipe ne travaille pas déjà aussi vite qu'elle le peut. C'est démotivant et cela n'apporte rien d'utile pour la réponse. C'est là qu'intervient le service de liaison client, en utilisant une fonctionnalité comme celle de PagerDuty. Engagement des parties prenantes , le chargé de liaison client peut fournir des mises à jour simplifiées et en temps réel aux parties prenantes concernées de l'entreprise.

Voici quelques autres moyens d’améliorer les communications en temps réel :

  • Avoir un pont de conférence pour les discussions internes. Les humains sont des animaux sociaux et cela semble être le format le plus naturel. Utilisez l'outil de conférence téléphonique que vos utilisateurs connaissent déjà : une panne n'est pas le moment d'apprendre à utiliser un nouvel outil. Joignez automatiquement les informations de conférence téléphonique pour les incidents majeurs.
  • Avoir une salle de discussion pour enregistrer les actions. Cela permet à ceux qui répondent de se mettre à jour sans poser de questions répétitives et fournit un enregistrement horodaté de la réponse. De plus, de nombreuses entreprises commencent à déclencher des actions de réponse directement à partir de robots dans la salle de discussion.
  • Fournissez des mises à jour proactives et planifiées à vos parties prenantes. Créez une page d'état des incidents afin que les intervenants puissent rester informés des informations pertinentes en temps réel. Cela est essentiel pour éviter que les parties prenantes ne s'immiscent et ne deviennent des obstacles.
  • Déterminez les notifications à l’avance. Décidez quels critères et quels délais les intervenants doivent utiliser pour informer vos parties prenantes, vos clients ou vos utilisateurs en aval.

Étape 5 : Autopsies

Les post-mortems permettent de résoudre un problème à long terme. Ils permettent aux personnes de tourner la page après un événement particulièrement stressant et garantissent que votre équipe puisse prendre des mesures réfléchies et productives sur certains des correctifs immédiats que vous avez apportés dans le feu de l'action pour résoudre un problème.

Alors, à quoi ressemble une autopsie efficace ? Elle doit :

  • Mettre l’accent sur la prévention et l’apprentissage. Votre équipe cherche à comprendre ce qui peut être modifié pour éviter ce problème à l’avenir.
  • Soyez transparent, irréprochable et apolitique. L'objectif est d'obtenir toutes les informations pertinentes, et la dernière chose que vous voulez faire est de fomenter des rancunes. Les reproches entravent la circulation des informations. Le seul reproche acceptable est celui qui est fait à un employé intentionnellement malveillant, ce qui est extrêmement rare.
  • Soyez orienté vers l’amélioration. Cela s'applique à la fois à la résilience du système et au processus de réponse. L'objectif est de toujours s'améliorer.
  • Ciblez une cause profonde. Nous trouvons le « cinq pourquoi ' utile ici.
  • Être requis pour les incidents majeurs et rationalisé pour gagner du temps. Personne ne souhaite faire des post-mortems, mais ils constituent un outil essentiel pour maximiser l'impact de votre travail planifié. Pour les rendre plus faciles, nous avons créé un outil post-mortem intégré calqué sur les processus existants de nos clients. Il peut vous faire gagner des heures en basculant entre les outils pour rassembler des informations, car il crée automatiquement une chronologie avec l'activité PagerDuty et de chat pertinente.

Nous publions tous nos post-mortems en interne à l'aide de notre outil post-mortem. Nous considérons les post-mortems non seulement comme un apprentissage pour notre équipe, mais aussi comme une contribution à notre formation aux meilleures pratiques , où nous partageons nos expériences et nos apprentissages avec nos clients.

Pour plus de conseils post-mortem, téléchargez notre livre électronique détaillé.

Étape 6 : Formation et pratique

Vous ne pouvez pas vous attendre à ce que votre processus de réponse aux incidents soit fantastique si vous ne l'utilisez que de temps en temps. Tous les services ne tombent pas souvent en panne et certaines personnes ont plus de pratique que d'autres. Mais tout le monde doit être entraîné afin que, lorsqu'un incident se produit, vous et votre équipe soyez prêts.

  • Facilitez l’observation et l’intégration. Une solution comme PagerDuty permet aux intervenants débordés de demander de l'aide. L'un de nos clients les plus courageux met tout le monde en garde en solo : si une nouvelle recrue ne parvient pas à le comprendre à partir du runbook, elle peut ajouter son mentor en tant que répondeur et, au fil du temps, le pourcentage d'incidents dont il a besoin d'aide diminue.
  • Enregistrez vos pannes pour les utiliser à des fins de formation. Ces enregistrements sont une mine d'or et aident les équipes à comprendre ce qui se passe réellement dans les scénarios de panne réels. Ils sont également utiles pour les autopsies.
  • Les pré-mortem (« Si cela se casse, que dois-je chercher ? ») sont un exercice de formation précieux. Ils peuvent également aider à identifier les endroits où vous pouvez ajouter une surveillance supplémentaire des causes profondes ou des avertissements préventifs. Par exemple, si vérifier la connexion à la base de données est la première chose que vous feriez si vous étiez alerté parce que votre e-commerce était en panne, configurez la surveillance sur cette connexion et envoyez ces données dans PagerDuty, même si l'application n'est pas affectée.
  • Mettre en œuvre Les vendredis de l'échec . Ingénierie du chaos Cela dépasse probablement les capacités de la plupart des organisations à l'heure actuelle, mais nous tirons beaucoup de profit de nos « Vendredis d'échec », comme la découverte de problèmes de mise en œuvre qui réduisent notre résilience et la découverte proactive de déficiences pour éviter qu'elles ne deviennent la cause première de futures pannes.

Moins vous consacrez de temps à la résolution des pannes imprévues, plus vos services sont performants, ce qui se traduit par des clients plus satisfaits, car les incidents ayant un impact sur les clients sont probablement la pire chose qui puisse arriver à une entreprise. Ils nuisent à la réputation de la marque, entraînent d’énormes pertes de clients et de revenus, nuisent à la productivité des employés et sapent le moral, entre autres choses. Si vous parvenez à atteindre un point où vous êtes aussi efficace que possible et êtes capable de répondre aux incidents majeurs sans chaos ni stress, avec l’attitude d’apprendre et de vous améliorer à chaque incident, vous obtiendrez une culture gagnante et stimulante qui ravira à la fois vos clients et vos employés.

Vous souhaitez en savoir plus sur la réponse aux incidents ? Consultez notre page de documentation sur la réponse aux incidents.

Conclusion de PagerDuty + CTA

Une gestion efficace des incidents implique une équipe solide, et une équipe solide implique un produit solide. Si vous êtes prêt à vous lancer dans l'utilisation du logiciel de gestion des incidents de PagerDuty, vous êtes au bon endroit. Grâce à notre produit, vous pouvez facilement protéger vos revenus et améliorer l'expérience client en résolvant plus rapidement les incidents critiques et en prévenant les occurrences futures. Nous vous aidons à mettre en œuvre les meilleures pratiques en matière d'incidents majeurs au sein de votre organisation grâce à une automatisation des réponses de bout en bout et à des analyses post-mortem sans friction. Apprendre encore plus .

Vous souhaitez en savoir plus sur la réponse aux incidents ? Nous sommes là pour vous aider. Notre site Web propose plusieurs formations pour vous aider à démarrer, toutes adaptées à partir de documents internes que nous avons créés pour nos commandants d'incident. Découvrez-les ici .