Blog

Réduire votre temps de résolution d'incident

par Julie Arsenault 12 novembre 2014 | 4 minutes de lecture

Il y a quelque temps, nous avons blogué sur indicateurs de performance clés Les équipes opérationnelles les plus performantes suivent les indicateurs. Le temps moyen de résolution (MTTR) était l'un de ces indicateurs. Il s'agit du temps écoulé entre la panne et la récupération après la panne, et il est directement lié à votre temps de disponibilité. Le MTTR est une excellente mesure à suivre, mais il est également important d'éviter une vision myope.

Mettre le MTTR en perspective

Votre temps d’arrêt global dépend du nombre de pannes ainsi que de la durée de chacune d’elles. Dan Slimmon fait un excellent travail en discutant de ces deux facteurs et de la façon dont vous pouvez réfléchir à leur hiérarchisation. Selon votre situation, il peut être plus important de minimiser les alertes bruyantes qui se résolvent rapidement (ce qui signifie que votre MTTR peut en fait augmenter lorsque vous faites cela). Mais si vous avez identifié le MTTR comme un domaine à améliorer, voici quelques stratégies qui peuvent vous aider.

Travailler plus vite ne résoudra pas le problème

Il serait bien de pouvoir résoudre les pannes plus rapidement en travaillant plus vite, mais nous savons tous que ce n'est pas vrai. Pour apporter des améliorations durables et mesurables à votre MTTR, vous devez mener une enquête approfondie sur ce qui se passe pendant une panne. C'est vrai : le temps de résolution variera toujours en raison de la complexité des incidents. Mais examiner vos processus est un bon point de départ : souvent, la clé pour gagner du temps réside dans la façon dont vos employés et vos systèmes travaillent ensemble.

Vérifiez votre temps de RÉPONSE

Le compte à rebours « MTTR » commence dès qu’un incident est déclenché, et en ajustant vos processus de notification, vous pourrez peut-être obtenir des gains rapides.

Curieux de savoir comment se situe votre temps de réponse ? Nous avons examiné un mois de données PagerDuty pour comprendre les délais d'accusé de réception (réponse) et de résolution, ainsi que leur relation. Le temps médian de réponse était de 2,82 minutes et 56 % des incidents ont été reconnus dans les 4 minutes. Le temps de résolution médian était de 28 minutes. Pour 40 % des incidents, le délai d'acquittement est compris entre 0 et 20 % du temps de résolution.

Temps de réponse médian : 2,82 minutes

Temps de résolution médian : 28 minutes

Incident Response Time as % of Resolution Time

Si votre délai de réponse est long, vous pouvez examiner la manière dont l'équipe est alertée. Les alertes parviennent-elles toujours à la bonne personne ? Si la première personne notifiée ne répond pas, les alertes peuvent-elles être automatiquement transmises et combien de temps devez-vous vraiment attendre avant de passer à autre chose ? Définir les attentes et les objectifs appropriés en matière de temps de réponse peut contribuer à garantir que tous les membres de l'équipe répondent à leurs alertes le plus rapidement possible.  

Établir un processus pour les pannes

Une panne est une période stressante, et ce n'est pas le moment idéal pour réfléchir à la manière de réagir aux incidents. Établissez un processus (même s'il n'est pas parfait au début) pour que tout le monde sache quoi faire. Assurez-vous d'avoir les éléments suivants en place :

  1. Établir un protocole de communication – Si l’incident concerne plusieurs personnes, assurez-vous que tout le monde sait où se trouver. Les conférences téléphoniques ou les Google Hangouts sont une bonne idée, ou une salle individuelle dans Hipchat.
  2. Établir un leader – c'est la personne qui dirigera le travail de l'équipe pour résoudre la panne. Elle prendra des notes et donnera des ordres. Si le reste de l'équipe n'est pas d'accord, le chef peut être démis de ses fonctions, mais un autre chef doit être nommé immédiatement.
  3. Prenez de bonnes notes – à propos de tout ce qui se passe pendant la panne. Ces notes constitueront une référence utile lorsque vous regarderez en arrière lors de l’autopsie. Chez PagerDuty, certains de nos responsables d'appel aiment utiliser un cahier papier à côté de leur ordinateur portable comme rappel visuel qu'ils devraient tout enregistrer.
  4. C'est en forgeant qu'on devient forgeron – Si vous ne subissez pas de pannes fréquentes, pratiquez votre plan de réponse aux incidents tous les mois pour vous assurer que l'équipe est bien au fait du processus. N'oubliez pas non plus de former les nouveaux employés à ce processus.

Pour en savoir plus, consultez Conférence de Blake Gentry à propos de la gestion des incidents chez Heroku.

Trouver et résoudre le problème

La recherche de la cause du problème représente souvent la majeure partie du temps de résolution. Il est essentiel de disposer d'instruments et d'analyses pour chacun de vos services et de vous assurer que ces informations vous aident à identifier la cause du problème. Pour les problèmes relativement courants et bien compris, vous pourrez peut-être mettre en œuvre des correctifs automatisés. Nous aborderons chacun de ces domaines dans des articles ultérieurs.