Blog

Utilisation des données de gestion des incidents pour mesurer les performances de l'équipe

par Patrick O'Fallon 21 septembre 2016 | 5 minutes de lecture

Lors de la gestion de votre ITOps En tant qu'équipe, il est important d'établir des indicateurs clés de performance (KPI) basés sur des données réelles et exploitables. À mesure que le paysage ITOps évolue, la responsabilité et la taille potentielle de votre équipe augmenteront avec lui, ouvrant la voie à davantage de ressources et d'utilisateurs à gérer, ainsi qu'à une plus grande variabilité entre les environnements de calcul, les configurations et la sécurité. Aujourd'hui plus que jamais, vous devez disposer d'une plateforme qui fournit une image claire des performances et de l'efficacité globale de votre équipe.

Ce qui se cache dans les analyses

Les organisations adoptent une plateforme de gestion des incidents pour passer d'un processus réactif à un processus proactif. La solution peut vous indiquer ce qui ne va pas et fournir les données nécessaires pour une résolution rapide. Cette valeur est évidente. Mais lorsque j'ai commencé à travailler avec PagerDuty, j'ai découvert qu'il y avait un joyau caché qui faisait passer la plateforme au-delà de la simple gestion des incidents. J'ai pu exploiter les analyses intégrées pour mesurer les performances et l'efficacité de mon équipe avec un nouveau niveau de transparence.

pagerduty-analytics-dashboard-reports source : Tableau de bord d'analyse PagerDuty

Repérez les meilleurs contributeurs

Grâce à la puissance des données PagerDuty , nous avons pu mettre en place un système pour récompenser ceux qui ont répondu aux incidents.

Il arrive parfois qu'un ingénieur de garde finisse par sauter des appels ou par manquer des appels notoirement pour des incidents très urgents. Cela réduit non seulement l'efficacité de l'équipe, mais finit également par forcer les membres responsables de l'équipe à assumer une plus grande part de la charge. En analysant les analyses de gestion des incidents centrées sur l'utilisateur, nous avons pu rapidement découvrir quels membres de l'équipe non seulement reconnaissent et répondent aux incidents, mais aussi le pourcentage de membres de l'équipe qui ont participé et exécuté leurs tâches pendant une période donnée. Bien sûr, l'inverse est également vrai, mais nous choisissons de donner l'exemple.

Si vous ouvrez les données à votre équipe, elles peuvent également être utilisées pour l'autosurveillance. Par exemple, si un utilisateur présente un pourcentage élevé d'escalades basées sur l'absence d'activité ou des « escalades de dépassement de délai », cette visibilité peut aider l'équipe à prendre de manière proactive les mesures appropriées pour renforcer l'efficacité avant que cela ne provoque un problème de réponse aux incidents qui pourrait affecter le SLA.

Aucune réponse aux incidents dans le vide

Un autre problème auquel nous étions confrontés était que les incidents étaient reconnus et résolus dans le vide : le manque d’analyses et de rapports permettait aux ingénieurs de répondre aux incidents sans que le reste de l’équipe ne le sache, sans aucune idée de ce qui s’était passé. Cela crée un cercle vicieux pour les équipes ITOps, car les meilleurs éléments peuvent se retrouver assiégés sans aucune motivation pour continuer leur excellent travail, et dans certains cas, cela peut conduire à un turnover des ingénieurs. Cela conduit également à des occasions cruciales et perdues d’apprendre des problèmes historiques.

Récompenses basées sur des mesures

Sur la base de ces analyses, nous avons élaboré un programme d'incitation en fonction des personnes qui ont reconnu et résolu le plus d'incidents chaque mois. Cela a contribué à stimuler la concurrence pour que les ingénieurs soient plus productifs.

Un autre exemple pourrait être de récompenser votre équipe d'escalade ITOps si elle maintient le MTTA en dessous d'une minute et le MTTR en dessous d'une heure (ou toute autre mesure pertinente pour votre équipe). Non seulement ces programmes d'incitation stimulent vos ingénieurs et l'ensemble de votre équipe d'escalade, mais ils contribuent également à votre efficacité dans le maintien de vos SLA.

Vous trouverez ci-dessous quelques idées sur la manière de commencer à motiver votre équipe de réponse aux incidents :

  • Récompensez le « meilleur intervenant en cas d’incident » du mois.
    • Il pourrait s’agir de la personne qui reconnaît le plus d’incidents au sein de l’équipe.
    • Il pourrait s’agir de la personne qui fait remonter le plus d’incidents non résolus au sein de l’équipe.
  • Encouragez les indicateurs basés sur les performances de votre équipe.
    • Il peut s’agir de maintenir des problèmes hautement urgents dans le cadre d’un ensemble spécifique de critères.
    • Récompensez l’utilisateur avec les incidents les plus urgents qui lui sont attribués.
    • Encouragez les temps de reconnaissance et de résolution axés sur les objectifs.
  • Encourager les mesures et la réactivité au fil du temps
    • Récompensez votre équipe pour avoir progressé par rapport au mois dernier.
  • Mesures de discipline qui se situent en dessous de votre SLA
    • Le « temps d’astreinte » est élevé, tandis que le « nombre d’incidents reconnus » est faible.
    • Fréquence élevée de « Timeout Escalades » de la part de certains membres de l'équipe
    • « Le temps de reconnaissance » et « le temps de résolution » sont plus élevés que l’objectif prévu

pagerduty-analytics-dashboard-team-reports source : Tableau de bord d'analyse PagerDuty

 

Les exigences de niveau de service imposées aux ITOps deviennent de plus en plus strictes, et les défis opérationnels sont de plus en plus importants, tout comme les défis de gestion. Si les équipes ITOps exploitent les outils existants pour apprendre, mesurer et motiver de manière proactive leur équipe, elles bénéficient à la fois d'une efficacité opérationnelle et d'une productivité d'équipe. Analyse de la gestion des incidents sur des plateformes telles que PagerDuty est devenue une ressource inestimable pour nous, non seulement pour faire face à ces exigences croissantes en matière d'informatique, mais aussi pour rationaliser l'efficacité et augmenter la satisfaction des membres de l'équipe. Cela nous a donné plus de transparence, un meilleur apprentissage et un excellent moyen de mesurer et de motiver chaque membre de notre équipe.

 

Prêt à essayer PagerDuty ? Inscrivez-vous pour un essai gratuit.