Les meilleurs indicateurs pour favoriser le changement culturel dans les équipes DevOps
Qu’est-ce qu’une équipe axée sur les données ?
Tout le monde souhaite optimiser les performances de son équipe, mais il n'est pas toujours facile d'élaborer un plan efficace pour y parvenir. C'est pourquoi les équipes DevOps opérationnellement matures utilisent des indicateurs pour obtenir des informations précieuses sur leur travail, améliorer leurs capacités et favoriser le changement culturel.
Des données fiables permettent aux managers de prendre des décisions rapides en toute confiance et avec un minimum de risques. Elles leur permettent également de voir le résultat réel (et non perçu) de ces décisions, ce qui peut les aider à façonner leur orientation future et à créer une dynamique d’équipe plus heureuse, plus saine et plus productive. Mais une transition vers des idées basées sur les données nécessite plus qu’une simple surveillance accrue. Elle nécessite un changement culturel.
Nous décrivons ici les indicateurs clés que vous devez surveiller et expliquons comment ils peuvent influencer la culture et les performances de votre équipe.
Utilisez le temps de réponse pour établir une culture de réussite élevée
Le délai de réponse (également appelé délai de reconnaissance) dépend de chaque membre de votre équipe. Les intervenants en cas d'incident n'ont pas toujours le contrôle sur la cause profonde d'un incident particulier, mais ils ont toujours le contrôle sur la rapidité avec laquelle ils reconnaissent et réagissent. Tenez les membres de l'équipe responsables de leur temps de réponse en fixant des objectifs internes et en ayant des attentes élevées.
Vous pouvez appliquer un objectif de temps de réponse avec un logiciel de gestion des opérations informatiques comme PagerDuty à l'aide d'un délai d'escalade . Si vous décidez que tous les incidents doivent être traités dans un délai de cinq minutes, définissez votre délai d'attente sur cinq minutes pour vous assurer que la personne suivante dans la file d'attente est alertée. Le suivi de vos escalades vous fournira également des données précieuses sur votre équipe.
Gérer les attentes grâce aux escalades
Pour la plupart des entreprises qui utilisent un logiciel de gestion des opérations informatiques, une escalade est une exception : un signe qu'un intervenant n'a pas pu intervenir à temps sur un incident ou qu'il n'avait pas les outils ou les compétences nécessaires pour y remédier. Bien que les politiques d'escalade soient un élément nécessaire et précieux de la gestion des incidents, les équipes doivent généralement essayer de réduire le nombre d'escalades. Évaluez les performances de votre équipe en suivant le nombre d'incidents escaladés au fil du temps. Ces données vous aideront à déterminer si votre objectif doit être ajusté.
Il convient de noter qu'il existe certaines situations dans lesquelles une escalade fera partie des pratiques opérationnelles standard. Par exemple, vous pouvez avoir un NOC, une équipe d'assistance de premier niveau ou même un outil de correction automatique qui trie ou escalade les incidents entrants en fonction de leur contenu. Dans ce cas, vous souhaiterez suivre les types d'alertes qui doivent être escaladées et à quoi devraient ressembler les nombres normaux pour ces alertes.
Fatigue des alertes de combat avec décompte brut des incidents
À mesure que votre organisation se développe, le nombre d'incidents peut également augmenter. Mais à mesure que votre équipe gagne en efficacité et en maturité, le nombre d'incidents par intervenant devrait diminuer ou, à tout le moins, rester constant. IT Operations Management for DevOps peut aider votre équipe à y parvenir plus rapidement en aidant votre organisation à éliminer les alertes de mauvaise qualité, à automatiser les correctifs courants et à créer des runbooks.
Cela garantit que chaque membre de l'équipe maximise son temps pour attaquer les alertes importantes et créer de nouvelles fonctionnalités pour votre produit, au lieu de s'enliser dans alerte fatigue .
Le nombre brut d'incidents peut également vous aider à déterminer si la charge d'incidents de votre équipe est meilleure ou pire que la moyenne de l'organisation. Si vous décomposez le nombre d'incidents par équipe ou par service, vous pouvez mettre vos chiffres en contexte.
Évaluer l'état de préparation opérationnelle avec le temps moyen de résolution
Le délai de résolution est la norme la plus élevée que vous pouvez utiliser pour mesurer votre équipe. Combien de temps faut-il à votre équipe pour résoudre un incident ?
Chaque organisation a une base de référence différente pour le TTR. La complexité de l'environnement, l'organisation des responsabilités et même le secteur dans lequel elles opèrent peuvent tous contribuer à des normes différentes pour différentes entreprises. Mais les temps d'arrêt sont coûteux, à la fois en termes de perte de revenus et de confiance des clients, et il est important de suivre le MTTR pour s'assurer que votre équipe est globalement à la hauteur des défis d'un incident majeur.
Utilisez ces indicateurs pour favoriser un changement intelligent
N'oubliez pas que votre objectif est de vous concentrer sur les objectifs commerciaux et non sur les chiffres. N'encouragez pas les membres de votre équipe à améliorer leurs chiffres sans perdre de vue la raison pour laquelle vous suivez ces indicateurs en premier lieu.
Vous devez également éviter de trop analyser le passé. Les indicateurs mesurent ce qui s'est déjà produit et, même s'ils peuvent vous en dire beaucoup sur les performances passées de votre équipe, gardez à l'esprit qu'ils doivent être utilisés comme un outil pour un avenir meilleur et non comme un moyen de désigner des coupables.
Les indicateurs ne sont qu'un moyen d'atteindre un objectif, et disposer de plus d'informations que nécessaire ne vous aidera pas à améliorer votre équipe ni à peaufiner votre activité. Pour utiliser les indicateurs comme moteur de changement culturel, il est essentiel de mettre l'accent sur les actions ultérieures.