Blog

Suivi des indicateurs commerciaux et amélioration de la réponse aux pannes

par Dave Cliffe 4 juin 2015 | 4 minutes de lecture

L’importance de surveiller les indicateurs commerciaux

Que le processeur de votre serveur soit fixé à 100 % ou Quelqu'un coupe ta forêt tropicale PagerDuty n'a pas d'avis sur la façon dont vous utilisez notre plateforme pour déclencher une réponse de votre équipe d'astreinte. Mais il y a un domaine sur lequel nous avons une opinion bien arrêtée : les alertes sur les indicateurs commerciaux. Vous devriez le faire.

Mais qu'entendons-nous par « mesures commerciales » ? Les outils de surveillance ayant facilité la collecte de mesures opérationnelles telles que l'utilisation du disque, la latence des requêtes, etc., il est devenu encore plus simple de configurer des alertes sur PagerDuty lorsque ces mesures commencent à déraper.

Appuyer sur le gros bouton rouge

Fondamentalement, nous considérons ces indicateurs comme des indicateurs d'une panne plus importante et ayant un impact sur l'entreprise. Il est absolument essentiel de comprendre ce que vos indicateurs vous disent avant qu'une panne plus importante ne se produise, et c'est souvent complexe et difficile à exprimer. En fait, c'est quelque chose que de nombreux employés expérimentés du NOC développent simplement comme une sorte de « sixième sens ». (Il est intéressant de noter que c'est également quelque chose qui ne peut pas être efficacement entraîné. Le livre de Kathy Sierra Badass : rendre les utilisateurs géniaux parle du concept de « connaissance perceptive » et de la façon dont le cerveau est capable d'apprendre beaucoup mieux en pratiquant la reconnaissance de modèles qu'en essayant de verbaliser la formation, en utilisant des exemples de sexage des poussins et formation de vol . Cela semble s'appliquer de la même manière compte tenu des combinaisons de mesures opérationnelles qui indiquent une panne.) Que vous utilisiez un NOC ou une équipe d'astreinte distribuée, une décision d'enquête et de triage est prise (vraisemblablement) par un humain qui aboutit à une réponse urgente et coordonnée. Chez PagerDuty, nous appelons cela « appuyer sur le gros bouton rouge ». Cela fonctionne. Mais cela nécessite toujours une intervention humaine afin de confirmer un problème potentiellement répandu.

Anticipez les pannes en surveillant les indicateurs commerciaux en temps réel

Qu'est-ce qui est plus simple ? Commencez à surveiller les indicateurs de votre entreprise en temps réel. Votre directeur financier, vos analystes commerciaux et même vos chefs de produit examinent déjà ces données régulièrement, voire quotidiennement. L'essentiel est de les exploiter. Vous êtes peut-être une entreprise de commerce électronique qui s'appuie fortement sur un panier d'achat qui contient généralement des milliers d'articles sur l'ensemble de votre clientèle au cours de la journée de travail. Que se passe-t-il si le panier affiche soudainement des zéros sur toute la ligne ? Indice : quelque chose ne va pas et vous devez faire en sorte que tout le monde y travaille dès que possible. C'est ce que font les entreprises les plus efficaces. Amazon sonne l'alarme lorsqu'il y a une baisse perceptible des commandes par seconde. Netflix surveille les démarrages de flux par seconde. Des changements inattendus dans ces indicateurs importants déclenchent une enquête de grande envergure et une réponse d'urgence.

Comment nous surveillons les indicateurs commerciaux en interne

Chez PagerDuty, nous vivons selon un code de fiabilité : nous devons être opérationnels plus que nos fournisseurs, plus que les centres de données sur lesquels nous sommes hébergés et plus que vous. Notre SLA est sacré pour nous, et au cœur de celui-ci se trouve notre pipeline d'ingestion et d'alerte d'événements. Nous avons conçu notre système de telle sorte que tout ralentissement de notre pipeline alerte dix personnes simultanément et déclenche immédiatement une réponse urgente et critique. Aucune étape de triage humain n'est nécessaire. Nous savons que nous avons besoin de l'équipe d'intervention d'urgence immédiatement, car nos indicateurs commerciaux ont indiqué que quelque chose ne va pas.

L'ingénierie, c'est du business

En tant qu'ingénieurs, nous devons toujours comprendre comment nous apportons de la valeur à l'entreprise. Votre rôle ne se limite pas à « maintenir les lumières allumées » pour votre organisation, en particulier à mesure qu'elle grandit, évolue et trouve de nouvelles façons de satisfaire les clients. Il ne s'agit pas seulement de « garantir la disponibilité du serveur ». Changez votre perspective pour adopter une approche de surveillance axée sur l'entreprise et axée sur le client. Pour l'adopter vous-même, déterminez les indicateurs qui reflètent VOTRE entreprise, surveillez-les en temps réel, apprenez à détecter les anomalies et déclenchez une réponse appropriée lorsque quelque chose ne va pas.

N'oubliez pas : une charge CPU à 100 % peut être une mauvaise chose (un signe avant-coureur d'une panne) ou une bonne chose (une utilisation maximale des ressources). Vous ne le saurez pas si vous ne comprenez pas comment vos clients et votre entreprise sont impactés.

eBook_440_220