- PagerDuty /
- Blog /
- Événements /
- AWS : santé des opérations et bonnes pratiques
Blog
AWS : santé des opérations et bonnes pratiques
Le monde des ITOps est un environnement de travail difficile dans lequel le personnel ITOps doit minimiser l’impact commercial des incidents à toute heure de la journée, quel que soit l’impact sur eux-mêmes ou sur leurs familles. À mesure que de plus en plus d’entreprises se lancent dans la transformation numérique, le nombre d’alertes et d’interruptions transmises aux premiers intervenants informatiques va continuer d’augmenter.
Cette pression constante et croissante pour maintenir les systèmes d'entreprise en fonctionnement 24 heures sur 24 entraîne un épuisement professionnel plus élevé que jamais chez les intervenants, ce qui entraîne une augmentation des départs de personnel et un impact négatif sur l'expérience client. En septembre 2018, nous avons inspecté 85 000 services pour déterminer quels systèmes de surveillance génèrent des notifications d'interruption (définies comme des notifications SMS, vocales et push) sur chaque service.
Services intégrés AWS
Les résultats ? Nous avons constaté que les services intégrés à AWS ont un score de santé constamment plus élevé chaque jour au cours des 7 premiers mois de 2018. En moyenne, les services intégrés à AWS ont un score de santé quotidien plus élevé score de santé de plus de 3 points, comme indiqué ci-dessous.
Nous avons également constaté que Services intégrés AWS avait:
- 45 % de notifications quotidiennes en moins en moyenne
- 52 % de notifications en moins pendant les heures de sommeil en moyenne
- 60 % de notifications d'interruption en moins pendant les week-ends
- Proportions plus faibles de notifications quotidiennes pendant les heures de repos et de sommeil
- Nombre réduit de jours sur des périodes de temps (par exemple, semaine ou mois) avec notifications d'heures de repos et de sommeil
Alors, que fait AWS pour générer moins de bruit et, par conséquent, moins de fatigue liée aux alertes ?
Réponse courte : nous ne pouvons pas répondre de manière définitive à cette question. Nous ne pouvons que spéculer sur les raisons pour lesquelles les utilisateurs d'AWS bénéficient d'une santé supérieure à la moyenne par rapport aux utilisateurs d'autres outils DevOps. Par exemple, il peut y avoir une résilience AWS générale sur les offres de services et les instances ou une récupération automatique des instances EC2 et la nature hautement disponible de la plupart des services AWS permettent une plus grande efficacité des opérations et génèrent moins d'alertes. Ce que nous savons, cependant, c'est que sur la base de nos données collectées auprès de plus de 10 500 clients au cours de la dernière décennie, nous avons prouvé les meilleures pratiques que vous pouvez mettre en œuvre afin d'obtenir une amélioration mesurable dans les trois facettes de la santé des opérations : les personnes, l'efficacité et la maturité.
Bonnes pratiques pour la santé des opérations
Exécuter une analyse des notifications transitoires
L’un des moyens les plus simples d’améliorer la santé des opérations consiste à exécuter une analyse des notifications transitoires, qui sont des alertes qui se ferment/se résolvent automatiquement rapidement après leur génération.
Imaginons que vous êtes un intervenant d'astreinte qui a été réveillé au milieu de la nuit par une notification d'interruption par SMS. Vous accusez réception de l'événement sur votre téléphone, puis vous sortez du lit et vous dirigez vers votre ordinateur portable pour commencer les efforts de remédiation. Mais le système de gestion a déjà fermé l'incident, le rendant ainsi sans objet puisqu'il apparaît comme fermé (résolu). Vous êtes maintenant de mauvaise humeur : être réveillé par une alerte d'astreinte fait partie du travail, mais être réveillé pour quelque chose qui s'est déjà résolu est incroyablement frustrant, surtout si cela se produit plusieurs fois par nuit.
Pour éviter de tels scénarios, vous devez exécuter des analyses de notifications transitoires pour déterminer le nombre de transitoires qui se produisent en moins de deux minutes sur chaque service. Ensuite, en fonction du pourcentage de transitoires, nous ajoutons un tampon de notification de deux minutes pour absorber ces transitoires pendant que le problème en amont à l'origine de ces transitoires est traité. Tout incident qui reste ouvert au-delà du tampon de deux minutes est envoyé à la personne de garde. L'absorption des transitoires de cette manière améliore la santé de vos équipes, ainsi que l'efficacité globale de vos opérations en éliminant une source importante de faux positifs.
Regroupement d'alertes
Les humains sont doués dans de nombreux domaines, mais tenter de déterminer l’ampleur d’un incident en examinant un tableau d’alertes recueillies auprès d’une myriade de sources n’en fait pas partie.
Avec groupement d'alertes , deux grandes choses se produisent ensemble :
1) Les alertes sont automatiquement associées et regroupées en incidents qui offrent une bien meilleure connaissance de la situation par rapport à une opération manuelle, et
2) l'intervenant de garde recevra 1 notification d'interruption pour un incident comprenant 50 alertes au lieu de recevoir 51 notifications distinctes pour 50 alertes et 1 incident.
Taxonomies de services
Avoir un taxonomie cohérente L'identification des services pour vos équipes, plannings, politiques d'escalade et services est une autre bonne pratique importante. Pourquoi ? Parce que des services correctement nommés peuvent réduire de quelques minutes les délais de réponse aux incidents en donnant à l'intervenant le contexte de ce qui ne va pas, ce qui facilite l'escalade des incidents, l'intervention de plus d'experts en la matière et, surtout, la réduction de l'impact commercial des incidents.
Que pensez-vous de la santé opérationnelle ?
Gardez à l’esprit que l’un des aspects les plus importants pour améliorer la santé de vos opérations est de travailler sur une amélioration continue et mesurable. Il existe de nombreuses autres bonnes pratiques que vous pouvez utiliser pour aider nos clients à améliorer leurs opérations.
Méthodologie
Pour aider à atténuer les effets négatifs de la vie de garde, le service de gestion de la santé opérationnelle (OHMS) de PagerDuty analyse la santé de l'organisation à travers une perspective de facteurs humains en identifiant les services qui provoquent une dégradation de la santé opérationnelle et en fournissant des recommandations concrètes pour améliorer la santé de manière mesurable. Pour en savoir plus sur notre service de gestion de la santé opérationnelle, Contactez-nous aujourd'hui.