5 signes indiquant que vous avez besoin d'un programme d'astreinte informatique
Depuis notre premier article sur les meilleures pratiques de garde En mars 2011, les méthodes de planification des astreintes n'ont pratiquement pas changé. De nombreuses équipes commencent par envoyer des alertes par e-mail à toute l'équipe, puis quelqu'un se porte volontaire pour résoudre l'incident. Avec ce modèle, certains membres de l'équipe super-héros finissent par gérer un nombre disproportionné d'incidents tandis que les nouvelles recrues n'ont pas la possibilité d'apprendre à les résoudre.
Pire encore, tout le monde est d'astreinte en permanence. À mesure que votre équipe s'agrandit et que les responsabilités sont réparties, un système de rotation d'astreinte est nécessaire. Il n'est cependant pas facile à mettre en œuvre : vos coéquipiers peuvent être basés dans plusieurs villes, les horaires changent et chaque ingénieur a sa propre méthode préférée pour être alerté. Vous avez besoin d'un système suffisamment flexible pour répondre à ces problèmes et suffisamment robuste pour fonctionner de manière fiable.
L'état actuel de la planification des astreintes
Il existe aujourd'hui plusieurs méthodes de planification des astreintes utilisées par les organisations. Certaines sont plus sophistiquées que d'autres, mais chacune possède ses propres limites.
1. Charge de travail inéquitable en cas de permanence
Une solution simple et courante consiste à utiliser un seul téléphone ou téléavertisseur dédié qui est transmis au prochain ingénieur de garde. Bien que cela puisse paraître désuet, de nombreuses organisations avec lesquelles nous avons discuté ont utilisé cette méthode. Si votre équipe est répartie dans plusieurs villes, certains membres ne peuvent pas participer s'ils sont hors de portée. Cela crée une charge injuste pour certains de vos coéquipiers super-héros.
2. Délai de réponse retardé
Une autre option simple, mais qui demande beaucoup de travail, consiste à doter en personnel un centre d’opérations réseau (NOC) ouvert 24 h/24 et 7 j/7. Cette méthode consiste à payer du personnel pour surveiller les indicateurs toute la journée et identifier les problèmes eux-mêmes. Lorsqu’un problème survient, ils doivent rechercher les contacts appropriés dans un annuaire et avertir le personnel d’astreinte pour résoudre la situation. Il serait beaucoup plus facile pour votre équipe NOC de gérer de manière centralisée un système de planification d’astreinte qui avertit directement la bonne personne d’astreinte et réduit votre temps moyen de réponse.
3. Fatigue d'alerte
Certaines entreprises simplifient les choses en envoyant des e-mails à toute leur équipe. Dans ce modèle, l'équipe programmée pour être de garde est responsable de la surveillance de ses e-mails 24 heures sur 24, 7 jours sur 7 ; tous les autres membres de la liste de diffusion doivent supprimer manuellement les alertes. Cela crée du spam et diminue le sentiment d'urgence lors de la réception des alertes.
4. Les alertes passent entre les mailles du filet
Une option plus sophistiquée consiste à automatiser l'adresse e-mail d'alerte dans votre outil de surveillance. Par exemple, vous pouvez configurer Google Agenda avec le planning d'astreinte et utiliser un script qui interroge le calendrier. Le script prend l'e-mail du personnel d'astreinte et met à jour l'outil de surveillance en cas de changement. Cependant, cette solution ne prend en charge que la planification d'astreinte à un seul niveau. Elle ne permet pas les scénarios d'escalade où la première alerte est manquée par l'ingénieur principal et où le coéquipier d'astreinte secondaire doit être averti.
5. Aucune source centrale de plannings de permanence
Certains outils de surveillance prennent en charge la planification des astreintes de manière native via des téléchargements CSV, mais avec une flexibilité limitée. Souvent, vos choix se limitent à des rotations quotidiennes (par opposition à des horaires) ou à des plannings simplistes. Ils ne permettent pas de planifier des astreintes plus complexes, comme des plannings en fonction du temps. De nombreuses entreprises disposent de plusieurs outils de surveillance pour leur site Web, leur serveur, leur base de données, etc. La configuration et la gestion de plusieurs outils de surveillance uniquement pour la planification des astreintes sont pénibles.
Si vous souffrez de l'un des problèmes ci-dessus, vous avez besoin d'un remède. Il est temps de vous tourner vers un remède de gestion des incidents pour soulager vos maux liés à la planification des astreintes et pour préserver votre santé mentale. Ne soyez pas timide si vous ressentez ces désagréments. Nous avons personnellement vécu ces symptômes et c'est pourquoi nous avons créé le PagerDuty guérir.