Une procédure opérationnelle standard pour les situations où la situation devient critique
C'est le troisième en une série de messages sur l’augmentation de la disponibilité globale de votre service ou système.
Dans le premier poste Dans cette série, nous avons défini et introduit certains concepts de disponibilité du système, notamment le temps moyen entre pannes (MTBF) et le temps moyen de récupération (MTTR). deuxième message nous avons ensuite discuté de moyens simples par lesquels vous pouvez réduire efficacement le MTTR en commençant maintenant Cet article continue sur ce thème avec d’autres conseils pour réduire le MTTR et augmenter directement votre disponibilité.
Avoir un SOP
Pour le vraiment En cas de problème grave, établissez une procédure opérationnelle standard que tout le monde sait suivre. La procédure opérationnelle standard doit être un ensemble d'étapes qui peuvent être suivies pour faciliter le travail sur le problème en améliorant la communication et l'organisation. Cela diffère des modes d'échec documentés dans la section « Connaissez votre ennemi » de mon dernier post , dans la mesure où un SOP est une procédure générique qui peut être utilisée dans pratiquement tous les cas n'importe lequel scénario d'échec majeur.
Le SOP serait quelque chose que votre ingénieur principal de garde peut utiliser si une catastrophe majeure se produit et qu'il ne peut pas résoudre immédiatement dans un délai déterminé, par exemple 10 minutes.
Un exemple de SOP pourrait être que votre astreinte :
- Lancez une conférence téléphonique et invitez d'autres membres de l'équipe. Cela garantit que toutes les personnes travaillant sur le problème disposent d'un lien de communication rapide et facile, et que vous n'avez pas à vous soucier de la communication. se marcher sur les pieds . Vous pouvez utiliser une ligne téléphonique dédiée à la conférence téléphonique ou quelque chose d'aussi simple que Skype. Il suffit d'organiser ce canal vocal à l'avance, afin de ne pas avoir à déterminer l'identifiant Skype de chacun, etc., lorsque vous êtes vraiment pressé par le temps.
- Assurez-vous qu'il y a un responsable d'appel désigné ou « Commandant d'intervention ' – un vétéran chevronné des astreintes qui ne connaît pas forcément le système défectueux en question, mais qui sait comment diriger les autres dans les tâches de débogage et de résolution. Ce responsable d'appel doit garder tout le monde sur la bonne voie, s'assurer que les balles ne sont pas lâchées et résoudre les conflits s'ils surviennent.
- Disposez d'un ensemble de diagnostics que le responsable de permanence peut démarrer dès que possible pendant que l'appel est en cours de configuration et que les personnes se joignent. Ces diagnostics peuvent être des éléments tels que des données de surveillance, des graphiques pertinents, des problèmes connexes dans d'autres systèmes, etc., et seront immédiatement utiles au début de la conférence téléphonique.
- Préparez un système de discussion désigné pour le partage de données, de liens, d'extraits de code ou de tout ce qui doit être partagé de manière non verbale. Certains systèmes de billetterie conviennent également à cela. Chez PagerDuty, nous utilisons HipChat .
- Si vous faites partie d'une grande organisation, désignez une personne qui communique avec les parties prenantes de l'entreprise, comme la haute direction. Ces parties prenantes seront naturellement (très) intéressées par votre résolution du problème le plus rapidement possible, mais elles seront probablement perturbatrices si elles se joignent directement à la conférence téléphonique. Votre vice-président ne connaît probablement pas les entrailles et les subtilités de votre couche de messagerie ou de votre système de mise en cache, mais peut certainement intimider les ingénieurs déjà stressés lors d'une conférence téléphonique. Ces personnes peuvent cependant être très utiles si des décisions importantes doivent être prises qui pourraient perturber d'autres facettes de l'entreprise (par exemple en vous faisant perdre temporairement des commandes/demandes/de l'argent/la face/autre) afin de contribuer à résoudre le problème en question, il est donc important de communiquer avec elles.
Disposer d'une procédure opérationnelle standard pour les problèmes de très grande gravité réduit la variabilité des temps de réponse et de résolution et permet à tout le monde d'être rapidement opérationnel, y compris les décideurs de l'entreprise. Cela réduit également le stress, l'incertitude et la confusion lorsqu'il existe une procédure assez claire à suivre pour commencer à traiter des problèmes de grande ampleur.