- PagerDuty /
- Blog /
- Gestion et réponse aux incidents /
- 5 outils de gestion des incidents dont vous avez besoin lors d'un échange de tirs
Blog
5 outils de gestion des incidents dont vous avez besoin lors d'un échange de tirs
Il est essentiel de disposer des bons outils avant qu'une intervention ne se produise. L'absence d'outils adéquats rend beaucoup plus difficile la reconnaissance, l'organisation, la lutte et la résolution d'une panne majeure. Cela est particulièrement vrai lorsque les équipes sont occupées à se battre plutôt qu'à communiquer avec les parties prenantes internes et externes. Si les meilleures pratiques ont été établies à l'avance, un incident difficile peut être géré beaucoup plus facilement.
La liste suivante n'est pas exhaustive des domaines à planifier avant une panne, mais elle améliorera considérablement la capacité de votre organisation à se coordonner et à se préparer à tout problème.
1. Communications internes
La communication interne se fait généralement par courrier électronique. Cela pose problème pour plusieurs raisons. Le courrier électronique est un support de communication un à un. Il est fermé par défaut, ce qui signifie qu'il n'est lisible que par l'expéditeur et le(s) destinataire(s), et qu'il est intrinsèquement volumineux et difficile à analyser lorsque des informations d'état rapides sont nécessaires. Les environnements de collaboration persistants tels que Mou et HipChat fournissent un emplacement hébergé en externe pour diffuser des informations. Ces deux plateformes proposent également des canaux thématiques publics, avec abonnement facultatif, qui peuvent être utilisés pour diffuser des informations. Au niveau critique, des mises à jour de statut (ou des messages indiquant que le problème est déjà connu et en cours de traitement) peuvent être fournies au personnel clé (support, direction) en temps quasi réel.
2. Surveillance des performances des applications et de l'infrastructure
Idéalement, l'équipe saura qu'il y a un problème avec une application avant le client. Application et infrastructure technologie de surveillance peut aider à garantir que c'est le cas et peut fournir des informations précieuses au milieu de la panne pour savoir si un correctif ou une mise à jour fonctionne comme il se doit ( Nouvelle relique pour surveillance des applications et AWS CloudWatch sont deux de ces technologies). Il est également important de surveiller à la fois les performances des applications et celles de l'infrastructure, et (idéalement) de relier les deux entre elles, avec une solution telle que PagerDuty, pour consolider toutes les performances. service de santé Les données sont regroupées dans une vue unique et vous pouvez avertir la ressource d'astreinte si un problème nécessite une action urgente. Il est beaucoup plus facile de résoudre un problème si vous avez une visibilité sur les deux couches et si vous pouvez identifier la cause première.
3. Mises à jour de statut
En cas de problème de performances, les équipes d'assistance seront inondées de demandes de mises à jour. Les principaux moyens d'atténuer cet afflux consistent à utiliser Twitter, une page de statut ou à impliquer les parties prenantes de l'entreprise avec un produit comme PagerDuty. Ceux-ci sont distincts de votre infrastructure principale et doivent être résilients même aux pannes à l’échelle du site. Sur Twitter, les utilisateurs peuvent facilement rechercher des tweets épinglés et des réponses récentes s'ils rencontrent un problème. Les utilisateurs peuvent également vérifier statusapp.com pour tout statut « jaune » ou « rouge ». Une page de statut facile à lire comme celle de page d'état.io est un élément essentiel pour diffuser des informations à vos clients en cas de panne. Un utilisateur fera confiance à la page si elle est précise et inclut des mises à jour pour les perturbations mineures. De cette façon, il renforcera également sa confiance dans votre entreprise. Elle doit également contenir des mises à jour lorsqu'un problème est en cours de résolution et inclure le statut de chaque sous-composant majeur. Ces mises à jour doivent être disponibles en quelques minutes, pour une visibilité complète. Enfin, avec des fonctionnalités telles que Engagement des parties prenantes de PagerDuty , tout intervenant en cas d'incident peut facilement envoyer une mise à jour de statut qui atteint des groupes prédéfinis de parties prenantes de l'entreprise via n'importe quel canal de notification préféré (téléphone, SMS, e-mail ou notification push). Les parties prenantes peuvent également s'abonner aux mises à jour de statut d'incident pour obtenir des informations en temps réel sur tout problème ayant un impact sur le client.
4. Solution de billetterie
Une solution de billetterie comme ZenDesk Il est absolument essentiel de gérer une panne. Une panne importante peut être très perturbatrice et faire perdre une bonne partie de la bonne volonté. Un système de gestion des tickets permettra d’identifier les problèmes intermittents qu’un moniteur d’application aurait pu manquer. Il permettra également de suivre et de diffuser les informations relatives à un afflux de demandes d’assistance. Les flux de travail pour l’escalade des problèmes permettront de faire remonter les problèmes potentiels plus rapidement que de s’appuyer sur le jugement individuel, en particulier dans les équipes d’assistance plus importantes. Des modèles de messages prêts à l’emploi permettront de maintenir la cohérence et l’exactitude des messages pendant une panne, et les balises « liées à » faciliteront également le débriefing d’un problème une fois qu’il a été résolu.
5. Suivi des procédures
Avec des procédures appropriées en place, une organisation peut anticiper les problèmes susceptibles de survenir à partir de ses applications. Ces scénarios doivent être documentés à l'avance. Les informations de dépannage, d'atténuation et de correction doivent être documentées et présentées à l'équipe. La procédure peut également inclure une liste de contrôle des tâches, qui indique qui fait quoi, et inclut les numéros d'urgence et qui est de garde. Si des ressources sont disponibles, un exercice sur table d'une panne simulée est extrêmement utile pour identifier les lacunes avant qu'une panne majeure ne se produise. Ensuite, après un échange de tirs, faites un compte rendu avec l'équipe dans un autopsie et améliorez vos procédures. Il y aura une autre panne et toute information supplémentaire que vous pourrez ajouter à votre processus accélérera la récupération. Comme pour les autres éléments ci-dessus, il est possible que votre architecture locale devienne indisponible, il est donc préférable de stocker ces procédures sur un référentiel hébergé en externe, ou de les automatiser avec une solution telle que PagerDuty.
Ces outils ne sont qu'une liste initiale. Leur efficacité en cas de panne n'a de valeur que dans la mesure où le temps passé à les configurer correctement et à les comprendre au préalable est essentiel. La communication avec les parties prenantes internes et externes est essentielle dans toute situation de crise, tout comme au sein de l'entreprise. IL comme dans toute autre fonction ou industrie.