PagerDuty
/
Blog
/
Gestion et réponse aux incidents
/
5 outils de gestion des incidents dont vous avez besoin lors d'un échange de tirs

Blog

5 outils de gestion des incidents dont vous avez besoin lors d'un échange de tirs

par Sara Jeanes 21 mars 2017 | 5 minutes de lecture

Il est essentiel de disposer des bons outils avant qu'une intervention ne se produise. L'absence d'outils adéquats complique considérablement l'identification, l'organisation, la gestion et la résolution d'une panne majeure. C'est particulièrement vrai lorsque les équipes sont occupées à lutter plutôt qu'à communiquer avec les parties prenantes internes et externes. Si les meilleures pratiques ont été établies en amont, un incident difficile peut être géré beaucoup plus facilement.

La liste suivante n’est pas exhaustive des domaines à planifier avant une panne, mais elle améliorera considérablement la capacité de votre organisation à se coordonner et à se préparer à tout problème.

1. Communications internes

La communication interne se fait généralement par e-mail. Ceci pose problème pour plusieurs raisons. L'e-mail est un média un-à-un. Par défaut, il est fermé, ce qui signifie qu'il n'est lisible que par l'expéditeur et le(s) destinataire(s). Il est par nature volumineux et difficile à analyser lorsqu'une information rapide sur l'état d'avancement est nécessaire. Les environnements de collaboration persistants comme Mou et HipChat offrent un espace de diffusion d'informations hébergé en externe. Ces deux plateformes proposent également des canaux thématiques publics, avec abonnement facultatif, permettant de diffuser l'information. Au niveau critique, des mises à jour de statut (ou des messages indiquant que le problème est déjà connu et en cours de traitement) peuvent être transmises aux équipes clés (support, direction) en temps quasi réel.

2. Surveillance des performances des applications et de l'infrastructure

Idéalement, l'équipe sera informée d'un problème avec une application avant le client. Application et infrastructure technologie de surveillance peut aider à garantir que c'est le cas et peut fournir des informations précieuses au milieu de la panne pour savoir si un correctif ou une mise à jour fonctionne comme il se doit ( Nouvelle relique pour surveillance des applications et AWS CloudWatch sont deux de ces technologies). Il est également important de surveiller les performances des applications et de l'infrastructure, et (idéalement) de les relier entre elles, avec une solution telle que PagerDuty, afin de consolider l'ensemble service de santé Les données sont regroupées dans une vue unique et vous pouvez avertir la ressource d'astreinte si un problème nécessite une intervention urgente. Il est beaucoup plus facile de résoudre un problème si vous avez une visibilité sur les deux couches et pouvez identifier la cause profonde.

3. Mises à jour de statut

En cas de problème de performance, les équipes d'assistance sont submergées de demandes de mises à jour. Pour atténuer cet afflux, utilisez Twitter, une page d'état ou contactez les parties prenantes de l'entreprise avec un produit comme PagerDuty. Ces outils sont indépendants de votre infrastructure principale et doivent être résilients, même en cas de pannes à l'échelle du site. Sur Twitter, les utilisateurs peuvent facilement consulter les tweets épinglés et les réponses récentes en cas de problème. Ils peuvent également consulter statusapp.com pour tout statut « jaune » ou « rouge ». Une page de statut facile à lire, comme celle de statuspage.io est un élément essentiel pour diffuser des informations à vos clients en cas de panne. Un utilisateur gagnera en confiance si la page est précise et inclut des mises à jour pour les perturbations mineures, ce qui renforcera sa confiance envers votre entreprise. Elle doit également contenir des mises à jour lorsqu'un problème est en cours de résolution et indiquer l'état de chaque sous-composant majeur. Ces mises à jour doivent être disponibles en quelques minutes, pour une visibilité totale. Enfin, des fonctionnalités telles que Engagement des parties prenantes de PagerDuty Tout intervenant en cas d'incident peut facilement envoyer une mise à jour de statut à des groupes prédéfinis d'intervenants de l'entreprise via le canal de notification de son choix : téléphone, SMS, e-mail ou notification push. Les intervenants peuvent également s'abonner aux mises à jour de statut d'incident pour obtenir des informations en temps réel sur tout problème impactant le client.

4. Solution de billetterie

Une solution de billetterie comme ZenDesk La gestion d'une panne est absolument essentielle. Une panne importante peut être très perturbatrice et ruiner une bonne partie de la clientèle. Un système de gestion des tickets permettra d'identifier les problèmes intermittents qu'un superviseur d'application aurait pu ignorer. Il permettra également de suivre et de diffuser les informations relatives à un afflux de demandes d'assistance. Les workflows de remontée des problèmes permettront de détecter les problèmes potentiels plus rapidement que de se fier au jugement individuel, en particulier pour les équipes d'assistance plus importantes. Des modèles de messages prêts à l'emploi garantiront la cohérence et la précision des messages pendant une panne, et les balises « liées à » faciliteront également le débriefing d'un problème une fois résolu.

5. Suivi des procédures

Grâce à des procédures appropriées, une organisation peut anticiper les problèmes susceptibles de survenir avec ses applications. Ces scénarios doivent être documentés à l'avance. Les informations de dépannage, d'atténuation et de remédiation doivent être documentées et présentées à l'équipe. La procédure peut également inclure une liste de contrôle des tâches, précisant qui fait quoi, les numéros d'urgence et les astreintes. Si les ressources sont disponibles, un exercice de simulation de panne est extrêmement utile pour identifier les lacunes avant qu'une panne majeure ne se produise. Après un échange de tirs, un compte rendu avec l'équipe est ensuite organisé. autopsie et améliorez vos procédures. Une nouvelle panne est à prévoir, et toute information supplémentaire que vous pourrez ajouter à votre processus accélérera la reprise. Comme pour les points précédents, il est possible que votre architecture locale devienne indisponible. Il est donc préférable de stocker ces procédures dans un référentiel hébergé en externe ou de les automatiser avec une solution telle que PagerDuty.

Ces outils ne constituent qu'une liste préliminaire. Leur efficacité en cas de panne dépend du temps consacré à leur configuration et à leur compréhension préalables. La communication avec les parties prenantes internes et externes est essentielle dans toute intervention, tant au sein de l'entreprise qu'au sein de l'entreprise. IL comme dans toute autre fonction ou industrie.

Gestion des incidents

Vous aimerez peut-être aussi ceux-ci...

AIOps , Gestion et réponse aux incidents
Comment résoudre les trois problèmes critiques de l'IA qui empêchent les équipes d'IA de dormir la nuit

IA , Automation , Meilleures pratiques et perspectives , Gestion et réponse aux incidents
Il est temps de connecter vos îlots d'automatisation avec des agents IA

Automation , Meilleures pratiques et perspectives , Gestion et réponse aux incidents , Non classé
Diagnostics et triage automatisés : le moyen le plus rapide de réduire le temps d'intervention