Blog

Êtes-vous prêt pour votre prochaine panne majeure ?

par Université PagerDuty 1er août 2024 | 4 minutes de lecture

Les logiciels ne sont pas parfaits. Et en fin de compte, ce n'est pas une question de si vous aurez une panne, mais bien sûr quand Avec la complexité et la fréquence croissantes des incidents informatiques, votre organisation est-elle prête à réagir et à récupérer lorsque chaque seconde compte ?

Chez PagerDuty, nous avons compilé une liste de bonnes pratiques pour maintenir vos systèmes opérationnels.

Avant une panne…

1. Documenter et mettre en pratique les processus d'incident majeur
Assurez-vous que les intervenants sont prêts à intervenir, connaissent les processus de gestion des incidents et savent comment interagir avec les autres équipes. Réalisez des simulations de réponse aux incidents pour mettre en pratique les processus internes de résolution des incidents majeurs.

Astuce : utilisez notre La gestion des incidents solution pour un engagement rapide des équipes, y compris Rapports de disponibilité sur appel pour vérifier la réactivité des profils des utilisateurs.

2. Déterminez où concentrer vos efforts
Répondez-vous manuellement à tous les incidents ou prenez-vous des mesures préventives pour anticiper les problèmes avant qu'ils ne surviennent ? Assurez-vous de savoir où se situe votre organisation en termes de maturité opérationnelle.

PagerDuty Operational Maturity Model

 

 

Conseil : Passez du réactif au préventif en révisant votre Maturité opérationnelle Rapportez-nous sur notre plateforme de gestion des incidents. Trouvez et mettez en œuvre des recommandations spécifiques, telles que l'ajout d'automatisation ou l'amélioration de l'efficacité des équipes, pour renforcer la résilience opérationnelle.

En cas de panne…

3. Améliorer la connaissance de la situation lors du tri des incidents
Donnez aux intervenants l'accès aux informations contextuelles dès qu'ils sont alertés d'un incident. Assurez-vous que les intervenants disposent d'un moyen d'avoir une idée de la situation en identifiant les incidents passés et connexes ainsi que toute information contextuelle qui répond à la question « Quelque chose s'est cassé. Qu'est-ce qui a changé ? »

Astuce : utilisez PagerDuty Analyse des causes profondes AIOps fonctionnalités pour découvrir instantanément des informations critiques sur les incidents passés, connexes et aberrants. Tirez parti de notre Événements de changement fonctionnalité permettant de visualiser les modifications les plus récentes apportées à vos services (80 % des incidents sont le résultat d'événements de changement tels que les déploiements de logiciels.)

4. Définissez les rôles de votre équipe d’intervention
Assurez-vous que votre équipe d'intervention dispose d'un ensemble clairement défini de rôles en cas d'incident (par exemple, commandant d'incident, agent de liaison client, scribe, etc.). L'établissement de rôles en cas d'incident définit sans ambiguïté les responsabilités, favorise la responsabilisation et permet une réponse plus ciblée aux incidents.

Outage responders

Conseil : utilisez notre plateforme de gestion des incidents pour créer des Rôles des incidents qui peut être assigné lors d'un incident majeur.

5. Déployer l'automatisation pour accélérer les diagnostics
Sortez vos équipes du mode pompier. Automatisez les tâches de routine et les processus de réponse aux incidents pour éliminer le travail manuel. Réduisez le bruit des alertes afin de réduire le nombre d'interruptions lors de la réponse aux incidents, ce qui permet une résolution plus rapide.

Astuce : Tirez parti de notre AIOps et des solutions de gestion des incidents pour une meilleure gestion des événements et un tri accéléré. Pour un contrôle plus précis, utilisez PagerDuty Automatisation du livre d'exécution exécuter des actions spécifiques en fonction d'événements définis.

Le 19 juillet 2024, lors de la plus grande panne informatique jamais enregistrée au monde, nos clients AIOps + IM ont constaté une augmentation de 1 425 % de l'utilisation de l'automatisation. Cela a permis aux équipes d'automatiser les tâches de routine, améliorant ainsi considérablement leur réponse aux incidents.

6. Tenez vos clients informés
Assurez-vous que les équipes de support client et de service reçoivent des données en temps réel et des communications bidirectionnelles de la part de l'ingénierie. Cette collaboration permet à toutes les équipes d'agir comme une unité et de résoudre les problèmes plus rapidement ensemble dans le but commun de créer des expériences client positives (même en cas de panne).

Astuce : utilisez notre Opérations de service à la clientèle solution permettant de personnaliser les flux de travail et d'intégrer les données de tous vos outils pour donner au support client un aperçu immédiat de votre infrastructure informatique.

7. Établir un processus de communication avec les parties prenantes
Créez un protocole clair pour communiquer avec les parties prenantes lors d’une panne, détaillant comment elles recevront les mises à jour de statut et où trouver des informations supplémentaires.

Astuce : Créer Abonnements des parties prenantes abonner les parties prenantes aux services et incidents commerciaux et informer les publics publics et privés Pages d'état .

Après une panne…

8. Établir un processus d’évaluation post-incident
Ne laissez pas une panne se transformer en perte de temps. Établissez un processus clair de révision post-incident pour améliorer les réponses futures et créer une boucle de rétroaction continue pour intégrer les améliorations dans vos processus.

Astuce : Consultez notre Guide HOWIE post-incident pour des recommandations détaillées sur la façon de tirer le meilleur parti de vos évaluations post-incident.

Pourquoi écouter PagerDuty?
Le 19 juillet 2024 (lors de la plus grande panne informatique jamais enregistrée au monde), nos clients AIOps et Incident Management ont en moyenne évité 132 actions d'incident, économiser plus de 1600 heures de réponse – en une seule journée.

Jeter un coup d'œil à cette liste de contrôle pour évaluer votre résilience opérationnelle afin de vous préparer à la prochaine panne de service massive.