- PagerDuty /
- Blog /
- Communauté /
- Comment gérer un service de niveau zéro
Blog
Comment gérer un service de niveau zéro
Dans un article de blog récent, Gérer un service de niveau zéro ne doit pas être effrayant Tim Armandpour, vice-président senior du développement de produits de PagerDuty, a discuté de plusieurs bonnes pratiques importantes qui minimiser le chaos lors de la résolution des incidents Selon Tim, dans le monde toujours connecté d'aujourd'hui, garantir la fiabilité en adoptant de meilleures processus de réponse aux incidents est une pratique plus importante que jamais. Il est essentiel que les équipes soient en mesure de répondre à des questions telles que « comment avertir les bonnes personnes lorsque mon système est en panne », « comment réduire les délais de résolution », « comment faire apparaître les bonnes données et comment pouvons-nous nous améliorer collectivement ? »
Il a partagé l'histoire de la transformation de PagerDuty et la façon dont notre équipe d'ingénierie a commencé à injecter des échecs dans notre propre environnement avec Les vendredis de l'échec améliorer la résilience du système, mieux détecter les problèmes de manière proactive et acquérir une pratique essentielle pour agir efficacement et résoudre les problèmes. Il a également décrit les deux principaux objectifs de Failure Friday : 1) comprendre les scénarios d’échec courants et établir les meilleures pratiques en cas de problème, et 2) favoriser la collaboration en réunissant des parties disparates de notre organisation pour résoudre les problèmes – en particulier dans la ligne de tir – en utilisant une approche contrôlée et intentionnelle.
L'article met en évidence les principaux enseignements tirés de l'introduction des Vendredis de l'échec, notamment :
- L'équipe analyse en permanence différents scénarios d'échec, teste et essaye différentes choses pour tenter d'exposer des vulnérabilités potentielles. Les équipes chargées de gérer les services qui sont attaqués ne le savent pas à l'avance (comme dans la vraie vie). Tout le monde doit être prêt à se mettre en mode de réponse coordonnée à tout moment.
- L'équipe effectue des tests de scénarios d'échec pas dans un environnement de test ou de pré-production, mais dans l'environnement de production réel. Bien que les tests de défaillance soient toujours conçus de manière à garantir que les clients ne soient pas affectés, il est essentiel d'être intentionnel pour devenir de véritables experts en réponse aux incidents réels. Selon Tim, la fiabilité étant une promesse si importante faite à nos clients, « nous pratiquons comme si notre travail en dépendait ».
- Lorsque vous faire Pour identifier une vulnérabilité lors d'un test de défaillance en direct, il est important de ne pas laisser cela devenir source de panique. Au contraire, les « pièges » sont une occasion importante de s'habituer à ne pas se laisser perturber au milieu des incendies, ainsi que de mettre en œuvre un correctif et d'améliorer encore la résilience de votre infrastructure.
- À la fin de la réponse à l'incident, c'est indispensable de procéder à une autopsie afin que l'équipe puisse apprendre et s'améliorer ensemble. Les analyses post-mortem doivent être irréprochables et axées sur les prochaines étapes réalisables pour l'amélioration.
Consultez l’article dans son intégralité pour en savoir plus sur des idées éprouvées qui vous permettront de vous entraîner et de vous améliorer en matière de réponse aux incidents, afin que votre équipe soit préparée lorsque la prochaine défaillance inévitable surviendra.