PagerDuty
/
Blog
/
Meilleures pratiques et perspectives
/
Une culture d'irresponsabilité essentielle pour répondre à l'indignation suscitée par les pannes de courant en Australie

Blog

Une culture d'irresponsabilité essentielle pour répondre à l'indignation suscitée par les pannes de courant en Australie

par Matt Stratton 27 octobre 2019 | 6 minutes de lecture

Après le malheureux Banque du Commonwealth d'Australie panne de courant la semaine dernière, le puissant Payment Systems Board, dont les membres incluent les présidents des RBA et APRA – a annoncé qu'il rendrait publiques toutes les données relatives aux pannes pour empêcher les banques, les systèmes de paiement et les opérateurs de télécommunications de « se cacher derrière » les statistiques de performance partagées par chaque institution.

Les grandes marques B2B et B2C savent que satisfaire leurs clients connectés avec des expériences exceptionnelles, des innovations fréquentes et des services améliorés implique une complexité technique accrue et un risque accru de pannes. Cependant, des pannes comme celle survenue la semaine dernière sont inévitables pour toutes les entreprises numériques qui cherchent à offrir des expériences client exceptionnelles.

Pour les médias, le gouvernement et les clients mécontents, la transparence sur les pannes et leurs responsables semble être une approche efficace pour améliorer la responsabilisation des fournisseurs de services. Cependant, je crains que la nouvelle réglementation, bien que bien intentionnée, soit néfaste à long terme. Laissez-moi vous expliquer pourquoi.

L'importance de l'irréprochabilité

En plus des demandes de renseignements et des réglementations potentiellement plus strictes, les clients exigent des expériences exceptionnelles 24 heures sur 24, ce qui augmente la pression sur les organisations pour qu'elles réagissent et résolvent rapidement les incidents.

Je crains que les entreprises ne réagissent à la pression des médias et du public en se concentrant sur l'identification des responsables des pannes et des temps d'arrêt, favorisant ainsi une culture de la culpabilisation et de la désignation de boucs émissaires – des comportements qui nuiront à leur capacité à maintenir la fiabilité de leurs services. Or, d'après notre expérience, les entreprises dont la culture et l'organisation s'engagent à tirer les leçons de leurs erreurs et à prévenir proactivement d'autres problèmes sont celles qui enregistrent le moins d'incidents majeurs et la plus grande satisfaction client.

C'est logique : après tout, les gens ne commettent pas moins d'erreurs par peur d'être blâmés ; ils apprennent simplement à mieux les dissimuler. Lorsque les individus croient qu'ils seront tenus responsables d'une erreur humaine, ils sont moins enclins à signaler les problèmes qui surviennent, aussi mineurs soient-ils. À ce stade, lorsqu'un incident majeur survient, les organisations n'ont pas la visibilité nécessaire sur ce qui s'est passé et se passe dans leurs systèmes, ce qui ralentit encore davantage la réaction et l'atténuation.

En plus, autopsies irréprochables , une méthode permettant aux équipes d'apprendre et de s'améliorer de manière itérative à partir des incidents, devrait être envisagée après chaque incident, et pas seulement après les événements majeurs. Il y a deux raisons à cela :

Premièrement, les incidents mineurs sont souvent le signe avant-coureur de défaillances plus importantes à l’horizon, et en apprenant ce qui s’est mal passé lors d’incidents mineurs, les organisations peuvent être en mesure de minimiser, voire de prévenir, un incident majeur à l’avenir.
Deuxièmement, faire des post-mortem une partie commune du processus offre davantage d’opportunités aux équipes et à la direction de pratiquer des post-mortem efficaces et inculque l’importance d’apprendre des incidents.

De plus, les post-mortems permettent aux équipes de publier des modifications mineures plus fréquemment plutôt que des modifications plus importantes moins fréquemment, ce qui améliore la fiabilité du service. Cela peut paraître paradoxal, mais selon Rapport « Accélérer l'état de DevOps » 2019 de DORA « Les recherches démontrent que les organisations qui effectuent des changements plus petits et plus fréquents réagissent et restaurent le service plus rapidement lorsque des incidents se produisent.

Meilleures pratiques pour réduire les temps d'arrêt et les pannes

Comment les organisations peuvent-elles mieux comprendre les pannes et en tirer des leçons ? La première étape consiste à comprendre qu'il est impossible de prévenir tous les incidents. Avec la complexité des systèmes actuels, des pannes sont inévitables ; c'est malheureusement une réalité du numérique. Par exemple, une organisation peut avoir un plan d'action en cas de panne d'un système (par exemple, redémarrer le serveur web Apache), mais elle ne peut pas anticiper tous les événements susceptibles de se produire en cas de panne en cascade.

L'étape suivante consiste à repenser notre perception des pannes. Au lieu de se demander « Comment garantir l'absence totale d'incidents ? », il faut plutôt se demander « Comment accroître la capacité d'adaptation de notre système aux interruptions/incidents inévitables ? ». Il faut se concentrer sur la découverte et l'amélioration de la capacité d'adaptation (capacité d'un système à s'adapter si son environnement change).

Ce qui m’amène à mon point suivant : Les personnes sont un élément clé de tout système et c’est là que se produit la majeure partie de la capacité de réaction.

Les gens : votre première ligne de défense

La réponse aux incidents requiert la créativité et l'intelligence des humains, en s'appuyant sur l'état actuel des systèmes, contrairement à ce que nous avions imaginé il y a deux mois, lors de la rédaction du manuel d'exploitation. Lors d'un incident majeur, il est crucial de pouvoir mobiliser rapidement les bonnes personnes et de leur fournir les outils, les informations et les capacités nécessaires pour rétablir le service.

De plus, je tiens à souligner que l’objectif lors d’un incident est de rétablir rapidement le service ; les incidents ne sont pas le moment d’identifier la cause ou de résoudre les problèmes sous-jacents. Un processus efficace de réponse aux incidents, permettant aux praticiens de collaborer pour rétablir au mieux le service, est essentiel. Ces processus n'ont pas besoin d'être complexes ni fastidieux ; en réalité, plus ils sont simples, plus il est facile de les mettre en œuvre efficacement à chaque fois. PagerDuty a publié son propre processus de réponse aux incidents à l'adresse suivante : https://response.pagerduty.com , et nous encourageons les équipes à adapter ce processus à leurs besoins individuels.

En résumé, le principal point à retenir pour les organisations qui cherchent à améliorer leur processus de réponse aux incidents est de développer une approche en trois étapes :

Instaurer une pratique d’apprentissage à partir des incidents. Mettez en place un processus transparent et clair pour des analyses post-mortem sans reproche. Instaurez la confiance envers vos praticiens en instaurant une culture d'éthique. La direction doit garantir que les incidents n'entraîneront pas de sanctions. Supprimez l'expression « erreur humaine » du vocabulaire. Par exemple, une personne peut avoir accidentellement supprimé un fichier critique. Le problème n'est pas que la personne ait commis cette action, mais que le système ou le processus l'ait permise.
Évaluez votre processus de réponse aux incidents. Interagissez-vous avec les intervenants appropriés le plus rapidement possible ? Leur fournissent-ils les informations et les ressources nécessaires pour rétablir le service ? Disposez-vous d'une méthode claire de prise de décision et de communication ? Disposez-vous d'un mécanisme permettant de tenir les parties prenantes informées ?
Continuez à adapter et à améliorer votre réponse aux incidents et votre processus d’apprentissage au fur et à mesure Une partie de la rétrospective post-incident devrait porter sur le processus de réponse aux incidents lui-même. Comment peut-il être amélioré ? Où a-t-il bien fonctionné ?

Suivre ces trois étapes peut vous aider à optimiser la gestion des pannes et à développer votre activité. De plus, en continuant à apprendre et à vous adapter, vous pourrez disposer de systèmes plus fiables et plus robustes, et ainsi accroître la satisfaction et la satisfaction de vos clients.

Vous souhaitez en savoir plus sur les bonnes pratiques pour prévenir les pannes et sur la façon dont PagerDuty peut vous aider ? Inscrivez-vous pour recevoir un Essai gratuit de 14 jours .

culture

Vous aimerez peut-être aussi ceux-ci...

Meilleures pratiques et perspectives
Le temps consacré à l’ingénierie est votre atout le plus précieux : l’utilisez-vous correctement ?

Meilleures pratiques et perspectives , Surveillance
Votre plateforme d'observabilité a un angle mort : ne risquez pas vos opérations avec des modules de réponse aux incidents complémentaires

Meilleures pratiques et perspectives , Pannes
Quand chaque minute compte : la panne de courant dans la péninsule ibérique et l’avenir de la résilience numérique