Dans cet épisode inaugural de « The Unplanned Show », Dormain s’entretient avec Damon Edwards sur le « casse-tête de la capacité » : tout le monde travaille dur, mais tout prend trop de temps et coûte trop cher. Nous parlons des « frais généraux de coordination » liés à la réalisation de tâches non planifiées, de la façon dont l’IA générative ajoute de la complexité et propose d’accélérer l’automatisation autant que possible, et de quatre étapes pour créer de la capacité.
« Tout travail opérationnel non planifié est identique à un incident imprévu… c'est toujours la même chose si quelqu'un attend et que quelqu'un est interrompu et il y a de fortes chances que vous interrompiez plus d'une personne. »
Regarder l'épisode ici .
Références:
Résumé avec le support du chatGPT :
Damon Edwards, qui travaille actuellement chez PagerDuty, est connu pour avoir cofondé Rundeck, un logiciel d'automatisation des cahiers d'exécution. Rundeck a finalement été racheté par PagerDuty. Damon Edwards travaille à étendre les capacités de PagerDuty au-delà des simples notifications d'astreinte, pour en faire une plateforme complète pour les opérations. Ils discutent des défis liés à la coordination efficace de systèmes complexes et du concept de « labeur », un travail nécessaire mais qui n'ajoute pas de valeur durable à l'entreprise.
« Le problème est de dire que tout travail est autorisé à passer par les files d'attente pour obtenir des billets… à mesure que le monde devient plus complexe, nous ne faisons que nous créer de plus gros problèmes. »
La conversation se penche sur la nature évolutive de la gestion des infrastructures en réponse à la complexité et à la rapidité croissantes des tendances technologiques. Ils discutent de la manière dont les organisations doivent s’adapter et penser leur infrastructure davantage comme des développeurs, en particulier à la lumière de l’IA générative qui introduit une complexité supplémentaire. Damon souligne que s’appuyer uniquement sur des flux de travail basés sur des tickets pour tous les types de travail devient de plus en plus coûteux et moins efficace. Il souligne les défis de la collaboration efficace au sein des files d’attente de tickets et les inconvénients de la fragmentation du travail en plusieurs petits tickets. Damon suggère que les organisations doivent explorer des approches alternatives pour gérer le travail, car les méthodes traditionnelles ne sont plus viables.
« Les modes classiques de travail via les files d'attente sont tout simplement très coûteux... Je pense que nous avons maintenant atteint ce point de basculement où les organisations qui comprendront cela vont trouver beaucoup plus de capacité qu'elles ne le pensaient. »
La discussion se poursuit avec une discussion sur les défis des flux de travail basés sur les tickets, en particulier pour gérer les tâches non planifiées. Ils soulignent la nécessité d'un accompagnement constant dans la gestion des tickets et de s'assurer que le travail est correctement traité. La conversation aborde l'idée que le véritable problème réside peut-être dans la coordination efficace des tâches en temps réel plutôt que de se concentrer uniquement sur le remplissage des formulaires de ticket. Damon souligne que ce problème passe souvent inaperçu car il se cache à la vue de tous, les gens ne voyant que les processus individuels plutôt que l'impact cumulé sur les experts clés. Le manque de visibilité sur la situation globale et les frictions qui en résultent renforcent l'idée reçue selon laquelle une meilleure planification et une gestion plus rapide des files d'attente résoudront le problème. Damon soutient que cette approche est essayée depuis plus de deux décennies et n'a pas apporté d'améliorations significatives.
« C'est vraiment insidieux parce que vous ne le voyez pas d'un point de vue global, tout le monde le voit d'un point de vue myope... ils ne voient pas comment tout cela s'additionne. »
La conversation aborde les défis de la conception organisationnelle et la nécessité de réévaluer la manière dont le travail est confié au sein des processus. Damon souligne l'importance de minimiser le travail partiellement effectué et de réduire les transferts entre les différentes équipes et les experts. Il souligne la nécessité de l'automatisation pour éviter que le travail ne soit effectué par des humains, autant que possible. En outre, Damon évoque la nécessité de rationaliser l'intervention humaine lorsque cela est nécessaire, en se concentrant sur les diagnostics précoces et en identifiant les escalades afin de réduire le nombre de personnes impliquées dans la réponse aux incidents ou dans le travail sur les projets. Il établit des parallèles entre le travail opérationnel non planifié et les incidents, en soulignant que les deux scénarios impliquent l'interruption des individus et la perturbation de leurs tâches normales.
« Nous ne parlons plus seulement de décaler vers la gauche ou de compresser la chronologie, mais nous parlons également de réduire le rayon d'explosion de ces escalades. »
Damon explique l’importance de minimiser les interruptions et les transferts dans les flux de travail opérationnels. Il souligne la nécessité de changements organisationnels pour atteindre cet objectif, mais reconnaît également que l’automatisation peut constituer une avancée significative. Damon encourage la création d’interfaces en libre-service pour réduire le besoin de tickets manuels et de transferts entre les équipes. Il souligne la valeur de l’automatisation pour améliorer les temps de réponse et augmenter la capacité opérationnelle. Damon présente également le concept d’IA générative comme un outil permettant d’aider à automatiser les tâches, en offrant une expérience de co-création pour les flux de travail d’automatisation. Il explique comment l’IA générative peut aider à combler le fossé entre les connaissances des experts et celles des moins expérimentés, rendant les tâches complexes plus accessibles à un public plus large.
Damon souligne le potentiel de l’IA générative pour aider à l’automatisation, l’imaginant comme un expert virtuel travaillant aux côtés des individus pour améliorer l’efficacité opérationnelle.
« C'est comme avoir quelqu'un de super intelligent à côté de vous, simplement parce qu'il a toujours été dans le coin. Si vous voulez personnifier [l'IA générative], je pense que c'est vers cela que nous allons. »
Dans la dernière partie de la conversation, Damon souligne le défi que représente l’augmentation des charges de travail tout en maintenant le même nombre de ressources. Il évoque la nécessité d’un changement de mentalité, de passer de l’époque où l’on recrute plus de personnes à une période où l’on fait plus avec l’équipe existante. Il souligne l’importance de minimiser les coûts de coordination dans les flux de travail opérationnels, ce qui implique de donner les moyens aux personnes, de supprimer le besoin de coordination et de fournir le contexte approprié pour guider la prise de décision. Damon évoque également la pertinence de la recherche en sciences de la sécurité, qui aborde les coûts de coordination dans les domaines à conséquences élevées, et la manière dont elle met en parallèle les défis rencontrés dans l’exploitation de systèmes Internet à grande échelle. Damon suggère aux personnes intéressées d’explorer les ressources fournies par PagerDuty, telles que leurs guides d’exploitation, ainsi que de se référer à des textes fondamentaux comme les livres SRE pour en savoir plus sur la révolution des opérations.
« Je pense que PagerDuty… commence vraiment à amplifier notre mission pour contribuer à révolutionner à nouveau les opérations. »
« Le PagerDuty Operations Cloud est essentiel pour TUI. C'est ce qui va réellement nous aider à nous développer en tant qu'entreprise pour garantir que nous fournissons des services de qualité à nos clients. »
- Yasin Quareshy, responsable de la technologie chez TUI