Xero exploite PagerDuty et ChatOps pour améliorer la réponse aux incidents et les opérations numériques

PagerDuty image

Taille: 1 001 à 5 000 employés

Industrie: Logiciels informatiques

Emplacement: Wellington, Nouvelle-Zélande

Intégrations clés :

Logique Sumo
Chien de données
Zendesk
Mou
JIRA

Xero est une plateforme mondiale destinée aux petites entreprises, aux comptables et aux petites entreprises. Fondée en 2006, la plateforme offre aux propriétaires de petites entreprises et à leurs conseillers des flux automatiques de comptes bancaires et de cartes de crédit, des factures, des comptes fournisseurs et des rapports commerciaux et de gestion standard.

Xero dispose d'une interface intuitive et facile à utiliser, de sorte que même les propriétaires de petites entreprises ayant peu d'expérience en comptabilité peuvent comptabiliser avec précision leurs transactions. Un portail de formation complet ainsi qu'un service client primé aident également les propriétaires de petites entreprises s'ils ont des questions. Pour sa communauté active de partenaires comptables, Xero offre des fonctionnalités supplémentaires, telles qu'un gestionnaire de cabinet, des outils de conseil et une place de marché d'applications.

Avec des bureaux aux États-Unis, au Royaume-Uni, en Asie, en Australie et en Nouvelle-Zélande, Xero compte plus de 1,2 million d'abonnés dans plus de 180 pays qui comptent sur son logiciel pour gérer leurs activités. Il est donc très important que la plateforme de Xero soit fiable, une responsabilité qui incombe aux développeurs et aux ingénieurs en fiabilité du site de l'entreprise.

Défis

Anthony Angell, l'un des chefs d'équipe de l'équipe d'ingénieurs en fiabilité du site, a expliqué que lorsqu'il a rejoint l'entreprise il y a quelques années, Xero utilisait déjà PagerDuty pour gérer deux plannings. L'environnement de production était pris en charge par les équipes d'exploitation situées à Auckland, en Nouvelle-Zélande, et à Denver, au Colorado. Cependant, à mesure que Xero continuait de croître rapidement, il devenait de plus en plus difficile pour l'équipe d'exploitation de faire évoluer et de coordonner les plannings et les politiques d'escalade sur les deux sites.

En 2016, Xero a mis en place une approche DevOps intégrant l'ingénierie de fiabilité du site (SRE) pour gérer l'environnement de production et a remanié ses processus de gestion des incidents. Plutôt que de confier la supervision de l'ensemble de l'environnement de production aux équipes opérationnelles, ce nouveau cadre de gestion des incidents s'appuyait sur les équipes qui avaient développé le logiciel pour être disponibles et d'astreinte en cas d'incident, qu'elles soient développeurs ou ingénieurs QA.

Cela a entraîné l’ajout de beaucoup plus de personnes et d’équipes aux plannings d’astreinte, et Xero avait besoin d’un moyen de gérer et de faire évoluer les groupes d’astreinte, c’est là qu’intervient PagerDuty . « [PagerDuty] nous a aidés à faire évoluer assez facilement les groupes d’astreinte au sein de l’entreprise », a expliqué Angell. « Cela nous a également donné, à nous et à l’entreprise, une meilleure structure de soutien. »

Impact sur les entreprises

Grâce à PagerDuty, l’équipe d’ingénierie de fiabilité du site a également pu former de nombreuses autres équipes à la gestion des incidents et au fonctionnement des alertes sur la plateforme. Le résultat ? Les clients constatent des délais de résolution plus rapides, car les personnes qui ont développé, construit et continuent de maintenir le code sont également les premiers intervenants en cas de problème. « La possibilité de joindre nos intervenants en temps opportun via différentes méthodes ajoute beaucoup de valeur commerciale », a déclaré Angell.

Pour automatiser et faire évoluer davantage le processus de gestion des incidents, l'équipe d'ingénierie de fiabilité des sites de Xero s'appuie sur ChatOps pour aider des centaines d'employés dans le monde entier. Le chatbot développé par Xero, « Multivac », est intégré au compte Slack de l'entreprise et exploite l'API de PagerDuty pour automatiser plusieurs activités critiques dans le cadre de gestion des incidents de Xero.

Grâce à Multivac, Xero peut intégrer une nouvelle équipe et un planning d'astreinte dans PagerDuty en envoyant une demande au référentiel Github de Xero pour activer automatiquement la configuration. Les gestionnaires d'incidents peuvent utiliser Multivac pour informer les bons membres de l'équipe afin de lancer le processus de réponse aux incidents dans PagerDuty et créer un canal Slack unique pour l'incident. Les utilisateurs peuvent également demander des mises à jour de statut sur les versions de production récentes ou des alertes actives de Multivac, qui fournissent le contexte nécessaire pour résoudre les incidents plus rapidement. En déchargeant de nombreuses activités sur Multivac et PagerDuty, Xero a pu réagir et résoudre les incidents beaucoup plus rapidement.

« Sur une période d’un an, de janvier 2017 à janvier 2018, les analyses de PagerDuty nous ont montré que nous avons constaté une réduction de 40 % des alertes d’urgence. De plus, le MTTR des alertes d’urgence, le niveau d’urgence le plus élevé, a diminué de 74 %. »

#PeopleFirst : un meilleur équilibre entre vie professionnelle et vie privée grâce à PagerDuty

L’une des valeurs fondamentales de Xero est « humaine », qui accorde une grande importance aux personnes. L’entreprise a étendu son utilisation de la plateforme PagerDuty en exploitant les capacités d’analyse pour obtenir des informations sur la santé des équipes. « Les informations analytiques sont utiles à nos responsables, en particulier à ceux des autres équipes, car elles leur permettent de voir à partir des données combien d’alertes leur équipe a reçu sur une période donnée », explique Angell. « Cela est utile lorsque nous devons examiner de plus près les raisons de la fatigue des ingénieurs. Par exemple, nous voulons savoir si les intervenants d’astreinte ont reçu un nombre inhabituellement élevé d’alertes sur une courte période, car cela pourrait les exposer à un risque d’épuisement professionnel. »

De plus, ce que Angell préfère dans PagerDuty , c'est la flexibilité et la maîtrise qu'il offre aux équipes en matière de planification des astreintes. Au lieu d'avoir une équipe qui supervise tout comme auparavant, Xero dispose désormais de plusieurs équipes réparties, habilitées à gérer leurs propres plannings d'astreinte. « Nous avons formé de nombreuses équipes à la gestion des incidents et au fonctionnement des alertes et de PagerDuty , et cela a réellement permis à l'entreprise d'améliorer son MTTR », a déclaré Angell.

Et ensuite ?

Xero étend l'utilisation de la plateforme de gestion des opérations numériques PagerDuty à un plus large éventail d'utilisateurs et de cas d'utilisation. L'entreprise a déjà pris des mesures pour évaluer elle-même la santé de ses équipes et espère avoir un aperçu plus approfondi des performances de ses équipes en adoptant cette solution. Service de gestion opérationnelle de la santé (OHMS) de PagerDuty .