Xero nutzt PagerDuty und ChatOps zur Verbesserung der Reaktion auf Vorfälle und des digitalen Betriebs

PagerDuty image

Größe: 1.001–5.000 Mitarbeiter

Industrie: Computersoftware

Standort: Wellington, Neuseeland

Wichtige Integrationen:

Sumo-Logik
Datenhund
Zendesk
Locker
JIRA

Xero ist eine globale Plattform für Buchhalter, Buchführer und Kleinunternehmen. Die 2006 gegründete Plattform bietet Kleinunternehmern und ihren Beratern automatische Bank- und Kreditkartenkonto-Feeds, Rechnungsstellung, Kreditorenbuchhaltung sowie Standard-Geschäfts- und Managementberichte.

Xero verfügt über eine benutzerfreundliche, intuitive Benutzeroberfläche, sodass selbst Kleinunternehmer mit wenig Buchhaltungserfahrung ihre Transaktionen genau erfassen können. Ein umfassendes Schulungsportal sowie ein preisgekrönter Kundenservice unterstützen Kleinunternehmer zusätzlich bei Fragen. Für seine aktive Community von Buchhaltungspartnern bietet Xero zusätzliche Funktionen wie einen Praxismanager, Beratungstools und einen App-Marktplatz.

Xero hat Niederlassungen in den USA, Großbritannien, Asien, Australien und Neuseeland und mehr als 1,2 Millionen Abonnenten in über 180 Ländern, die sich bei der Führung ihrer Geschäfte auf die Software des Unternehmens verlassen. Daher ist es sehr wichtig, dass die Plattform von Xero zuverlässig ist – eine Verantwortung, die den Entwicklern und Site Reliability Engineers des Unternehmens obliegt.

Herausforderungen

Anthony Angell, einer der Teamleiter des Site Reliability Engineers, erklärte, dass Xero, als er vor einigen Jahren in das Unternehmen eintrat, bereits PagerDuty zur Verwaltung zweier Zeitpläne verwendete. Die Produktionsumgebung wurde von Betriebsteams in Auckland, Neuseeland, und Denver, Colorado, unterstützt. Da Xero jedoch weiterhin schnell wuchs, wurde es für das Betriebsteam zunehmend schwieriger, Zeitpläne und Eskalationsrichtlinien für die beiden Standorte zu skalieren und zu koordinieren.

Im Jahr 2016 implementierte Xero einen DevOps-Ansatz mit Site Reliability Engineering (SRE), um die Produktionsumgebung zu verwalten, und überarbeitete seine Vorfallmanagementprozesse. Anstatt die gesamte Produktionsumgebung von den Betriebsteams überwachen zu lassen, verließ sich dieses neue Vorfallmanagement-Framework darauf, dass die Teams, die die Software erstellt hatten, im Falle eines Vorfalls verfügbar und auf Abruf bereit waren – unabhängig davon, ob es sich um Entwickler oder QA-Ingenieure handelte.

Dies bedeutete, dass viel mehr Personen und Teams zu den Bereitschaftsplänen hinzugefügt wurden, und Xero brauchte eine Möglichkeit, die Bereitschaftsgruppen zu verwalten und zu skalieren, und hier kam PagerDuty ins Spiel. „[PagerDuty] hat uns geholfen, die Bereitschaftsgruppen innerhalb des Unternehmens ganz einfach skalieren zu können“, erzählte Angell. „Es hat uns und dem Unternehmen auch eine bessere Supportstruktur verschafft.“

Auswirkungen auf das Geschäft

Mit PagerDuty konnte das Site Reliability Engineering-Team auch viele andere Teams über Vorfallmanagement und die Funktionsweise von Alarmen auf der Plattform informieren. Das Ergebnis? Die Kunden erleben schnellere Lösungszeiten, da die Leute, die den Code entwickelt, erstellt und weiterhin gewartet haben, auch die Ersthelfer sind, wenn etwas schiefgeht. „Die Möglichkeit, unsere Helfer über verschiedene Methoden zeitnah zu erreichen, bringt einen großen Geschäftswert“, sagte Angell.

Um den Vorfallmanagementprozess weiter zu automatisieren und zu skalieren, nutzt das Site Reliability Engineering-Team von Xero ChatOps, um Hunderte von Mitarbeitern auf der ganzen Welt zu unterstützen. Xeros selbst entwickelter Chatbot „Multivac“ ist in das Slack-Konto des Unternehmens integriert und nutzt die API von PagerDuty, um mehrere kritische Aktivitäten innerhalb des Vorfallmanagement-Frameworks von Xero zu automatisieren.

Mithilfe von Multivac kann Xero ein neues Team und einen neuen Bereitschaftsplan in PagerDuty integrieren, indem es eine Anfrage an Xeros Github-Repository sendet, um die Konfiguration automatisch zu aktivieren. Vorfallmanager können Multivac verwenden, um die richtigen Teammitglieder zu benachrichtigen, damit diese den Vorfallreaktionsprozess innerhalb von PagerDuty einleiten und einen einzigartigen Slack-Kanal für den Vorfall erstellen. Benutzer können auch Statusaktualisierungen zu aktuellen Produktionsversionen oder aktiven Warnungen von Multivac anfordern, die den erforderlichen Kontext liefern, um Vorfälle schneller zu beheben. Durch die Auslagerung vieler Aktivitäten an Multivac und PagerDuty konnte Xero viel schneller auf Vorfälle reagieren und diese lösen.

„In einem Zeitraum von einem Jahr, von Januar 2017 bis Januar 2018, haben wir laut PagerDuty Analytics eine Reduzierung der hochdringlichen Alarme um 40 Prozent festgestellt. Und nicht nur das: Die MTTR für hochdringliche Alarme, die höchste Dringlichkeitsstufe, ist um 74 Prozent gesunken.“

#PeopleFirst: Verbesserte Work-Life-Balance mit PagerDuty

Einer der Grundwerte von Xero ist „Mensch“, was großen Wert auf Menschen legt, und das Unternehmen hat seine Nutzung der PagerDuty Plattform erweitert, indem es Analysefunktionen nutzt, um Einblicke in die Gesundheit des Teams zu erhalten. „Die Analyseeinblicke sind für unsere Manager hilfreich – insbesondere für die in anderen Teams –, da sie anhand der Daten sehen können, wie viele Warnmeldungen ihr Team in einem bestimmten Zeitraum erhalten hat“, erklärte Angell. „Dies ist nützlich, wenn wir die Gründe für die Ermüdung der Techniker genauer untersuchen müssen – wir möchten beispielsweise wissen, ob Bereitschaftskräfte in einem kurzen Zeitraum ungewöhnlich viele Warnmeldungen erhalten haben, da dies sie einem Burnout-Risiko aussetzen könnte.“

Außerdem gefällt Angell an PagerDuty am besten, dass es den Teams Flexibilität und Eigenverantwortung bei der Bereitschaftsplanung gibt. Anstatt wie früher ein Team zu haben, das alles im Blick hat, verfügt Xero jetzt über mehrere verteilte Teams, die ihre Bereitschaftspläne selbst verwalten können. „Wir haben viele Teams im Vorfallmanagement geschult und ihnen gezeigt, wie Alarmierung und PagerDuty funktionieren, und das hat dem Unternehmen tatsächlich eine bessere MTTR beschert“, sagte Angell.

Was kommt als nächstes

Xero erweitert die Nutzung der PagerDuty Digital Operations Management-Plattform auf ein breiteres Spektrum von Benutzern und Anwendungsfällen. Das Unternehmen hat bereits einige Schritte unternommen, um die Gesundheit seiner Teams selbst zu bewerten, und hofft, durch die Einführung von PagerDutys Betrieblicher Gesundheitsmanagement-Dienst (OHMS) .