REA Group beschreitet mit PagerDuty den Weg zur digitalen Transformation

PagerDuty image

Größe: 1.300 Mitarbeiter

Industrie: Digitale Medien / Immobilien

Standort: Melbourne, Australien

Kunde seit: 2014

Wichtige Integrationen:

Dynatrace
Neues Relikt
Nagios
Logikmonitor
Zendesk
Splunk
AWS CloudWatch
Locker

REA Group ersetzt Pager durch PagerDuty

REA Group Limited ist ein multinationales digitales Werbeunternehmen, das auf Immobilien spezialisiert ist und die führende Immobilien-Website in Australien sowie bekannte Websites in ganz Asien betreibt. Ihr Ziel ist es, „die Art und Weise zu ändern, wie die Welt Immobilien erlebt“, was sie durch die Entwicklung innovativer Produkte und die Schaffung einer dynamischen Arbeitskultur erreichen, die erfinderisches Denken fördert. Millionen von Menschen auf der ganzen Welt nutzen die Websites von REA Group täglich, um Immobilien zu finden. Daher muss die Plattform immer verfügbar und leistungsstark sein, damit die Menschen jederzeit und von überall nach Immobilien suchen können. Daher ist es für REA Group von entscheidender Bedeutung, auf Vorfälle zu reagieren, die die Plattformleistung beeinträchtigen, ohne dass ihre Kunden dies bemerken. Gleichzeitig darf REA Group den Fokus auf die Betriebseffizienz ihres Softwareentwicklungs- und Managementteams nicht verlieren, insbesondere angesichts des schnellen Wachstums.

Herausforderungen: Monolithische Vorfallwarnungen und isolierte Abläufe

Vor der Einführung von PagerDuty im Jahr 2014 verließ sich das Betriebsteam der REA Group auf ein monolithisches, ineffizientes Alarmbenachrichtigungssystem, bei dem die Techniker ständig physische Pager bei sich tragen mussten. Da ein auf physischen Pagern basierendes System schwierig zu ändern und zu optimieren war, konnte das REA-Team nicht garantieren, dass die richtigen Alarme die richtigen Personen erreichten, was die Reaktionszeiten bei Vorfällen verzögerte. Darüber hinaus wurden die Techniker im Bereitschaftsdienst ständig über nicht kritische oder nicht umsetzbare Alarme benachrichtigt, insbesondere außerhalb der Arbeitszeiten. „Nachts war es ein Albtraum – ein wirklich schmerzhafter Prozess“, sagte Javier Turegano Molina, Global Infrastructure and Architecture Manager bei der REA Group, über die Erfahrungen im Bereitschaftsdienst in diesen Anfangstagen.

Die zweite große Herausforderung für das Team war die Silostruktur der Organisation . Die Organisation bestand aus vielen verschiedenen Gruppen, die jeweils für die Entwicklung unterschiedlicher Teile des Ökosystems des Unternehmens verantwortlich waren, aber alle Vorfälle wurden an ein zentrales Betriebsteam weitergeleitet. REA konzentrierte sich darauf, diese Silos aufzubrechen, indem es eine DevOps-Kultur einführte und die Verantwortung für den Betrieb auf die Teams verlagerte, die die Anwendungen erstellten und warteten. Damit diese Änderung erfolgreich war, mussten Warnmeldungen direkt an das Team übermittelt und nicht an eine separate zentrale Einheit gesendet werden.

„Wir können jetzt die richtigen Warnmeldungen zum richtigen Zeitpunkt an die richtigen Personen senden.“

– Javier Turegano Molina , Global Infrastructure and Architecture Manager bei der REA Group

Agiles Vorfallmanagement mit PagerDuty

Im Jahr 2014 implementierten Turegano und sein Team PagerDuty, um die Reaktionszeit bei Vorfällen zu verbessern und die DevOps-Arbeitsweise vollständig zu übernehmen.

Mit PagerDuty kann REA die Verwaltung von Vorfällen in der gesamten Organisation optimieren, indem es Reaktionen auf Vorfälle auf maßgeschneiderte, agile Weise. Die Eskalationsrichtlinien für Vorfälle werden angepasst, sodass Warnmeldungen je nach Art des Problems an die richtigen Personen gesendet werden, darunter das Team, das für den betroffenen Dienst verantwortlich ist, und der Ingenieur, der am besten für die Bearbeitung des Problems geeignet ist. Die Teams legen jetzt großen Wert darauf, ihre Warnmeldungen so zu gestalten, dass sie den SLAs entsprechen und das Team nicht ohne echten Grund benachrichtigt wird. Das Ergebnis ist, dass alle Teams, die für den Dienst verantwortlich sind, jetzt die volle Verantwortung tragen. Dies erforderte einen entscheidenden Mentalitätswandel, da die Teams jetzt verstehen, dass man etwas betreibt, wenn man es erstellt. „Die Möglichkeit, die Zeitpläne anzupassen, war für uns eine wirklich großartige Funktion“, erklärte Turegano.

Physische Pager gehören der Vergangenheit an. Vorfallbenachrichtigungen werden jetzt über PagerDuty übermittelt, sodass Ingenieure (Entwickler, Qualitätssicherung, Systeme usw.) über ihre Telefone und andere Geräte, die sie bereits verwenden und besitzen, benachrichtigt werden können. „Keine physischen Pager mehr zu haben, hat mein Leben verändert“, sagte Turegano.

Mit den von PagerDuty automatisch erfassten Metriken konnten Turegano und sein Team ihre Betriebsabläufe verbessern. PagerDuty liefert Daten, mit denen sie die mittlere Reparaturzeit (MTTR) ermitteln können. So kann die REA Group verfolgen, wie sich die Leistung ihres Betriebsteams im Laufe der Zeit während eines Vorfalls entwickelt. PagerDuty aggregiert außerdem Metriken aus den verschiedenen Überwachungstools die das Team bereits nutzt, wie zum Beispiel AWS CloudWatch , Nagios , Neues Relikt Und Splunk Diese aggregierten Metriken sind von unschätzbarem Wert für die Durchführung Obduktionen nach einem Vorfall um zu verhindern, dass ähnliche Probleme in Zukunft erneut auftreten, sagte Turegano.

REA nutzt jetzt PagerDuty für alle seine digitale Operationen „Alles, was kaputt gehen kann, sendet eine Warnung an PagerDuty, und wir haben jetzt eine Möglichkeit, die richtigen Warnungen an die richtigen Personen zu senden“, sagte Turegano. Er fügte hinzu, dass REA nicht nur effizienter im Umgang mit Warnungen geworden sei, sondern auch einen kompletten DevOps-Kulturwandel durchgemacht habe und PagerDuty auf diesem Weg ein großer Wegbereiter gewesen sei.

Wenn Sie mehr darüber lesen möchten, wie REA die Bereitschaftsarbeit skaliert hat, lesen Sie diesen Beitrag in ihrer Technikblog .