Taille: 1 300 employés
Industrie: Médias numériques / Immobilier
Emplacement: Melbourne, Australie
Client depuis : 2014
Intégrations clés :
Le groupe REA remplace les téléavertisseurs par PagerDuty
REA Group Limited est une société multinationale de publicité numérique spécialisée dans l'immobilier, qui exploite le premier site Web immobilier en Australie et des sites de premier plan dans toute l'Asie. Son objectif est de « changer la façon dont le monde perçoit l'immobilier », ce qu'elle fait en développant des produits innovants et en créant une culture de travail dynamique qui favorise la pensée inventive. Des millions de personnes dans le monde utilisent les sites Web de REA Group pour trouver des biens immobiliers chaque jour. La plateforme doit donc toujours être active et performante pour garantir que les gens puissent rechercher des biens immobiliers à tout moment, de n'importe où. Il est donc essentiel pour REA Group d'agir et de répondre aux incidents affectant les performances de la plateforme sans que ses clients ne s'en aperçoivent. Dans le même temps, REA Group ne peut pas perdre de vue l'efficacité opérationnelle de son équipe de développement et de gestion de logiciels, en particulier face à une croissance rapide.
Défis : alertes d'incident monolithiques et opérations cloisonnées
En 2014, avant d'adopter PagerDuty, l'équipe opérationnelle du groupe REA s'appuyait sur un système de notification d'alerte monolithique et inefficace qui obligeait les ingénieurs à transporter des téléavertisseurs physiques en permanence. Comme un système basé sur des téléavertisseurs physiques était difficile à modifier et à optimiser, l'équipe REA ne pouvait pas garantir que les bonnes alertes étaient envoyées aux bonnes personnes, ce qui retardait les délais de réponse aux incidents. De plus, les ingénieurs d'astreinte étaient constamment informés des alertes non critiques ou non exploitables, en particulier en dehors des heures de bureau. « C'était un cauchemar la nuit, un processus vraiment pénible », a déclaré Javier Turegano Molina, responsable mondial de l'infrastructure et de l'architecture du groupe REA, à propos de l'expérience d'astreinte à l'époque.
Le deuxième défi majeur pour l’équipe était la structure cloisonnée de l'organisation L'organisation était composée de nombreux groupes différents, chacun responsable du développement de parties distinctes de l'écosystème de l'entreprise, mais tous les incidents étaient relayés à une équipe d'exploitation centralisée. REA s'est attachée à briser ces silos en adoptant une culture DevOps, en transférant la responsabilité des opérations aux équipes qui construisaient et maintenaient les applications. Pour que ce changement soit réussi, les alertes devaient être transmises directement à l'équipe et non envoyées à une unité centralisée distincte.
« Nous disposons désormais d’un moyen d’envoyer les bonnes alertes aux bonnes personnes, et au bon moment. »
– Javier Turegano Molina , Responsable mondial de l'infrastructure et de l'architecture chez REA Group
Réaliser une gestion agile des incidents avec PagerDuty
En 2014, Turegano et son équipe ont mis en œuvre PagerDuty pour améliorer le temps de réponse aux incidents et adopter pleinement le mode de travail DevOps.
Avec PagerDuty, REA peut rationaliser la façon dont les incidents sont gérés dans l'ensemble de son organisation en coordonnant Réponses aux incidents Les équipes sont désormais en mesure de concevoir leurs alertes de manière à ce qu’elles correspondent aux SLA et à ce que l’équipe ne soit pas alertée sans raison valable. Le résultat est que toutes les équipes qui possèdent le service sont désormais pleinement responsables. Cela a nécessité un changement de mentalité critique, les équipes comprenant désormais que si vous le créez, vous l’exécutez. « Pouvoir ajuster les calendriers était une fonctionnalité vraiment géniale pour nous », a expliqué Turegano.
Les téléavertisseurs physiques appartiennent désormais au passé. Les notifications d'incidents sont désormais envoyées via PagerDuty, ce qui permet aux ingénieurs (développeurs, AQ, systèmes, etc.) d'être informés via leurs téléphones et autres appareils qu'ils utilisent et possèdent déjà. « Ne plus avoir de téléavertisseurs physiques a changé ma vie », a déclaré Turegano.
Grâce aux mesures collectées automatiquement par PagerDuty , Turegano et son équipe ont amélioré leurs opérations. PagerDuty fournit des données qui les aident à déterminer leur temps moyen de réparation (MTTR), ce qui permet au groupe REA de suivre l'évolution des performances de son équipe d'exploitation au fil du temps lors d'un incident. PagerDuty regroupe également les mesures de l'ensemble diversifié de outils de surveillance que l'équipe utilise déjà, comme AWS CloudWatch , Nagios , Nouvelle relique et Splunk Ces mesures agrégées sont d'une valeur inestimable pour effectuer autopsies après un incident afin d'éviter que des problèmes similaires ne se reproduisent à l'avenir, a déclaré Turegano.
REA utilise désormais PagerDuty pour alimenter tous ses opérations numériques « Tout ce qui peut se casser enverra une alerte à PagerDuty, et nous avons maintenant un moyen d'envoyer les bonnes alertes aux bonnes personnes », a déclaré Turegano. Il a ajouté que REA n'est pas seulement devenue plus efficace dans la façon dont elle gère les alertes, elle a subi un changement culturel DevOps complet et PagerDuty a été un grand facilitateur dans ce voyage.
Si vous souhaitez en savoir plus sur la manière dont REA a étendu ses services sur appel, consultez cet article dans leur blog technique .