PagerDuty image

Tokopedia automatise la réponse aux incidents et améliore la responsabilité des ingénieurs grâce à PagerDuty

PagerDuty image

Taille: 1 001 à 5 000 employés

Industrie: Technologie

Emplacement: Jakarta, Indonésie

Client depuis : 2018

Intégrations clés :

Chien de données
Base de feu
Grafana
Nouvelle relique
Prométhée
Écailler
StackStorm

L'entreprise technologique indonésienne Tokopedia est l'une des plus grandes places de marché d'Asie du Sud-Est, avec plus de 100 millions d'utilisateurs actifs mensuels et plus de 9 millions de commerçants sur le site. Tokopedia se targue d'être plus qu'une simple place de marché, offrant une technologie qui permet à des millions de commerçants de participer au commerce électronique.

Rajesh Gopala Krishnan est vice-président adjoint de la productivité technique chez Tokopedia et met en œuvre la vision de la technologie et des services partagés de la plateforme. « La mission de Tokopedia est de démocratiser le commerce grâce à la technologie », a-t-il expliqué. « Nous aidons les petits détaillants à devenir de grandes marques, leur permettant d'atteindre une clientèle plus diversifiée et de leur faciliter la tâche pour faire des affaires en Indonésie et au-delà. »

« Née numériquement » en 2009, Tokopedia s'est consacrée à la transformation numérique il y a deux ans, alors que sa clientèle s'est rapidement développée. Tokopedia a modernisé sa pile technologique, passant d'une infrastructure monolithique à une architecture multi-cloud basée sur des microservices, exécutant plus de 350 services.

Manual to automated. Tokopedia increased daily software deployments by 3,000%

La complexité croissante entraîne une réponse plus lente aux incidents

Cependant, ce passage à une architecture plus dynamique et évolutive a rendu difficile pour les outils de gestion des incidents internes de Tokopedia de suivre les alertes et pour ses équipes de réagir efficacement. Cela signifiait que la réponse aux incidents prenait plus de temps et que les ressources d'ingénierie étaient éloignées de l'amélioration de l'expérience client et de la création de nouveaux services pour les commerçants et les clients. Tokopedia a également connu un volume élevé de bruit d'alertes, ce qui a rendu difficile la priorisation des incidents.

« Nos outils identifiaient les incidents, mais leur résolution prenait trop de temps », explique Krishnan. « La plupart du temps, il fallait 30 minutes pour les résoudre, car nous cherchions manuellement à savoir qui était responsable d’un service particulier avant d’avertir les ingénieurs et de mettre en place des cellules de crise pour traiter le problème. Nous avons rapidement réalisé que nous avions besoin d’un processus de réponse aux incidents moderne et automatisé pour avoir une visibilité sur cet environnement complexe, c’est pourquoi nous nous sommes tournés vers PagerDuty. »

Automatiser la réponse aux incidents avec PagerDuty

Depuis l'adoption de PagerDuty, Tokopedia est désormais en mesure d'automatiser ses processus de réponse aux incidents et de réduire le temps nécessaire à leur résolution. Après avoir initialement intégré PagerDuty à cinq services, Tokopedia a constaté des améliorations spectaculaires dans des indicateurs tels que le temps moyen de réparation (MTTR) et a décidé d'étendre le déploiement à plus de 350 services.

De plus, PagerDuty a contribué à réduire le bruit des alertes. « Au lieu d’être bombardé d’alertes, PagerDuty regroupe les alertes liées en un seul incident, avec tous les détails au même endroit plutôt que dispersés dans plusieurs outils. Cela réduit non seulement le bruit des alertes, mais nous aide également à prioriser les incidents les plus urgents », a expliqué Krishnan.

L'investissement de Tokopedia dans la transformation numérique et la réponse moderne aux incidents lui a également permis d'être bien préparée pour faire face aux pics de demande suite à la pandémie de COVID-19 en Asie du Sud-Est. « En passant au cloud et en adoptant PagerDuty, nous avons pu mieux contrôler le nombre d'incidents auxquels nous sommes confrontés. Cela s'est avéré particulièrement crucial lors de la forte augmentation des achats en ligne que nous avons connue pendant l'épidémie de COVID-19 et nous a permis de réagir plus rapidement aux incidents afin de garantir un minimum de perturbations pour les vendeurs et les acheteurs. »

« En passant au cloud et en adoptant PagerDuty, nous avons pu mieux contrôler le nombre d'incidents auxquels nous sommes confrontés. »

– Rajesh Gopala Krishnan , Vice-président adjoint de la productivité de l'ingénierie, Tokopedia

PagerDuty a également aidé Tokopedia à adopter une approche de service complet et à favoriser une culture de responsabilité, ce qu'elle avait auparavant du mal à faire avec ses outils internes de gestion des incidents.

Comme l’explique Krishnan, il n’était souvent pas clair qui devait répondre à un incident lorsqu’il se produisait. « Ce qui manquait, c’était la responsabilité : qui était responsable de ce service ou de cette application ? Avait-on constaté qu’il y avait un problème et travaillait-il à le résoudre ? Nous n’avions pas une idée très claire de la situation. »

Les ingénieurs d'astreinte disposaient également de téléphones supplémentaires pour que les équipes puissent les joindre en cas d'alerte. Mais même dans ce cas, il était difficile de joindre les bonnes personnes car il n'existait aucun moyen centralisé de gérer les escalades. « Avec PagerDuty, nous avons pu éliminer les processus manuels de réponse aux incidents. Au lieu de cela, lorsqu'une alerte arrive, nous acheminons automatiquement les incidents, en fonction de nos politiques d'escalade, vers la personne responsable d'un service particulier », explique Krishnan.

« Depuis l'adoption de PagerDuty, nos ingénieurs consacrent moins de temps à la réponse aux incidents. »

– Rajesh Gopala Krishnan , Vice-président adjoint de la productivité de l'ingénierie, Tokopedia

Avantages avec PagerDuty

Après avoir mis en œuvre PagerDuty, Tokopedia a acquis une meilleure connaissance et un meilleur contrôle des incidents dans son environnement, avec des avantages tels que :

  • Une plus grande responsabilisation des équipes d'ingénierie
  • Bruit d'alerte réduit
  • Des délais de réponse aux incidents plus rapides
  • Augmentation des mises à jour logicielles de 10 à plus de 300 par jour à mesure que la productivité de l'équipe augmente grâce à l'utilisation de l'automatisation

« Depuis l'adoption de PagerDuty, nos ingénieurs consacrent moins de temps à la réponse aux incidents. Ils peuvent désormais se concentrer sur l'amélioration de l'expérience client, la compréhension des attentes de nos commerçants et de nos clients et la manière dont ils utilisent nos services », explique Krishnan. « Grâce à la prise en charge de l'automatisation par PagerDuty, les ingénieurs sont également beaucoup plus productifs. Nous avons augmenté les déploiements quotidiens de logiciels de 3 000 %. »

Regard vers l'avenir

À l’avenir, Tokopedia continuera d’étendre son utilisation de PagerDuty. Cela implique notamment de surveiller les performances des nouvelles fonctionnalités avant leur déploiement afin d’identifier les problèmes avant leur mise en service dans l’environnement de production. De plus, à mesure que Tokopedia continue d’adopter l’automatisation tout au long du cycle de livraison des logiciels et de créer des applications capables de s’auto-réparer, PagerDuty aura un rôle essentiel à jouer dans la création de workflows et de runbooks pour prévenir, diagnostiquer et résoudre les incidents sans avoir à les transmettre à un expert.

Pour découvrir comment PagerDuty peut aider votre équipe à simplifier les choses et à transformer les opérations dans un monde numérique, contactez votre responsable de compte ou essayez un Essai gratuit de 14 jours aujourd'hui.