PagerDuty image

Tokopedia automatisiert die Reaktion auf Vorfälle und sorgt mit PagerDuty für mehr Verantwortlichkeit der Techniker

PagerDuty image

Größe: 1.001 - 5.000 Mitarbeiter

Industrie: Technologie

Standort: Jakarta, Indonesien

Kunde seit: 2018

Wichtige Integrationen:

Datenhund
Feuerbasis
Grafana
Neues Relikt
Prometheus
Scalyr
StackStorm

Das indonesische Technologieunternehmen Tokopedia ist eines der größten Marktplatzunternehmen Südostasiens mit über 100 Millionen aktiven Nutzern pro Monat und über 9 Millionen Händlern auf der Website. Tokopedia ist stolz darauf, mehr als nur ein Marktplatz zu sein und bietet Technologie, die Millionen von Händlern die Teilnahme am E-Commerce ermöglicht.

Rajesh Gopala Krishnan ist Tokopedias AVP of Engineering Productivity und setzt die Vision der Plattform hinsichtlich gemeinsamer Technologien und Dienstleistungen um. „Tokopedias Mission ist es, den Handel durch Technologie zu demokratisieren“, erklärte er. „Wir helfen kleinen Einzelhändlern, zu großen Marken zu werden, indem wir ihnen ermöglichen, einen vielfältigeren Kundenstamm zu erreichen und es ihnen erleichtern, in ganz Indonesien und darüber hinaus Geschäfte zu machen.“

Tokopedia wurde 2009 als „digitales Unternehmen“ gegründet und widmete sich vor zwei Jahren der digitalen Transformation, als sein Kundenstamm schnell wuchs. Tokopedia modernisierte seinen Technologie-Stack und wechselte von einer monolithischen Infrastruktur zu einer auf Mikrodiensten basierenden Multi-Cloud-Architektur mit über 350 Diensten.

Manual to automated. Tokopedia increased daily software deployments by 3,000%

Zunehmende Komplexität führt zu langsamerer Reaktion auf Vorfälle

Dieser Wechsel zu einer dynamischeren, skalierbareren Architektur erschwerte es jedoch Tokopedias internen Tools zur Vorfallsverwaltung, mit den Warnmeldungen Schritt zu halten und den Teams eine effektive Reaktion zu ermöglichen. Dies bedeutete, dass die Reaktion auf Vorfälle länger dauerte und technische Ressourcen nicht mehr für die Verbesserung des Kundenerlebnisses und die Entwicklung neuer Dienste für Händler und Kunden zur Verfügung standen. Außerdem war Tokopedia mit einer hohen Anzahl an Warnmeldungen konfrontiert, was die Priorisierung von Vorfällen erschwerte.

„Unsere Tools konnten Vorfälle zwar erkennen, aber ihre Behebung dauerte zu lange“, erklärte Krishnan. „Die meisten Probleme dauerten 30 Minuten, weil wir manuell nachschauten, wer für einen bestimmten Dienst verantwortlich war, bevor wir die Techniker benachrichtigten und Kriseninterventionen einrichteten, um das Problem zu beheben. Uns wurde schnell klar, dass wir einen modernen, automatisierten Vorfallreaktionsprozess brauchten, um Einblick in diese komplexe Umgebung zu erhalten. Deshalb haben wir uns an PagerDuty gewandt.“

Automatisierte Reaktion auf Vorfälle mit PagerDuty

Seit der Einführung von PagerDuty kann Tokopedia nun seine Prozesse zur Reaktion auf Vorfälle automatisieren und die Zeit zur Lösung von Vorfällen verkürzen. Nach der anfänglichen Integration von PagerDuty in fünf Dienste konnte Tokopedia dramatische Verbesserungen bei Kennzahlen wie der mittleren Reparaturdauer (MTTR) feststellen und beschloss, die Bereitstellung auf alle über 350 Dienste auszuweiten.

Darüber hinaus hat PagerDuty dazu beigetragen, die Alarmhäufigkeit zu reduzieren. „Anstatt mit Alarmen bombardiert zu werden, gruppiert PagerDuty zusammengehörige Alarme in einem einzigen Vorfall, wobei alle Details an einem Ort und nicht über mehrere Tools verstreut sind. Dies reduziert nicht nur die Alarmhäufigkeit, sondern hilft uns auch, die dringendsten Vorfälle zu priorisieren“, erklärte Krishnan.

Dank seiner Investitionen in die digitale Transformation und moderne Reaktion auf Vorfälle war Tokopedia auch gut auf die Nachfragespitzen nach der COVID-19-Pandemie in Südostasien vorbereitet. „Durch die Migration in die Cloud und die Einführung von PagerDuty konnten wir die Anzahl der Vorfälle, mit denen wir konfrontiert sind, besser kontrollieren. Dies war insbesondere während des sprunghaft ansteigenden Online-Einkaufs während des COVID-19-Ausbruchs von entscheidender Bedeutung und bedeutete, dass wir schneller auf Vorfälle reagieren konnten, um Störungen für Verkäufer und Käufer so gering wie möglich zu halten.“

„Durch die Migration in die Cloud und die Einführung von PagerDuty konnten wir die Zahl der Vorfälle, mit denen wir konfrontiert werden, besser kontrollieren.“

– Rajesh Gopala Krishnan , AVP für technische Produktivität, Tokopedia

PagerDuty hat Tokopedia außerdem dabei geholfen, die vollständige Verantwortung für die Dienste zu übernehmen und eine Kultur der Verantwortung zu fördern, was dem Unternehmen mit seinen internen Tools für das Vorfallmanagement zuvor schwergefallen war.

Wie Krishnan erklärt, war oft unklar, wer auf einen Vorfall reagieren sollte, wenn er einging. „Was fehlte, war die Verantwortlichkeit – wer ist für diesen Dienst oder diese Anwendung verantwortlich? Haben sie bemerkt, dass es ein Problem gibt, und arbeiten sie daran, das Problem zu lösen? Wir hatten kein klares Bild davon.“

Außerdem hatten die Bereitschaftstechniker zusätzliche Telefone dabei, über die die Teams sie bei eingehenden Alarmen erreichen konnten. Aber selbst dann war es schwierig, die richtigen Leute zu erreichen, da es keine zentrale Möglichkeit zur Verwaltung von Eskalationen gab. „Mit PagerDuty konnten wir manuelle Prozesse zur Reaktion auf Vorfälle eliminieren. Stattdessen leiten wir bei eingehenden Alarmen Vorfälle basierend auf unseren Eskalationsrichtlinien automatisch an die Person weiter, die für einen bestimmten Dienst verantwortlich ist“, erklärte Krishnan.

„Seit der Einführung von PagerDuty verbringen unsere Ingenieure weniger Zeit mit der Reaktion auf Vorfälle.“

– Rajesh Gopala Krishnan , AVP für technische Produktivität, Tokopedia

Vorteile mit PagerDuty

Nach der Implementierung von PagerDuty hat Tokopedia einen besseren Einblick in und eine bessere Kontrolle über Vorfälle in seiner Umgebung gewonnen. Dies bietet unter anderem folgende Vorteile:

  • Größere Verantwortlichkeit unter den Entwicklungsteams
  • Reduziertes Alarmgeräusch
  • Schnellere Reaktionszeiten bei Vorfällen
  • Steigerung der Software-Updates von 10 auf über 300 pro Tag, da die Teamproduktivität durch den Einsatz von Automatisierung steigt

„Seit wir PagerDuty eingeführt haben, verbringen unsere Ingenieure weniger Zeit mit der Reaktion auf Vorfälle. Stattdessen können sie sich darauf konzentrieren, das Kundenerlebnis zu verbessern, zu verstehen, was unsere Händler und Kunden wollen und wie sie unsere Dienste nutzen“, erklärte Krishnan. „Dank PagerDutys Automatisierungsunterstützung sind die Ingenieure außerdem viel produktiver. Wir haben die täglichen Softwarebereitstellungen um 3.000 % gesteigert.“

Zukunftsorientiert

In Zukunft wird Tokopedia den Einsatz von PagerDuty weiter ausbauen. Dazu gehört auch die Überwachung der Leistung neuer Funktionen vor der Bereitstellung, um Probleme zu erkennen, bevor sie in der Produktionsumgebung live gehen. Da Tokopedia weiterhin Automatisierung im gesamten Softwarebereitstellungszyklus einführt und Anwendungen entwickelt, die sich selbst reparieren können, wird PagerDuty außerdem eine wichtige Rolle bei der Erstellung von Workflows und Runbooks spielen, um Vorfälle zu verhindern, zu diagnostizieren und zu beheben, ohne sie an einen Experten weiterleiten zu müssen.

Um zu erfahren, wie PagerDuty Ihrem Team dabei helfen kann, Dinge zu vereinfachen und Abläufe in einer digitalisierten Welt umzugestalten, wenden Sie sich an Ihren Account Manager oder probieren Sie eine 14 Tage kostenlos testen Heute.