PagerDuty image

PagerDuty unterstützt CTC bei der Umgestaltung des Betriebs in einer Remote-Welt

PagerDuty image

Größe: 101 - 500 Mitarbeiter

Industrie: Finanzdienstleistungen

Standort: Chicago, Illinois

Kunde seit: 2014

Wichtige Integrationen:

JIRA
Locker
Splunk
AWS

Die 1995 gegründete Chicago Trading Company (CTC) ist ein Derivatehandelsunternehmen, das sich auf den Markthandel mit einer Vielzahl von Produkten, Dienstleistungen und Strategien spezialisiert hat. CTC handelt aktiv mit einem breiten Spektrum von Anlageklassen, darunter Aktien, Zinssätze und Rohstoffe. Die Handelsschalter sind 20 Stunden am Tag, sechs Tage die Woche geöffnet und das Unternehmen gilt als führender Anbieter von Liquidität und Preisen an zahlreichen Aktien- und Derivatebörsen auf der ganzen Welt.

Da der Markt im Mikrosekundentakt schwankt, müssen die kritischen Anwendungen und Dienste von CTC immer online und für Benutzer sofort verfügbar sein, um jederzeit ein konsistentes Kundenerlebnis zu bieten. „Da unsere Dienste direkt an den offenen Markt gebunden sind, sind Ausfallzeiten einfach keine Option“, erklärte Luke Rotta, Manager für SRE und Observability bei CTC. „Wenn wir nicht auf dem Markt sind, nutzen wir die Chance nicht – und das ist eine verpasste Chance.“ Rotta ist für die Verwaltung der Observability bei CTC verantwortlich und beaufsichtigt das SRE-Team, das die Verfügbarkeit der Vorproduktions- und Produktionsumgebungen unterstützt, automatisiert und verbessert.

CTC reduced alert noise 10x with PagerDuty

Vor PagerDuty

Vor der Implementierung von PagerDuty stand Rottas Team vor mehreren Herausforderungen, darunter:

  • Reaktionsverzögerungen aufgrund eines manuellen Bereitschaftsverzeichnisses mit veralteten Zeitplänen und Rotationen
  • Schwierigkeiten bei der Kommunikation mit Bereitschaftskräften außerhalb der Geschäftszeiten
  • Fehlende Automatisierung im Reaktionsprozess, was zu mehr manueller Arbeit für die Bereitschaftshelfer führte
  • Ein veraltetes Dashboard voller nicht umsetzbarer Ereignisse und Warnungen, was zu Verzögerungen bei der Bestätigung und Lösung von Vorfällen führt
  • Alarmstürme, die die Fähigkeit der Teams beeinträchtigten, die Zusammensetzung von Vorfällen zu verstehen und effektiv darauf zu reagieren

Aufgrund des jüngsten Trends hin zur Fernarbeit war CTC gezwungen, den Betrieb schnell auf ein digitales Modell umzustellen. Darüber hinaus führte die erhöhte Marktvolatilität dazu, dass die Kunden auch häufiger handelten. Daher war es wichtiger denn je, dass die CTC-Handelsplattform jederzeit einsatzbereit war.

Um dies zu erreichen, musste CTC seinen Vorfallmanagementprozess überdenken und gleichzeitig weiterhin ein konsistentes Kundenerlebnis aufrechterhalten und bieten. Dies bedeutete, dass Rottas Teams ihre Bemühungen auf das Tagesgeschäft statt auf langfristige Projekte konzentrieren mussten – und das alles in einer neuen, Remote-First-Umgebung. „Unsere Teams konzentrieren sich voll und ganz darauf, sicherzustellen, dass die Systeme die erhöhte Kapazität bewältigen und dem Markt Liquidität liefern können, um unsere Kunden zufriedenzustellen“, teilte Rotta mit.

Kommunikation und Zusammenarbeit priorisieren

Vor der Umstellung auf Remote-Arbeit wurden die meisten Informationen mündlich im Büro übermittelt. Jetzt, wo das gesamte Unternehmen remote arbeitet, ist die Fähigkeit zur effektiven Kommunikation und Zusammenarbeit zwischen Teams wichtiger denn je. PagerDuty hat CTC dabei geholfen, seine Vorfallkommunikationskanäle vollständig zu digitalisieren. „PagerDuty hat uns wirklich beigebracht, einen Vorfall remote zu bearbeiten, und es uns ermöglicht, unseren Vorfallmanagementprozess zu zentralisieren, um Teams schnell in einem einzigen Kanal zusammenzuführen und Entscheidungen direkt von dort aus zu treffen.“

CTC nutzt auch Slack, Teil von PagerDutys Ökosystem mit über 600 Integrationen , um die Vorfallkommunikation und Zusammenarbeit zwischen Teams zu verbessern sowie Post-Mortem-Analysen durchzuführen. Mit dem Slack-Integration können Teams PagerDuty Vorfälle direkt in der Slack-Oberfläche erstellen, beantworten und lösen, was den Stress mehrerer Kommunikationskanäle verringert und es allen erforderlichen Teams ermöglicht, den Vorfall gemeinsam zu bearbeiten. „Da alle Teams jetzt remote arbeiten, erstellen wir den Vorfall einfach direkt in Slack. Das Playbook sagt allen, in welchen Zoom-Raum sie gehen sollen, und los geht‘s“, teilte Rotta mit.

Verbesserung der betrieblichen Transparenz

In einer Umgebung, in der die Digitalisierung an erster Stelle steht, ist es für die Beteiligten von entscheidender Bedeutung, in Echtzeit vollständige Transparenz über den Zustand ihrer kritischen Systeme und Dienste zu haben, damit sie im Falle eines Vorfalls schnell die richtige Reaktion orchestrieren können.

Vor PagerDuty verwendete CTC ein herkömmliches Dashboard, das das Team über Serviceunterbrechungen und Vorfälle informierte. „Wir bekamen das, was wir die ‚Wall of Red‘ nennen, also buchstäblich einen Bildschirm mit Hunderten von Warnungen, ohne dass wir einen Eindruck davon hatten, was betroffen war oder was in unserer Umgebung vor sich ging“, erklärte Rotta.

Um dieses Problem zu bekämpfen, implementierte CTC PagerDuty Ereignisintelligenz um Warnmeldungen automatisch zu gruppieren und den Lärm für alle unternehmenskritischen Dienste und Anwendungen zu reduzieren. „Vor PagerDuty gingen manchmal 50 bis 200 Warnmeldungen gleichzeitig ein. Mit Event Intelligence ist diese Zahl jetzt auf 5 bis 10 gesunken“, erklärt Rotta.

Mit Event Intelligence verfügen die Reaktionsteams von CTC außerdem über den Kontext, den sie benötigen, um ein Problem schnell zu lösen, bevor es sich auf die Kunden auswirkt. „Die Möglichkeit, den Lärm zu reduzieren und Warnmeldungen innerhalb der Plattform zu löschen, gibt den Mitarbeitern unseres SRE-Teams wirklich viel Zeit, sich auf Aufgaben mit größerer Auswirkung zu konzentrieren“, sagte Rotta.

Wie viele andere Unternehmen muss CTC seine Skalierung fortsetzen, um mit der Kundennachfrage und neuen Innovationen Schritt zu halten. Obwohl Geschwindigkeit bei einem Handelsunternehmen wie CTC ein absolutes Muss ist, konnte CTC durch die Ausführung latenzfreier Workloads innerhalb von AWS schneller skalieren und die Markteinführungszeit für Ideen verkürzen. Viele der neuen Services, die in AWS bereitgestellt werden, folgen einem „Sie erstellen es, Sie besitzen es“-Ansatz und PagerDuty bietet eine einheitliche Möglichkeit, Vorfälle im gesamten Unternehmen zu eskalieren, zu verfolgen und zu messen, unabhängig davon, wer den Service besitzt oder unterstützt.

„Die Möglichkeit, den Lärm zu reduzieren und Warnungen innerhalb der Plattform zu löschen, verschafft den Leuten in unserem SRE-Team wirklich viel Zeit, sich auf wichtigere Aufgaben zu konzentrieren.“

– Luke Rotta , Manager, SRE und Observability, CTC

Vorteile mit PagerDuty

Seit der Implementierung von PagerDuty konnte CTC mehrere Vorteile erzielen, darunter:

  • Reduzierte Alarmmüdigkeit und verbesserte Reaktion auf Vorfälle mit PagerDuty Ereignisintelligenz
  • Schnellere mittlere Zeit bis zur Bestätigung/mittlere Zeit bis zur Reaktion (MTTA/MTTR) über alle kritischen Systeme und Dienste hinweg
  • Verbessertes tägliches Vorfallmanagement und die Möglichkeit, die Übergabe von Vorfällen von Schicht zu Schicht zu automatisieren
  • Ein offener Kommunikationskanal mit leitenden Händlern auf dem Parkett, der Vorfälle bei Bedarf an Bereitschaftsmanager in anderen Zeitzonen weiterleitet
  • Nahtlose Vorfallsverwaltung für rund um die Uhr auf AWS ausgeführte Anwendungen

PagerDuty unterstützte auch die Geschäftskontinuitätsstrategie von CTC. „In dieser neuen, abgelegenen Umgebung können sich Mitarbeiter vom Geschehen abgekoppelt fühlen, und wir versuchen, dieses Problem mit PagerDuty zu lösen. Fast jeder im Unternehmen nutzt die PagerDuty Plattform, egal ob er ein Stakeholder oder ein Vollnutzer ist“, teilte Rotta mit.

Zukunftsorientiert

CTC plant, den Einsatz von PagerDuty im gesamten Unternehmen weiter auszubauen. So hat das Unternehmen beispielsweise beschlossen, sich stärker auf Kennzahlen zu konzentrieren, um zukünftige Maßnahmen zu steuern. Rottas Team befasst sich daher mit Betriebsprüfungen sowie PagerDuty Analytics und intelligente Dashboards , um die Gesundheit des Teams und die geschäftlichen Auswirkungen von Vorfällen besser zu verstehen, SLAs zu messen und die Möglichkeit zu erhalten, Kennzahlen nahtlos mit der Geschäftsleitung zu teilen. „Dies könnte uns dabei helfen, Entscheidungen darüber zu treffen, in welche Anwendungen wir investieren müssen“, erklärte Rotta.

Während CTC bereits alle wichtigen Geschäftsdienste in Status Dashboards eingerichtet hat, möchte das Unternehmen die Nutzung im gesamten Unternehmen ausweiten, indem es der Geschäftsleitung eine bessere Übersicht über den Status eines Vorfalls oder eines Dienstes bietet. Während die PagerDuty -Plattform mit CTC wächst, freuen sich Rotta und sein Team darauf, die Funktionalität der Plattform auf andere Teile ihrer Infrastruktur auszudehnen. „Mir gefällt, dass es so einfach ist. Ich muss nichts verwalten, weil es einfach seinen Job macht“, erzählt er.

Um zu erfahren, wie PagerDuty Ihrem Team dabei helfen kann, Dinge zu vereinfachen und Abläufe in einer digitalisierten Welt umzugestalten, wenden Sie sich an Ihren Account Manager oder probieren Sie eine 14 Tage kostenlos testen Heute.