PagerDuty aide CTC à transformer ses opérations dans un monde à distance
Taille: 101 à 500 employés
Industrie: Services financiers
Emplacement: Chicago, Illinois
Client depuis : 2014
Intégrations clés :
Fondée en 1995, Chicago Trading Company (CTC) est une société de négoce de produits dérivés spécialisée dans les opérations de marché sur une large gamme de produits, services et stratégies. CTC intervient activement sur un vaste éventail de classes d'actifs, notamment les actions, les taux d'intérêt et les matières premières. Ses salles de marchés sont ouvertes 20 heures par jour, six jours sur sept, et la société est reconnue comme un acteur majeur de la liquidité et de la tarification sur de nombreuses places boursières d'actions et de produits dérivés à travers le monde.
Étant donné la volatilité du marché à la microseconde près, les applications et services critiques de CTC doivent être disponibles en permanence pour offrir une expérience client optimale et constante. « Nos services étant directement connectés au marché, toute interruption de service est inacceptable », explique le responsable SRE et Observabilité chez CTC. « Si nous ne sommes pas présents sur le marché, nous passons à côté d'opportunités. » Ce responsable gère l'observabilité chez CTC et supervise l'équipe SRE qui assure le support, l'automatisation et l'amélioration de la disponibilité des environnements de préproduction et de production.

Avant PagerDuty
Avant la mise en œuvre de PagerDuty, l'équipe a rencontré plusieurs difficultés, notamment :
- Les retards de réponse sont dus à un répertoire de garde manuel dont les horaires et les rotations sont obsolètes.
- Difficultés à communiquer avec les intervenants de garde en dehors des heures ouvrables
- Le manque d'automatisation intégrée au processus d'intervention a entraîné une augmentation du travail manuel pour les intervenants de garde.
- Un tableau de bord obsolète, encombré d'événements et d'alertes inexploitables, engendre des retards dans la prise en compte et la résolution des incidents.
- Des tempêtes d'alerte ont réduit la capacité des équipes à comprendre la nature des incidents et à y répondre efficacement.
Face à la récente essor du télétravail, CTC a dû rapidement adapter ses opérations à un modèle privilégiant le numérique. Par ailleurs, la forte volatilité des marchés a entraîné une augmentation de la fréquence des transactions de ses clients, rendant plus crucial que jamais la disponibilité permanente de la plateforme de trading de CTC.
Pour y parvenir, CTC a dû repenser son processus de gestion des incidents tout en maintenant une expérience client homogène. Les équipes ont donc dû recentrer leurs efforts sur les opérations quotidiennes plutôt que sur les projets à long terme, et ce, dans un nouvel environnement privilégiant le télétravail. « Nos équipes sont pleinement mobilisées pour garantir que les systèmes puissent gérer l'augmentation de la capacité et assurer la liquidité du marché afin de satisfaire nos clients », a déclaré le responsable SRE et Observabilité.
Prioriser la communication et la collaboration
Avant le passage au télétravail, la plupart des informations étaient communiquées oralement au bureau. Désormais, avec l'ensemble de l'entreprise travaillant à distance, la capacité à communiquer et à collaborer efficacement entre les équipes est plus importante que jamais. PagerDuty a aidé CTC à digitaliser entièrement ses canaux de communication en cas d'incident. «PagerDuty nous a vraiment appris à gérer les incidents à distance et nous a permis de centraliser notre processus de gestion des incidents afin de réunir rapidement les équipes sur un canal unique et de prendre des décisions directement depuis cette plateforme. »
CTC utilise également Slack, qui fait partie de PagerDuty. Un écosystème de plus de 600 intégrations , afin d'améliorer la communication et la collaboration entre les équipes en cas d'incident, ainsi que pour la réalisation d'analyses post-mortem. Avec le Intégration Slack Les équipes peuvent désormais créer, traiter et résoudre les incidents PagerDuty directement dans l'interface Slack, ce qui allège la complexité des communications multicanales et permet à toutes les équipes concernées de collaborer. « Comme toutes les équipes travaillent à distance actuellement, nous créons simplement l'incident directement dans Slack. Le guide indique à chacun la salle Zoom à rejoindre, et c'est parti ! » explique le responsable SRE et Observabilité.
Améliorer la visibilité opérationnelle
Dans un environnement numérique prioritaire, il est essentiel que les parties prenantes aient une visibilité totale et en temps réel sur l'état de santé de leurs systèmes et services critiques afin de pouvoir orchestrer rapidement une réponse appropriée en cas d'incident.
Avant PagerDuty, CTC utilisait un tableau de bord traditionnel qui alertait l'équipe des interruptions de service et des incidents. « Nous recevions ce que nous appelions un 'mur rouge', c'est-à-dire un écran littéralement rempli de centaines d'alertes, sans aucune indication sur ce qui était impacté ni sur ce qui se passait dans notre environnement », explique le responsable SRE et Observabilité.
Pour lutter contre ce problème, CTC a mis en œuvre Intelligence événementielle PagerDuty L’objectif est de regrouper automatiquement les alertes et de réduire le bruit pour tous les services et applications critiques. « Avant PagerDuty, nous recevions parfois entre 50 et 200 alertes simultanément. Grâce à Event Intelligence, ce nombre est désormais tombé à 5-10 », a-t-il expliqué.
Grâce à Event Intelligence, les équipes d'intervention de CTC disposent du contexte nécessaire pour résoudre rapidement un problème avant qu'il n'ait un impact important sur les clients. « La possibilité de réduire le bruit et de supprimer les alertes au sein de la plateforme libère un temps précieux pour notre équipe SRE, qui peut ainsi se concentrer sur des tâches à plus fort impact », a déclaré le responsable SRE et Observabilité.
Comme de nombreuses entreprises aujourd'hui, CTC doit poursuivre sa croissance pour répondre à la demande client et aux innovations. Si la rapidité est essentielle pour une société de trading comme CTC, l'exécution de charges de travail peu sensibles à la latence sur AWS a permis à CTC d'évoluer plus rapidement et de commercialiser ses idées plus vite. De nombreux nouveaux services déployés sur AWS adoptent une approche « vous le développez, vous en êtes responsable », et PagerDuty offre une solution unique pour escalader, suivre et mesurer les incidents à l'échelle de l'entreprise, indépendamment du responsable du service.
« La possibilité de réduire le bruit et d'éliminer les alertes au sein de la plateforme libère énormément de temps pour les membres de notre équipe SRE, leur permettant ainsi de se concentrer sur des tâches à plus fort impact. »
– Chef de SRE et observabilité, CTC
Avantages de PagerDuty
Depuis la mise en place de PagerDuty, CTC a constaté plusieurs avantages, notamment :
- Réduction de la fatigue liée aux alertes et amélioration de la réponse aux incidents grâce à Intelligence événementielle PagerDuty
- Réduction des délais moyens d'accusé de réception et de réponse (MTTA/MTTR) sur l'ensemble des systèmes et services critiques.
- Amélioration de la gestion quotidienne des incidents et capacité d'automatiser le transfert des incidents d'une équipe à l'autre.
- Une ligne de communication ouverte avec les traders seniors présents sur le parquet, permettant de signaler les incidents aux responsables d'astreinte, quel que soit le fuseau horaire, en cas de besoin.
- Expérience de gestion des incidents sans faille pour les applications fonctionnant 24h/24 et 7j/7 sur AWS
PagerDuty a également contribué à la stratégie de continuité des activités de CTC. « Dans ce nouvel environnement de travail à distance, les employés peuvent se sentir déconnectés de la réalité, et nous essayons de remédier à cela grâce à PagerDuty. Presque tous les employés de l'entreprise utilisent la plateforme PagerDuty , qu'ils soient parties prenantes ou utilisateurs à part entière », a expliqué le responsable SRE et Observabilité.
Tourné vers l'avenir
CTC prévoit de continuer à étendre l'utilisation de PagerDuty à l'ensemble de l'organisation. Par exemple, l'entreprise a décidé de se concentrer davantage sur les indicateurs pour orienter ses actions futures ; l'équipe de Rotta étudie donc les revues opérationnelles, ainsi que… Analyses et tableaux de bord intelligents de PagerDuty « Cela permettra de mieux comprendre la santé des équipes et l’impact des incidents sur l’activité, de mesurer les SLA et de partager facilement les indicateurs avec la direction. « Cela pourrait nous aider à prendre des décisions éclairées concernant les applications dans lesquelles investir », a-t-il expliqué. »
De plus, bien que CTC ait déjà configuré tous ses principaux services métiers dans des tableaux de bord d'état, l'entreprise souhaite étendre leur utilisation à l'ensemble de ses activités en offrant à la direction une meilleure visibilité sur l'état d'un incident ou d'un service. À mesure que la plateforme PagerDuty évolue avec CTC, l'équipe envisage d'étendre ses fonctionnalités à d'autres composantes de son infrastructure. « J'apprécie sa simplicité. Je n'ai rien à gérer, elle fonctionne tout simplement », a-t-il confié.
Pour découvrir comment PagerDuty peut aider votre équipe à simplifier ses processus et à transformer ses opérations dans un monde numérique, contactez votre responsable de compte ou essayez un Essai gratuit de 14 jours aujourd'hui.