PagerDuty image

PagerDuty aide CTC à transformer ses opérations dans un monde à distance

PagerDuty image

Taille: 101 - 500 employés

Industrie: Services financiers

Emplacement: Chicago, Illinois

Client depuis : 2014

Intégrations clés :

JIRA
Mou
Splunk
AWS

Fondée en 1995, Chicago Trading Company (CTC) est une société de négociation de produits dérivés spécialisée dans le trading sur le marché de divers produits, services et stratégies. CTC négocie activement un large éventail de classes d'actifs, notamment les actions, les taux d'intérêt et les matières premières. Ses bureaux de négociation sont ouverts 20 heures par jour, six jours par semaine, et la société est reconnue comme l'un des principaux fournisseurs de liquidités et de prix sur de nombreuses bourses d'actions et de produits dérivés dans le monde.

Le marché fluctuant à la microseconde près, les applications et services critiques de CTC doivent toujours être en ligne et disponibles pour les utilisateurs à tout moment afin de fournir une expérience client cohérente, à chaque fois. « Nos services étant directement liés au marché libre, les temps d'arrêt ne sont tout simplement pas envisageables », explique Luke Rotta, responsable SRE et observabilité chez CTC. « Si nous ne sommes pas présents sur le marché, nous ne participons pas à l'opportunité, et c'est une opportunité manquée. » Rotta est responsable de la gestion de l'observabilité chez CTC, ainsi que de la supervision de l'équipe SRE qui prend en charge, automatise et améliore la disponibilité des environnements de préproduction et de production.

CTC reduced alert noise 10x with PagerDuty

Avant PagerDuty

Avant de mettre en œuvre PagerDuty, l'équipe de Rotta a été confrontée à plusieurs défis, notamment :

  • Retards de réponse dus à un répertoire manuel d'astreinte avec des horaires et des rotations obsolètes
  • Difficulté à communiquer avec les intervenants de garde en dehors des heures ouvrables
  • Manque d'automatisation intégrée au processus de réponse, ce qui a entraîné davantage de travail manuel pour les intervenants de garde
  • Un tableau de bord hérité encombré d'événements et d'alertes non exploitables, créant des retards dans la reconnaissance et la résolution des incidents
  • Des tempêtes d'alerte qui ont réduit la capacité des équipes à comprendre la composition des incidents et à y répondre efficacement

Avec la récente tendance au télétravail, CTC a été obligée de faire rapidement évoluer ses opérations vers un modèle axé sur le numérique. En outre, la volatilité accrue des marchés a obligé ses clients à augmenter la fréquence de leurs transactions, ce qui a rendu plus important que jamais le maintien en activité de la plateforme de trading CTC à tout moment.

Pour y parvenir, CTC a dû repenser son processus de gestion des incidents tout en continuant à maintenir et à offrir une expérience client cohérente. Cela signifiait que les équipes de Rotta devaient recentrer leurs efforts sur les opérations quotidiennes plutôt que sur des projets à long terme, et tout cela dans un nouvel environnement axé sur le travail à distance. « Nos équipes se concentrent avec acharnement sur la garantie que les systèmes peuvent gérer la capacité accrue et fournir des liquidités au marché pour satisfaire nos clients », a expliqué Rotta.

Donner la priorité à la communication et à la collaboration

Avant le télétravail, la plupart des informations étaient communiquées verbalement au bureau. Aujourd’hui, alors que toute l’entreprise travaille à distance, la capacité à communiquer et à collaborer efficacement entre les équipes est plus importante que jamais. PagerDuty a aidé CTC à transformer ses canaux de communication sur les incidents pour qu’ils soient entièrement numériques. «PagerDuty nous a vraiment appris à gérer un incident à distance et nous a permis de centraliser notre processus de gestion des incidents pour rassembler rapidement les équipes dans un seul canal et prendre des décisions directement à partir de là. »

CTC s'appuie également sur Slack, qui fait partie de PagerDuty écosystème de plus de 600 intégrations , pour améliorer la communication sur les incidents et la collaboration entre les équipes, ainsi que pour effectuer des autopsies. Intégration Slack Les équipes peuvent créer, répondre et résoudre les incidents PagerDuty directement dans l'interface Slack, ce qui réduit le stress des multiples canaux de communication et permet à toutes les équipes nécessaires de travailler ensemble sur l'incident. « Étant donné que toutes les équipes sont désormais à distance, nous créons simplement l'incident directement dans Slack. Le manuel indique à chacun dans quelle salle Zoom se connecter, et c'est parti », a expliqué Rotta.

Améliorer la visibilité opérationnelle

Dans un environnement numérique, il est essentiel que les parties prenantes aient une visibilité totale sur l'état de santé de leurs systèmes et services critiques en temps réel afin qu'elles puissent rapidement orchestrer une réponse appropriée lorsqu'un incident se produit.

Avant PagerDuty, CTC utilisait un tableau de bord traditionnel qui alertait l'équipe des interruptions de service et des incidents. « Nous obtenions ce que nous appelons le « mur rouge », qui était littéralement un écran rempli de centaines d'alertes, sans aucune idée de ce qui était affecté ou de ce qui se passait dans notre environnement », explique Rotta.

Pour lutter contre ce problème, le CTC a mis en œuvre Renseignements sur les événements PagerDuty pour regrouper automatiquement les alertes et réduire le bruit pour tous les services et applications critiques. « Avant PagerDuty, nous recevions parfois entre 50 et 200 alertes en même temps. Avec Event Intelligence, ce nombre est désormais réduit à 5 à 10 », explique Rotta.

Grâce à Event Intelligence, les équipes d'intervention de CTC disposent également du contexte dont elles ont besoin pour résoudre rapidement un problème avant qu'il n'ait un impact majeur sur le client. « La possibilité de réduire le bruit et de supprimer les alertes au sein de la plateforme libère vraiment beaucoup de temps pour que les membres de notre équipe SRE puissent se concentrer sur des tâches à plus fort impact », a déclaré Rotta.

Comme de nombreuses entreprises aujourd'hui, CTC doit continuer à évoluer pour répondre à la demande des clients et aux nouvelles innovations. Même si la vitesse est un enjeu de taille pour une société commerciale comme CTC, l'exécution de charges de travail non sensibles à la latence dans AWS a donné à CTC la possibilité d'évoluer plus rapidement et de réduire le délai de mise sur le marché des idées. De nombreux nouveaux services déployés sur AWS suivent une approche « vous le construisez, vous le possédez » et PagerDuty fournit un moyen unique d'escalader, de suivre et de mesurer les incidents dans toute l'entreprise, indépendamment de qui possède ou prend en charge le service.

« La possibilité de réduire le bruit et d'éliminer les alertes au sein de la plateforme libère vraiment beaucoup de temps pour que les membres de notre équipe SRE puissent se concentrer sur des tâches à plus fort impact. »

– Luke Rotta , Responsable, SRE et Observabilité, CTC

Avantages avec PagerDuty

Depuis la mise en œuvre de PagerDuty, CTC a constaté plusieurs avantages, notamment :

  • Réduction de la fatigue liée aux alertes et amélioration de la réponse aux incidents grâce à Renseignements sur les événements PagerDuty
  • Délai moyen d'accusé de réception/temps moyen de réponse (MTTA/MTTR) plus rapide sur tous les systèmes et services critiques
  • Amélioration de la gestion quotidienne des incidents et possibilité d'automatiser le transfert des incidents d'une équipe à l'autre
  • Une ligne de communication ouverte avec les traders seniors sur le terrain qui transmet les incidents aux responsables de permanence dans tous les fuseaux horaires en cas de besoin
  • Expérience de gestion des incidents transparente pour les applications 24h/24 et 7j/7 exécutées sur AWS

PagerDuty a également contribué à soutenir la stratégie de continuité des activités de CTC. « Dans ce nouvel environnement à distance, les employés peuvent se sentir déconnectés de ce qui se passe, et nous essayons de résoudre ce problème avec PagerDuty. Presque tout le monde dans l'entreprise utilise la plateforme PagerDuty , qu'il s'agisse d'une partie prenante ou d'un utilisateur à part entière », a expliqué Rotta.

Regard vers l'avenir

CTC prévoit de continuer à étendre l'utilisation de PagerDuty à l'ensemble de l'organisation. Par exemple, l'entreprise a décidé de se concentrer davantage sur les indicateurs pour éclairer les actions futures. L'équipe de Rotta se penche donc sur les examens opérationnels, ainsi que sur les Analyses et tableaux de bord intelligents de PagerDuty , pour mieux comprendre la santé de l'équipe et l'impact commercial des incidents, mesurer les accords de niveau de service et avoir la possibilité de partager de manière transparente les indicateurs avec la direction. « Cela pourrait aider à prendre des décisions sur les applications dans lesquelles nous devons investir », a expliqué Rotta.

De plus, alors que CTC a déjà configuré tous ses principaux services commerciaux dans Status Dashboards, l'entreprise cherche à étendre son utilisation à l'ensemble de l'entreprise en offrant à la direction une meilleure visibilité sur l'état d'un incident ou d'un service. À mesure que la plateforme PagerDuty se développe avec CTC, Rotta et son équipe ont hâte d'étendre les fonctionnalités de la plateforme à d'autres parties de leur infrastructure. « J'aime le fait qu'elle soit simple. Je n'ai rien à gérer car elle fait simplement son travail », a-t-il partagé.

Pour découvrir comment PagerDuty peut aider votre équipe à simplifier les choses et à transformer les opérations dans un monde numérique, contactez votre responsable de compte ou essayez un Essai gratuit de 14 jours aujourd'hui.