Blog

Bilan de la panne – 14 avril 2014

par Tony Albanese 28 avril 2014 | 2 min de lecture

Le 14 avril, PagerDuty a subi une panne qui a affecté les clients sur les applications mobiles et Web. Pendant la période de panne, les clients ont pu rencontrer des problèmes de gestion de leurs comptes et certaines alertes ont été retardées. Lorsque ces incidents se produisent, nous veillons à offrir une transparence à nos clients qui pourraient avoir été affectés négativement. Nous nous excusons pour toute interruption de service et nous engageons à éviter que des problèmes ne se reproduisent à l'avenir.

Ce qui s'est passé?

Une augmentation de la charge de travail sur notre système de traitement des événements a entraîné une dégradation des performances dans sa file d'attente de travail. Bien que cette taille de charge de travail soit légèrement inhabituelle, elle n'est pas inattendue et ne devrait entraîner qu'un retard dans le traitement. Cependant, la baisse des performances a entraîné des dépassements de délai dans un système en amont avec une politique de nouvelle tentative en cas d'échec. Les nouvelles tentatives ont finalement entraîné une charge importante sur nos systèmes, entraînant des problèmes de disponibilité pendant une période d'environ 30 minutes. Bien qu'aucun événement n'ait été perdu et que toutes les alertes aient été envoyées, 39 % des événements ont été retardés au-delà de notre SLA de 5 minutes pendant la panne.

Comment avons-nous réagi ?

Peu de temps après le début des problèmes de disponibilité, nos équipes d'exploitation et d'ingénierie ont commencé à travailler pour résoudre le problème. Des mesures ont été prises peu de temps après pour réduire la pression sur le système en supprimant les événements en attente en double causés par les tentatives, ramenant ainsi nos systèmes à un fonctionnement normal.

Que faisons-nous à ce sujet ?

À court terme, nous avons immédiatement ajusté la politique de relance dans le système en amont pour garantir qu'un ralentissement attendu ne provoque pas une série de relances indésirables. À long terme, nous avons deux initiatives en cours qui empêcheront que cela ne se reproduise. La première consiste à rééquilibrer les politiques de délai d'attente et de relance de manière générale, ainsi qu'à effectuer des ajouts connexes tels que la gestion des requêtes idempotentes (le cas échéant). La deuxième consiste à séparer le traitement des événements de nos applications orientées client pour assurer une meilleure isolation, ce qui nous permet de mieux gérer la fiabilité et les performances.

Nous nous excusons si cette panne a affecté la capacité de votre équipe à recevoir des alertes en temps opportun. Comme toujours, si vous avez des questions ou des préoccupations, vous pouvez nous contacter à support@pagerduty.com .