Bilan de la panne – 16 janvier 2014
Chez PagerDuty , nous offrir de la transparence de toute panne ayant un impact négatif sur les clients de PagerDuty . Nous sommes fiers de la fiabilité supérieure de PagerDuty, mais nous pouvons parfois avoir un problème. Nous vous recommandons de suivre notre compte Twitter dédié, @PagerDutyOps , pour être informé de toute panne qui se produit.
Le 16 janvier à 7h40 PST, nous avons eu un petit incident qui a retardé six alertes (3 e-mails, 2 SMS et 1 notification push). Cela a été causé par une condition de concurrence rare qui a empêché la libération correcte d'un petit ensemble de verrous.
Cette situation est due à nos efforts pour minimiser le verrouillage et les conflits de flux de travail afin de rendre nos services évolutifs. Cela a augmenté la latence dans nos opérations Cassandra et Zookeeper.
Nous avons rapidement identifié et résolu le problème, en effectuant des tests de régression. Aucune alerte n'a été perdue pendant la panne. Les six alertes ont toutefois été considérablement retardées.
Nous tenons à nous excuser auprès des personnes concernées par cette panne. Nous mettons tout en œuvre pour réduire la probabilité que ce type d'erreur se reproduise à l'avenir.
Si vous avez des questions, veuillez contacter support@pagerduty.com .