Der Blog

Ausfall-Post-Mortem – 16. Januar 2014

von Tony Albanese 22. Januar 2014 | 1 Min. Lesezeit

Bei PagerDuty wir Transparenz bieten von Ausfällen, die sich negativ auf PagerDuty Kunden auswirken. Wir sind stolz auf die überragende Zuverlässigkeit von PagerDuty, aber gelegentlich kann es zu Pannen kommen. Wir empfehlen Ihnen, unserem speziellen Twitter-Konto zu folgen, @PagerDutyOps , um über auftretende Ausfälle benachrichtigt zu werden.

Am 16. Januar um 7:40 Uhr PST kam es zu einem kleinen Zwischenfall, der sechs Alarme verzögerte (3 E-Mails, 2 SMS und 1 Push-Benachrichtigung). Der Grund dafür war ein seltener Race Condition, der dazu führte, dass eine kleine Anzahl von Sperren nicht richtig freigegeben wurde.

Der Zustand wurde durch unsere Bemühungen verursacht, Sperren und Workflow-Konflikte zu minimieren, um unsere Dienste skalierbar zu machen. Dies erhöhte die Latenz in unseren Cassandra- und Zookeeper-Operationen.

Wir haben das Problem schnell identifiziert und behoben und anschließend Regressionstests durchgeführt. Während des Ausfalls gingen keine Warnmeldungen verloren. Allerdings wurden die sechs Warnmeldungen erheblich verzögert.

Wir möchten uns bei den Betroffenen für den Ausfall entschuldigen. Wir bemühen uns, die Möglichkeit solcher Fehler in Zukunft zu verringern.

Bei Fragen wenden Sie sich bitte an support@pagerduty.com .