Der Blog

Eine UTC-Schaltsekunde vs. Derecho

von David Hayes 13. Juli 2012 | 3 Minuten Lesezeit

Bei PagerDuty sind wir normalerweise immer ganz vorne mit dabei, wenn es um das Internet geht. Letztes Wochenende derecho Sturm nahm 7 % von AWS und eine zur UTC hinzugefügte Schaltsekunde verursachte Server geraten in Panik .

Wie wir in unserem letzten Beitrag erwähnt haben, wir überlebten beides. Einige Leute meinten, dass mein Diagramm die Schaltsekunde sogar noch schlimmer aussehen ließ:

~20-fache Zunahme des Datenverkehrs aufgrund eines AWS-Ausfalls. (Der zweite Anstieg fällt mit der Hinzufügung einer Schaltsekunde zu UTC zusammen und steht wahrscheinlich nicht damit in Zusammenhang.)

Bei PagerDuty ist so ziemlich jeder im Bereitschaftsdienst. Ich habe Glück, dass ich unwichtig genug bin, um nur gerufen zu werden, wenn alle Alarmglocken läuten. Ich wurde also weder in der Schaltsekunde noch beim zweiten kleineren AWS-Ausfall gerufen. Aus meiner Sicht war der AWS-Ausfall schlimmer – aber wenn man sich die Grafik ansieht, sieht es so aus, als wäre die Schaltsekunde schlimmer gewesen, also bin ich versucht, der Sache auf den Grund zu gehen.

Vorfälle sind ein gutes Maß dafür, wie viele Störungen im Internet auftreten, aber sie sind nicht das beste Maß für die Belastung unseres Systems. Da wir viel Arbeit auf Kontoebene erledigen (Deduplizierung und Eskalation), habe ich mir angesehen, wie viele Konten gleichzeitig eine Aktion ausführen.

Anzahl der Konten, die Vorfälle auslösen, aktualisieren oder lösen.

Diese Kurven sind etwas weniger abrupt, da sie Bestätigungen und Lösungen enthalten. Ein Hinweis ist jedoch, dass sich die Kurven etwas ändern, nachdem ich das erste Diagramm mit stündlicher Auflösung und das zweite Diagramm mit einer engeren Auflösung ausgeführt habe. Also habe ich die erste Abfrage noch einmal mit einer feineren Auflösung ausgeführt und die verschiedenen Alarmtypen einbezogen:

Ein detaillierter Blick auf Aktivitäten und Alarme

Bingo! Widersprüchlicherweise trat der AWS-Spitzenwert schneller ein als die Schaltsekunde. Das könnte Sinn ergeben, wenn die Schaltsekunde verschiedene Maschinen traf, die versuchten, Ereignisse für die Zukunft zu planen, während der AWS-Ausfall unerwartet war.

Der AWS-Spike war 30-mal so hoch wie das durchschnittliche Verkehrsaufkommen auf dem Höhepunkt des Sturms, während der AWS-Echoausfall und die Schaltsekunde nur 21- bzw. 18-mal so hoch waren. Die Durchschnittswerte sind umgekehrt: Der AWS-Ausfall war über 2 Stunden durchschnittlich 7-mal höher, aber der Schaltsekunden-Spike war 9-mal so hoch – und bedenken Sie, dass der „Durchschnitt“, mit dem ich vergleiche, der Durchschnitt für das fragliche Wochenende ist, das selbst kaum ein durchschnittliches Wochenende war.

aws Daten Ausfall Zuverlässigkeit Statistiken

Das könnte Ihnen auch gefallen ...

Zuverlässigkeit
Bewährte Methoden für End-to-End-Tests (E2E)

Produkt , Zuverlässigkeit
PagerDuty: Wir sind immer erreichbar

HumanOps , Zuverlässigkeit , Anwendungsfälle und Lösungen
Mit Echtzeitoperationen Leben retten

Vorfallmanagement

AIOps

Automatisierung

Kundenservice-Operationen

Statusseiten

Stakeholder-Kommunikation

Integrationen

PagerDuty Advance

Entwicklerplattform

Professionelle Dienstleistungen

Sicherheit

Unternehmensklasse

Integrationen

Der Blog

Eine UTC-Schaltsekunde vs. Derecho

Das könnte Ihnen auch gefallen ...

Zuverlässigkeit
Bewährte Methoden für End-to-End-Tests (E2E)

Produkt , Zuverlässigkeit
PagerDuty: Wir sind immer erreichbar

HumanOps , Zuverlässigkeit , Anwendungsfälle und Lösungen
Mit Echtzeitoperationen Leben retten

Bewährte Methoden für End-to-End-Tests (E2E)

PagerDuty: Wir sind immer erreichbar

Mit Echtzeitoperationen Leben retten

Der Blog

Eine UTC-Schaltsekunde vs. Derecho

Das könnte Ihnen auch gefallen ... Zuverlässigkeit Bewährte Methoden für End-to-End-Tests (E2E) Produkt , Zuverlässigkeit PagerDuty: Wir sind immer erreichbar HumanOps , Zuverlässigkeit , Anwendungsfälle und Lösungen Mit Echtzeitoperationen Leben retten

Bewährte Methoden für End-to-End-Tests (E2E)

PagerDuty: Wir sind immer erreichbar

Mit Echtzeitoperationen Leben retten

Das könnte Ihnen auch gefallen ...

Zuverlässigkeit
Bewährte Methoden für End-to-End-Tests (E2E)

Produkt , Zuverlässigkeit
PagerDuty: Wir sind immer erreichbar

HumanOps , Zuverlässigkeit , Anwendungsfälle und Lösungen
Mit Echtzeitoperationen Leben retten