Blog

Seconde intercalaire UTC contre Derecho

par David Hayes 13 juillet 2012 | 3 minutes de lecture

Chez PagerDuty, nous sommes généralement aux premières loges face à tout ce qui ne va pas avec Internet. Le week-end dernier, un droit la tempête a emporté 7% d'AWS et une seconde intercalaire ajoutée à UTC a provoqué les serveurs paniquent .

Comme nous l’avons mentionné dans notre dernier article, Nous avons survécu les deux. Quelques personnes ont mentionné que mon graphique rendait en fait la seconde intercalaire encore pire :

Augmentation d'environ 20 fois du trafic en raison d'une panne d'AWS. (Le deuxième pic coïncide avec l'ajout d'une seconde intercalaire dans l'UTC et n'est probablement pas lié).

Presque tout le monde chez PagerDuty est en rotation de garde. J'ai de la chance dans la mesure où je suis suffisamment sans importance pour que je ne sois appelé que lorsque toutes les cloches et tous les sifflets sonnent, donc je n'ai pas été appelé à la seconde intercalaire ou à la deuxième panne mineure d'AWS. Donc, de mon point de vue, la panne d'AWS était pire, mais en regardant le graphique, il semble que la seconde intercalaire était pire, donc je suis tenté d'enquêter.

Les incidents sont une bonne mesure de l'ampleur des pannes sur Internet, mais ils ne constituent pas la meilleure mesure de la charge sur notre système. Étant donné que nous effectuons beaucoup de travail au niveau des comptes (déduplication et escalade), j'ai examiné le nombre de comptes effectuant une action à la fois.

Nombre de comptes déclenchant, mettant à jour ou résolvant des incidents.

Ces courbes sont un peu moins abruptes, car elles incluent les accusés de réception et les résolutions. Un indice cependant : après avoir exécuté le premier graphique avec une résolution horaire et le deuxième graphique avec une résolution plus étroite, les courbes changent un peu. J'ai donc exécuté à nouveau la première requête avec un grain plus fin et inclus les différents types d'alertes :

Un aperçu détaillé de l'activité et des alertes

Bingo ! Contre toute attente, le pic AWS a eu lieu plus rapidement que la seconde intercalaire. Cela pourrait avoir un sens si la seconde intercalaire avait touché des machines différentes alors qu'elles essayaient de planifier des événements dans le futur, alors que la panne AWS était inattendue.

Le pic AWS était 30 fois plus élevé que le volume moyen de trafic au plus fort de la tempête, alors que la panne d'écho AWS et la seconde intercalaire n'étaient respectivement que 21 et 18 fois plus élevées. Les moyennes sont inversées, la panne AWS était en moyenne 7 fois plus élevée sur 2 heures, mais le pic de la seconde intercalaire était 9 fois plus élevé — et gardez à l'esprit que la « moyenne » à laquelle je fais la comparaison est la moyenne du week-end en question, qui n'était pas vraiment un week-end moyen en soi.