Der Blog

Nicht alles Kritische ist dringend. Lernen Sie den Unterschied

von Dave Cliffe 17. September 2015 | 3 Minuten Lesezeit

„Kritisch“ versus „Dringend“

Nehmen wir an, eine Staging-Umgebung wird so eingerichtet, dass sie die Produktionsumgebung in Bezug auf Konfiguration, Daten usw. möglichst genau widerspiegelt. Sie ist ein sehr wichtiger Teil der Bereitstellungspipeline und während des Arbeitstags für alle Ingenieure, die sie benötigen, praktisch geschäftskritisch. Sie wird ständig überwacht, um sicherzustellen, dass sie ordnungsgemäß funktioniert, die Produktion so gut wie möglich widerspiegelt und für Bereitstellungen verfügbar ist.

Dann geht etwas schief und Sie sehen überall „KRITISCH“ oder „FEHLER“. Oh … ich habe vergessen zu erwähnen, dass es bei Ihnen 3 Uhr morgens ist. Ist es in diesem Moment wirklich „kritisch“? Nun, technisch gesehen schon. Die Umgebung ist immer noch kaputt. Aber möchten Sie das Problem jetzt beheben? Ist es dringend?

Was bedeutet „kritisch“ überhaupt?

Das Incident-Response-Modell von PagerDuty basierte ursprünglich auf der Annahme, dass es ein Problem gibt und Sie JETZT jemanden brauchen: Wir rufen den primären Bereitschaftsdienst wiederholt an, wir eskalieren, wenn dieser nicht verfügbar oder verhindert ist, aber komme, was wolle: Wir werden sofort und zuverlässig jemanden schicken – garantiert . So können Sie nachts beruhigt schlafen. Wenn es kritisch wird, können Sie auf uns zählen: Wir kümmern uns um Sie.

Aber was bedeutet „kritisch“? Wer definiert es? Einige unserer Kunden verwenden das ITIL-Framework zur Definition Vorfallpriorität . (Tatsächlich wurde es bis zur Einführung von ITIL v3 „Vorfallschweregrad“ genannt.) Aber die Mehrheit unserer Kunden verlässt sich bei ihren Überwachungstools auf die Definition eines Schweregrads/einer Priorität: Welcher Schwellenwert wurde überschritten? Wie oft ist es in den letzten 60 Sekunden fehlgeschlagen? Ist es meist tot oder alle tot?

Es lief darauf hinaus, eine zentrale Frage zu stellen: Muss ich jetzt sofort etwas dagegen tun? Oder anders ausgedrückt: Ist es dringend?

Es mag „kritisch“ sein, aber ist es „dringend“?

Eine Reihe von Alarmreaktionen zu haben, ist unglaublich nützlich, denn es bedeutet oft, dass Sie frühzeitig über einen Trend informiert werden, der sich „schlecht“ entwickelt, bevor es tatsächlich „schlecht“ wird. Nur weil etwas nicht dringend ist heißt nicht, dass es nicht wichtig ist , und die Speicherung aller Ihrer Vorfälle, ob groß oder klein, in PagerDuty liefert Ihnen wertvolle Analysen zu Problemen, die sich möglicherweise anbahnen.

Leider haben einige unserer Kunden festgestellt, dass die Umwandlung jeder Warnung in einen PagerDuty Vorfall ein Rezept für schlaflose Nächte sein kann. miserable Bereitschaftsdienste und Burnout. Jetzt also, mit Dringlichkeit von Vorfällen , können Sie vermeiden, für Dinge geweckt zu werden, von denen Sie wissen, dass sie nicht dringend Ihrer Aufmerksamkeit bedürfen, und Sie können herausfinden, was jetzt wichtig ist und was warten kann.

Werde nur geweckt, wenn es „dringend“ ist

Wenn Sie immer noch für Dinge geweckt werden, die nicht dringend sind, verwenden Sie das folgende Runbook:

  1. Verschieben Sie es bis zum Morgen! Kümmern Sie sich dann am nächsten Tag darum.
  2. Nutzen Sie jetzt unsere Dringlichkeit von Vorfällen Funktionen zum Definieren dieser Ereignisse als wenig dringend oder tageszeitabhängig.

Und wie immer können Sie uns Ihr Feedback senden an support@pagerduty.com ! Jeden Tag, zu jeder Zeit. Seien Sie einfach nicht verärgert, wenn es uns nicht aufweckt!

Monitoring_Ebook_728_90