Der Blog

PagerDuty 2.0

von Alex Solomon 12. April 2010 | 6 min Lesezeit

Wir freuen uns, Ihnen mitteilen zu können, dass wir die neue Version von PagerDuty veröffentlicht haben, die Multi-Incident-Unterstützung bietet. Um es auszuprobieren, melden Sie sich einfach bei Ihrem PagerDuty -Konto an.

Diese neue Funktion korrigiert eine übermäßige Vereinfachung im Design von PagerDuty: Bisher mussten Sie bei PD für jede Art von Problem, das Ihre Überwachungssysteme erkennen können, einen neuen Alarm erstellen. Leider funktioniert dies nicht sehr gut, wenn Sie ein Überwachungstool wie Nagios verwenden, das Tausende von Hosts und Diensten gleichzeitig überwachen kann. Die neue Version kann jetzt mehrere offene Vorfälle von einem einzigen Überwachungssystem aus verarbeiten; wir nennen dies „Multi-Incident-Unterstützung“.

Hier ist eine kurze Zusammenfassung der Änderungen in der neuen Version:

  • Alarme wurden in Dienste umbenannt.
  • Alarmgruppen wurden in Eskalationsrichtlinien umbenannt.
  • Dienste können jetzt mehrere offene Vorfälle gleichzeitig verfolgen.
  • Die Vorfallunterdrückung wurde in „Bestätigung“ umbenannt.
  • Die Zeitspanne, in der ein Vorfall bestätigt bleibt, ist jetzt für jeden einzelnen Dienst konfigurierbar.

Die neue Version von PD ist 100 % abwärtskompatibel mit der vorherigen Version. Ja, wir haben eine Menge Dinge umbenannt, aber wir haben sehr darauf geachtet, das gleiche Verhalten wie die alte Version für Ihre vorhandenen Dienste beizubehalten. Lesen Sie weiter, um weitere Einzelheiten zu erfahren.

Die große Veränderung: Multi-Incident-Support

PagerDuty kann nun mehrere gleichzeitig auftretende Vorfälle verfolgen. Anders ausgedrückt: Ihr Überwachungssystem kann PagerDuty über 100 gleichzeitig auftretende und unabhängige Probleme informieren, ohne dass Sie 100 PagerDuty -Alarme erstellen müssen (wie dies in der alten Version von PD der Fall war).

PagerDuty verwendet jetzt „Vorfälle“ statt „Alarme“ als Hauptobjekt. Ihr Supportteam wird Vorfälle statt Alarme bestätigen, eskalieren und lösen. Vorfälle in PagerDuty ähneln Tickets in einem Fehlerverfolgungssystem: Sie werden erstellt, wenn ein Problem erkannt wird, und gelöst oder geschlossen, wenn das Problem behoben ist.

Da PagerDuty jetzt Hunderte von offenen Vorfällen gleichzeitig verarbeiten kann, haben wir versucht, die Benutzeroberfläche von PagerDuty sorgfältig zu gestalten, damit die Arbeit mit großen Vorfallsammlungen einfach ist. Die neuen Registerkarten „Vorfälle“ und „Dashboard“ enthalten Tabellen, in denen Sie alle Ihnen zugewiesenen offenen Vorfälle auf einen Blick sehen können. Sie können Ihre Vorfälle auch ganz einfach direkt von diesen Seiten aus mithilfe der Steuerelemente oben in der Tabelle sortieren.

Incidents tab

Aktivieren des Multi-Incident-Supports für Ihre PagerDuty -Dienste

Standardmäßig funktionieren die PagerDuty -Dienste noch immer so wie bisher: Sie können nur einen Vorfall gleichzeitig offen haben. Der Grund dafür ist die Wahrung der Abwärtskompatibilität.

Sie können den Multi-Incident-Support für jeden vorhandenen Dienst aktivieren. So geht's:

  1. Klicken Sie auf die Registerkarte „Dienste“ und dann auf den Link „Bearbeiten“ (unter „Aktionen“) für den Dienst, den Sie ändern möchten.
  2. Im Abschnitt „Einstellungen für die E-Mail-Integration“ sehen Sie drei Optionen:
    • Für jede Trigger-E-Mail einen neuen Vorfall öffnen
    • Für jeden neuen Trigger-E-Mail-Betreff einen neuen Vorfall öffnen
    • Öffnen Sie einen neuen Vorfall nur, wenn noch kein offener Vorfall vorhanden ist.

    Email integration settings
    Wenn die erste Option ausgewählt wird, öffnet der Dienst für jede Trigger-E-Mail, die an die E-Mail-Adresse des Dienstes gesendet wird, einen neuen Vorfall.

    Wenn die zweite Option ausgewählt wird, öffnet der Dienst einen neuen Vorfall basierend auf dem E-Mail-Betreff: Wenn bereits ein offener Vorfall mit demselben Betreff vorhanden ist, wird die E-Mail an diesen Vorfall angehängt. Andernfalls wird ein neuer Vorfall erstellt.

    Die dritte Option, die für einen vorhandenen Dienst standardmäßig ausgewählt werden sollte, ermöglicht es einem Dienst, das Verhalten der alten Version von PagerDuty beizubehalten. Sie schaltet grundsätzlich die Unterstützung mehrerer Vorfälle aus: Wenn diese Option ausgewählt ist, kann der Dienst jeweils nur einen offenen Vorfall haben. Wenn der Dienst eine Trigger-E-Mail empfängt, öffnet er einen neuen Vorfall, sofern der Dienst noch keinen offenen Vorfall hat; andernfalls hängt er die E-Mail an den offenen Vorfall an.

  3. Um die Unterstützung für mehrere Vorfälle zu aktivieren, wählen Sie entweder die erste oder die zweite Option.
  4. Klicken Sie unten auf der Seite auf „Änderungen speichern“ und Sie sind fertig.

Alarme sind jetzt Dienste

Wir haben „Alarme“ in „Dienste“ umbenannt. Dienste werden jetzt nur noch verwendet, um einen Integrationspunkt zwischen PagerDuty und Ihren Überwachungsdiensten darzustellen. Derzeit werden die PagerDuty Dienste über die E-Mail-Integration in Ihre Überwachungssysteme integriert (genau wie in der alten Version von PD). In den kommenden Wochen werden wir auch Unterstützung für eine HTTP-basierte API für die PagerDuty Dienste hinzufügen. Dadurch können Ihre Überwachungssysteme Vorfälle in PagerDuty über einen synchronen API-Aufruf auslösen/bestätigen/beheben.

Aus ähnlichen Gründen haben wir „Alarmgruppen“ in „Eskalationsrichtlinien“ umbenannt. Wir sind der Meinung, dass der neue Name die Verwendung dieser Objekte besser beschreibt.

Vorfall-„Unterdrückung“ ist jetzt Vorfall-„Bestätigung“

Wir haben außerdem die Vorfallunterdrückung in „Bestätigen“ umbenannt. Wie zuvor wird diese Funktion verwendet, um vorübergehend zu verhindern, dass ein Vorfall Warnmeldungen generiert. Wir dachten, das Wort „Bestätigen“ beschreibt den Zweck der Funktion besser: „Hören Sie jetzt auf, mich mit diesem Problem zu belästigen … ich arbeite daran!“.

Wir haben auch das Bestätigungs-Timeout für jeden einzelnen Dienst konfigurierbar gemacht. Das bedeutet, dass Sie festlegen können, wie lange ein Vorfall im Status „Bestätigt“ bleibt, bevor er wieder in den Status „Ausgelöst“ wechselt und Sie erneut benachrichtigt. Das Timeout ist für jeden Dienst standardmäßig auf 30 Minuten eingestellt, Sie können es jedoch ganz einfach ändern oder sogar deaktivieren:

  1. Klicken Sie auf die Registerkarte „Dienste“ und dann auf den Link „Bearbeiten“ (unter „Aktionen“) für den Dienst, den Sie ändern möchten.
  2. Im Abschnitt „Vorfalleinstellungen“ sehen Sie einen Eintrag für das „Timeout für Vorfallbestätigung“.

    Incident ack timeout

  3. Standardmäßig ist das Timeout auf „30 Minuten“ eingestellt. Um das Timeout zu ändern, klicken Sie auf dieses Dropdown-Menü und ändern Sie den Wert. Sie können das Timeout auch ganz deaktivieren, indem Sie das Kontrollkästchen „Timeout für Vorfälle aktivieren, die zu lange im Status „Bestätigt“ verbleiben“ deaktivieren. Wir empfehlen, das Timeout aktiviert zu lassen, damit Sie keine Vorfälle im Status „Bestätigt“ vergessen.
  4. Klicken Sie unten auf der Seite auf „Änderungen speichern“ und Sie sind fertig.

Was kommt als nächstes?

Als Nächstes folgt die Unterstützung für eine PagerDuty API. Dies erleichtert die Integration von PagerDuty in beliebte Überwachungstools wie Nagios, Zenoss, Monit, Munin und viele andere. Die API ermöglicht es Ihrem Überwachungssystem, Vorfälle direkt in PagerDuty auszulösen, zu bestätigen und zu beheben, und zwar über einen synchronen Aufruf der API.