- PagerDuty /
- Der Blog /
- Alarmierung /
- Kontrollieren Sie Ausfallzeiten mit Best Practices zur Vorfallwarnung
Der Blog
Kontrollieren Sie Ausfallzeiten mit Best Practices zur Vorfallwarnung
Viele Lösungen bieten E-Mail-Benachrichtigungen, um Kunden über ein Problem zu informieren. E-Mail-Benachrichtigungen sind effektiv, wenn Sie den ganzen Tag vor Ihrem Posteingang sitzen, aber in Wirklichkeit tun wir das normalerweise nicht. Verpasste Benachrichtigungen verlängern Ausfälle und wirken sich auf den Umsatz und die Kundentreue Ihres Unternehmens aus. Um schnell über Probleme informiert zu werden, haben sich Tausende von Kunden für PagerDuty als effektive Vorfallbenachrichtigung entschieden. In diesem Beitrag werden die PagerDuty Benachrichtigungskonzepte und Best Practices für deren Einrichtung erläutert, damit Sie die Betriebszeit erhöhen können.
Lassen Sie Warnmeldungen für sich arbeiten
Jeder PagerDuty Benutzer können ihre Kontaktmethoden Und Benachrichtigungsregeln um benachrichtigt zu werden, wie Sie es möchten. Wenn der primäre Bereitschaftstechniker Warnungen verpasst, können Warnungen an andere Teammitglieder gesendet werden, bis darauf reagiert wird, basierend auf Eskalationsrichtlinien.
- Kontaktmethoden sind die Möglichkeiten, wie wir Sie erreichen können, einschließlich Telefon – Mobiltelefon, zu Hause und bei der Arbeit –, SMS, E-Mail und Push-Benachrichtigungen.
- Benachrichtigungsregeln sind die Kombinationen von Kontaktmethoden, über die wir Sie benachrichtigen können.
- Mithilfe von Eskalationsrichtlinien leiten wir Warnungen automatisch an eine andere Person oder ein anderes Team um, wenn sie vom primären Vorfallbesitzer übersehen werden.
Wir empfehlen allen Benutzern, mindestens 3 Kontaktmethoden und 3 Benachrichtigungsregeln einzurichten, damit sie keine Benachrichtigungen verpassen. Standardmäßig gibt es eine Benachrichtigungsregel, die den Vorfallbesitzer sofort per E-Mail benachrichtigt, wenn ihm der Vorfall zugewiesen wird.
Tipp: Richten Sie je nach Art der Vorfälle, die in Ihrem System auftreten, Warnmeldungen auf Grundlage Ihrer Ausfallzeitkosten und Service-Level-Agreements (SLAs) mit Ihren Kunden ein.
Eskalationsrichtlinien sind Sicherheitsnetze für übersehene Vorfälle und leiten Warnmeldungen automatisch an bestimmte Benutzer oder Bereitschaftspläne um:
Wir empfehlen Eskalationsrichtlinien für jeden Vorfall. Wenn Sie typischerweise Vorfälle mit hohem Schweregrad haben, leiten Sie Vorfälle lieber früher als später an eine andere Person weiter, um sicherzustellen, dass sie schnell bearbeitet werden.
Notiz: Eskalationsrichtlinien haben Vorrang vor persönlichen Benachrichtigungsregeln. Daher sollte jeder Benutzer seine Benachrichtigungsregeln strenger fassen als seine Eskalationsrichtlinien. Wenn Sie Probleme nach 30 Minuten eskalieren, sollten Sie alle Ihre persönlichen Benachrichtigungen innerhalb dieses Zeitraums abschließen. So stellen Sie sicher, dass Sie alle Ihre Benachrichtigungen erhalten und die Möglichkeit haben, zu reagieren, bevor sie an einen anderen Teamkollegen eskaliert werden.
Standardmäßige PagerDuty Sicherheitsnetze
Alarme können bestätigt, neu zugewiesen oder gelöst werden. Falls ein bestätigter Alarm vergessen wird, werden alle Dienste auf eine Standard-30-Minuten-Warnung eingestellt. Zeitüberschreitung bei der Vorfallbestätigung. Dadurch wird ein Vorfall in den Trigger-Zustand zurückgesetzt und die Alarme werden neu gestartet. Wenn ein Vorfall versehentlich offen gelassen wird, wird PagerDuty standardmäßig Vorfälle automatisch lösen die 4 Stunden geöffnet sind.
Reduzieren Sie die Alarmmüdigkeit
Nachdem Sie uns nun mitgeteilt haben, wie Sie bei Vorfällen kontaktiert werden möchten, hilft Ihnen PagerDuty , den Aufwand für Alarme zu verringern, indem es Deduplizierung , Bündeln und Anhängen Warnungen. Vorfälle aus API-basierten Integrationen werden automatisch dedupliziert, gebündelt und angehängt. Mit E-Mail-basierten Integrationen können Sie bestimmte Filter festlegen, um die Alarmmüdigkeit zu reduzieren.
- Wenn dieselben Ereignisse an PagerDuty gesendet werden, werden sie dedupliziert und nur ein Vorfall wird in PagerDuty erstellt. Dadurch werden mehrere Warnungen für denselben Vorfall vermieden und nur ein Vorfall löst Warnungen basierend auf den Benachrichtigungsregeln eines Benutzers aus.
- Wenn Ereignisse für denselben offenen Vorfall eingehen, werden sie dem offenen Vorfall angehängt und es wird keine neue Warnung gesendet.
- Wenn mehrere Vorfälle gleichzeitig ausgelöst und demselben Benutzer zugewiesen werden, erhält der Benutzer eine gebündelte Warnung, die ihn über diese Vorfälle informiert.
Bei einem Ausfall erschweren mehrere Warnmeldungen zum gleichen Problem die Ermittlung der Ursache. Mit PagerDuty verbringen Sie weniger Zeit mit der Diagnose und mehr Zeit mit der Behebung. Diese drei Funktionen erleichtern es Benutzern, kritische Probleme schneller zu erkennen. Mit PagerDuty können Sie die Warnmeldungen reduzieren und Ausfallzeiten verkürzen.
Setzen Sie PagerDuty Alarmierungskonzepte in die Tat um
1. Wenn PagerDuty eine Warnung von Ihrem Überwachungssystem empfängt, wird in PagerDuty ein Vorfall erstellt. Wenn es mehrere Warnungen für dasselbe Problem gibt, fasst PagerDuty die Warnungen zu einem Vorfall zusammen, um die Anzahl der Warnungen zu reduzieren.
2. Mehrere Bereitschaftsteams können mit PagerDuty verbunden werden und PagerDuty leitet Alarme an die richtige Bereitschaftsperson weiter, um das Problem zu beheben. Teams legen Eskalationsrichtlinien fest um festzulegen, wer benachrichtigt werden soll, wenn die Hauptperson ihre Benachrichtigungen verpasst.
3. Sobald die primäre Bereitschaftsperson gefunden ist, werden Alarme in der von ihr gewählten Kombination gesendet. Basierend auf den Eskalationsrichtlinien des Teams wird der nächste Bereitschafts-Superheld in Aktion gesetzt, wenn die primäre Person nicht antwortet.
4. Wenn Benutzer Warnungen erhalten, können sie den Vorfall mit einer SMS oder einem Telefonanruf bzw. innerhalb der mobilen App oder der Web-Benutzeroberfläche bestätigen, lösen oder neu zuweisen.