- PagerDuty /
- Der Blog /
- Alarmierung /
- Lehren aus Virtuoso: Drei Schritte, mit denen Sie das Alarmvolumen in drei Wochen um bis zu 94 % reduzieren können
Der Blog
Lehren aus Virtuoso: Drei Schritte, mit denen Sie das Alarmvolumen in drei Wochen um bis zu 94 % reduzieren können
Wie ein Kunde mit PagerDuty und Event Enrichment das Alarmaufkommen deutlich reduzierte und seine Betriebsabläufe verbesserte
Der Kunde
Wir haben uns kürzlich mit Shawn Motley, Senior DevOps Engineer bei Virtuose , um über seine Erfahrungen mit PagerDuty und das Plattform zur Event-Anreicherung (EEP). Virtuoso ist ein Reiseportal für anspruchsvolle Kunden mit über 200 Mitarbeitern und 8 Websites. Als globales Luxusreiseunternehmen ist das Image ein wichtiger Teil des Geschäfts von Virtuoso. Wenn einer ihrer Kunden während eines teuren Urlaubs Probleme hat, müssen ihre Reiseberater auf die Websites von Virtuoso zugreifen können, unabhängig davon, wo sie sich befinden oder wie spät es ist. Ihre Websites müssen immer verfügbar sein, Punkt.
Die Hintergrundgeschichte
Als Virtuoso vor 7 Monaten begann, sich auf seine DevOps-Initiative zu konzentrieren, Sie erhielten alle 24 Stunden Tausende von Ereignissen, die Mehrzahl davon waren Lärm . Sie mussten die Anzahl der Alarme reduzieren, und zwar schnell. Für die meisten Organisationen ist es aufgrund begrenzter Ressourcen, Zeit und betrieblicher Pflichten nicht möglich, Alarme in jedem ihrer einzelnen Überwachungssysteme zu unterdrücken. Mit EEP werden Unterdrückungen an einem zentralen Ort über eine intuitive Web-Benutzeroberfläche verwaltet, die eine aktive Ereignisunterdrückung und -verwaltung ermöglicht. Durch den Einsatz von EEP und PagerDuty konnte das Virtuoso DevOps-Team seine tägliche Betriebsereignislast schnell auf nur wenige Ereignisse pro Tag reduzieren.
Schritt 1: Richten Sie ein System ein
Als PagerDuty und die Event Enrichment Platform eingeführt wurden, konnte die Betriebseffizienz sofort gesteigert werden. Mit dem EEP PagerDuty -Integration , werden ihre Alarme an EEP weitergeleitet, als umsetzbar oder als Rauschen klassifiziert, mit Abhilfeinformationen angereichert und dann an PagerDuty weitergeleitet, um eine garantierte Zustellungswarnung an ihr Ops-Team zu gewährleisten.
Schritt 2: Erweitern und personalisieren Sie Ihre Warnmeldungen
Sie fügten der ursprünglichen Warnung Anreicherungen hinzu, also konkrete Lösungsschritte, damit jeder, der auf einen Vorfall reagierte, die nötigen Informationen hatte, um das Problem zu bewerten und zu beheben. Sie leiteten diese nun angereicherten Warnungen über EEP-Benachrichtigungen an bestimmte PagerDuty Dienste weiter. Die Anreicherungsschritte erschienen im Vorfall und enthielten einen Link zurück zum Vorfall im EEP mit allen Einzelheiten.
Wenn Sie in EEP auf „Bestätigen“ oder „Auflösen“ für einen Alarm klicken, wird diese Aktion automatisch in PagerDuty ausgeführt. Ebenso wird durch eine Reaktion auf den PagerDuty SMS- oder Mobile-App-Alarm das Ereignis in EEP bestätigt und aufgelöst.
Schritt drei: Wöchentliche Event-Triages einrichten
Jetzt mit drastisch reduzierter Ereignislast und der verbleibende Warnungen angereichert , hatten sie die Informationen, die sie brauchten, wenn sie sie am meisten brauchten. Sie sahen eine großartige Gelegenheit, ihren Lärm weiter zu reduzieren und ihren Warnmeldungen Abhilfemaßnahmen hinzuzufügen, indem sie wöchentliche Triages einrichteten. Aus dem EEP konnten sie eine Liste aller ihrer jüngsten Vorfälle herunterladen und sie einer von zwei Kategorien zuordnen: Lärm oder handlungsrelevant. Die Plattform machte es ihnen mit EEP-Klassifizierungen leicht, große Cluster unnötiger Ereignisse schnell zu unterdrücken.
Innerhalb einer Woche hatten sie ihr Alarmvolumen um 82 % und innerhalb von drei Wochen auf 94 % gesenkt.
Nachverfolgen
Da die Anzahl der täglichen Alarme unter hundert lag, setzten sie ihre wöchentlichen Sichtungen fort und konnten ihre täglichen Alarme weiter reduzieren. Derzeit erhält Virtuoso nur eine Handvoll Vorfälle pro Tag, von denen nur einige eine Eskalation und Einbindung anderer Teams erfordern. PagerDuty und EEP halfen Virtuoso DevOps, die Situationswahrnehmung ihrer Infrastruktur drastisch zu verbessern.
Zeugnis
„Es ist ein brillantes System“, sagte Shawn. „Es bringt Ihr Geschäft auf die nächste Ebene und funktioniert mit all den anderen Partnern da draußen.“
Dank der wertvollen Zeit, die durch den Einsatz von PagerDuty und EEP frei wurde, konnte Virtuoso seine Bereitstellungs-, Build- und Release-Intervalle deutlich beschleunigen. Indem sich das Operations-Team nur auf die wichtigen Ereignisse konzentrierte, konnte es seine Initiativen zur Infrastrukturoptimierung sehr erfolgreich umsetzen.
„Jetzt können wir DevOps-Philosophien wirklich auf unser Team anwenden“, fügte er hinzu. „Wir konzentrieren uns auf die Automatisierung unserer Infrastruktur, nicht auf das Sortieren von Warnmeldungen.“
„Da wir das Rauschen beseitigen konnten, verfügen wir jetzt über eine viel bessere Telemetrie für unsere Server, wodurch wir besser zwischen Server- und Codeproblemen unterscheiden können“, sagte Shawn. „Wir beheben Systemprobleme jetzt viel schneller und eskalieren bei Problemen auf Codeebene bei Bedarf an die Entwickler.“