Der Blog

Sind Sie auf Ihren nächsten größeren Ausfall vorbereitet?

von PagerDuty Universität 1. August 2024 | 4 Minuten Lesezeit

Software ist nicht perfekt. Und letztlich geht es nicht darum, Wenn Sie werden einen Ausfall haben, aber natürlich Wann . Ist Ihr Unternehmen angesichts der zunehmenden Komplexität und Häufigkeit von IT-Vorfällen darauf vorbereitet, zu reagieren und die Situation wiederherzustellen, wenn jede Sekunde zählt?

Hier bei PagerDuty haben wir eine Liste mit Best Practices zusammengestellt, um Ihre Systeme betriebsbereit zu halten.

Vor einem Ausfall…

1. Prozesse für schwerwiegende Vorfälle dokumentieren und üben
Stellen Sie sicher, dass die Einsatzkräfte auf den Bereitschaftsdienst vorbereitet sind, mit den Prozessen des Vorfallmanagements vertraut sind und wissen, wie sie mit anderen Teams zusammenarbeiten. Führen Sie simulierte Szenarien zur Reaktion auf Vorfälle durch, um interne Prozesse zur Lösung schwerwiegender Vorfälle zu üben.

Tipp: Nutzen Sie unsere Vorfallmanagement Lösung für schnelles Team-Engagement, einschließlich Bereitschaftsberichte um die Profile der Benutzer auf Reaktionsfähigkeit zu überprüfen.

2. Bestimmen Sie, worauf Sie Ihre Bemühungen konzentrieren möchten
Reagieren Sie auf alle Vorfälle manuell oder ergreifen Sie vorbeugende Maßnahmen, um Problemen vorzubeugen, bevor sie auftreten? Stellen Sie sicher, dass Sie wissen, wo Ihr Unternehmen in Bezug auf die Betriebsreife steht.

PagerDuty Operational Maturity Model

 

 

Tipp: Gehen Sie von reaktiv zu präventiv über, indem Sie Ihre Betriebsreife Bericht in unserer Incident-Management-Plattform. Finden und implementieren Sie spezifische Empfehlungen, wie z. B. das Hinzufügen von Automatisierung oder die Verbesserung der Teameffizienz, um die betriebliche Belastbarkeit zu steigern.

Während eines Ausfalls…

3. Erhöhen Sie das Situationsbewusstsein bei der Vorfalls-Triage
Geben Sie den Einsatzkräften Zugriff auf Kontextinformationen, sobald sie über einen Vorfall informiert werden. Sorgen Sie dafür, dass die Einsatzkräfte eine Möglichkeit haben, sich ein Bild von der Situation zu machen, indem sie vergangene und verwandte Vorfälle sowie alle Kontextinformationen identifizieren, die die Frage „Etwas ist kaputtgegangen. Was hat sich geändert?“ beantworten.

Tipp: Verwenden Sie PagerDuty's AIOps-Ursachenanalyse Funktionen, um sofort wichtige Erkenntnisse aus vergangenen, verwandten und Ausreißervorfällen zu gewinnen. Nutzen Sie unsere Änderungsereignisse Funktion zum Anzeigen der aktuellsten Änderungen an Ihren Diensten (80 % der Vorfälle sind das Ergebnis von Änderungsereignissen wie Softwarebereitstellungen.)

4. Definieren Sie Rollen für Ihr Reaktionsteam
Stellen Sie sicher, dass Ihr Reaktionsteam über klar definierte Rollen bei Vorfällen verfügt (z. B. Einsatzleiter, Kundenbetreuer, Schreiber usw.). Durch die Festlegung von Rollen bei Vorfällen werden Verantwortlichkeiten eindeutig definiert, die Rechenschaftspflicht gefördert und eine gezieltere Reaktion auf Vorfälle ermöglicht.

Outage responders

Tipp: Nutzen Sie unsere Incident Management Plattform zur Erstellung vordefinierter Vorfallrollen die bei einem größeren Vorfall zugewiesen werden können.

5. Automatisierung zur Beschleunigung der Diagnose
Befreien Sie Ihre Teams vom Feuerwehrmodus. Automatisieren Sie Routineaufgaben und Prozesse zur Reaktion auf Vorfälle, um manuelle Arbeit zu vermeiden. Reduzieren Sie die Alarmhäufigkeit, damit es während der Reaktion auf Vorfälle weniger Unterbrechungen gibt und die Lösung schneller erfolgt.

Tipp: Nutzen Sie unsere AIOps und Incident Management-Lösungen für ein besseres Eventmanagement und eine beschleunigte Triage. Für eine genauere Kontrolle verwenden Sie PagerDuty Runbook-Automatisierung um bestimmte Aktionen basierend auf definierten Ereignissen auszuführen.

Am 19. Juli 2024, während des größten IT-Ausfalls der Welt, verzeichneten unsere AIOps + IM-Kunden einen Anstieg der Automatisierungsnutzung um 1425 %. Dadurch konnten die Teams Routineaufgaben automatisieren und ihre Reaktion auf Vorfälle deutlich skalieren.

6. Halten Sie Ihre Kunden auf dem Laufenden
Stellen Sie sicher, dass die Kundensupport- und Serviceteams Echtzeitdaten und bidirektionale Kommunikation von der Technik erhalten. Diese Zusammenarbeit ermöglicht es allen Teams, als Einheit zu agieren und Probleme schneller gemeinsam zu lösen, mit dem gemeinsamen Ziel, positive Kundenerlebnisse zu schaffen (auch während eines Ausfalls).

Tipp: Nutzen Sie unsere Kundenservice Lösung zum Anpassen von Arbeitsabläufen und Integrieren von Daten aus all Ihren Tools, um dem Kundensupport sofortige Einblicke in Ihre IT-Infrastruktur zu geben.

7. Etablieren Sie einen Stakeholder-Kommunikationsprozess
Erstellen Sie ein klares Protokoll für die Kommunikation mit Beteiligten während eines Ausfalls und beschreiben Sie detailliert, wie sie Statusaktualisierungen erhalten und wo sie zusätzliche Informationen finden.

Tipp: Erstellen Stakeholder-Abonnements Interessengruppen über Geschäftsdienste und Vorfälle zu informieren und öffentliche und private Zielgruppen zu informieren mit Statusseiten .

Nach einem Ausfall…

8. Richten Sie einen Überprüfungsprozess nach Vorfällen ein
Lassen Sie einen Ausfall nicht ungenutzt verstreichen. Richten Sie einen klaren Überprüfungsprozess nach Vorfällen ein, um zukünftige Reaktionen zu verbessern, und erstellen Sie eine kontinuierliche Feedbackschleife zur Integration von Verbesserungen in Ihre Prozesse.

Tipp: Schauen Sie sich unsere HOWIE-Anleitung nach dem Vorfall für detaillierte Empfehlungen, wie Sie den größtmöglichen Nutzen aus Ihren Vorfallnachbesprechungen ziehen.

Warum auf PagerDuty hören?
Am 19. Juli 2024 (während des größten IT-Ausfalls der Welt) vermieden unsere AIOps- und Incident-Management-Kunden im Durchschnitt 132 Maßnahmen zur Schadensbehebung, Einsparung von über 1600 Reaktionszeiten – in nur einem Tag.

Schauen Sie sich an diese Checkliste um Ihre Betriebsstabilität zu überprüfen und sich auf den nächsten Massenausfall vorzubereiten.