Der Blog

Wie die PagerDuty Operations Cloud eine Rolle in Ihrer Digital Operational Resilience Act (DORA)-Strategie spielen kann

von Lee Fredericks 26. Juni 2024 | 8 min Lesezeit

Seit ich geschrieben habe DORA gegen DORA! , viele Leute haben mich gefragt, ob ich praktischere Ratschläge dazu geben könnte, wie die PagerDuty Operations Cloud Unternehmen in der Finanzdienstleistungsbranche (FSI) dabei helfen kann, ihren Verpflichtungen gemäß DORA nachzukommen. Lassen Sie mich das jetzt versuchen.

Haftungsausschluss: Bitte beachten Sie, dass PagerDuty zwar einige wirklich nützliche Puzzleteile liefern kann, ich damit aber keineswegs behaupte, dass Sie durch die Einführung von PagerDuty Operations Cloud sofort DORA-konform werden. Was ich behaupte, ist, dass Sie in Kombination mit einer gut durchdachten Strategie, einer Prise Beratung und mehr als nur einer Spur PagerDuty Power der DORA-Konformität ein großes Stück näher kommen können.

Wenn wir mit unseren Kunden über betriebliche Belastbarkeit sprechen, kommen drei häufige Themen zur Sprache:

  1. Die Teams verbringen nicht genügend Zeit mit präventivem Design.
  2. Erkenntnisse aus vergangenen Vorfällen werden nicht genutzt.
  3. Aufgrund von Störungen und fehlenden Echtzeitsystemen erfolgt die Lösung von Vorfällen langsam.

Ein proaktiver Ansatz bei Ihrer DORA-Planung und -Strategie wird also dazu beitragen, einige dieser Probleme zu lösen. Sehen wir uns die Kernpfeiler von DORA an und schauen wir, wo PagerDuty helfen kann. Für unser britisches Publikum werde ich hervorheben, wo meiner Meinung nach ein bestimmter Punkt auch für die britischen Vorschriften relevant ist (z. B. FCA PS21/3/PRA PS6/21).

  1. Robustes IKT-Risikomanagement

Im Rahmen des IKT-Risikomanagements schreibt DORA die Einrichtung starker Incident-Management-Prozesse . Dies ist eigentlich die Daseinsberechtigung von PagerDuty, deshalb werde ich versuchen, mich kurz zu fassen.

    • Überwachung und Alarmierung : Die AIOps-Funktionen der PagerDuty Operations Cloud basieren auf unserem grundlegenden Datenmodell und wurden anhand von über einem Jahrzehnt Kundendaten trainiert. Sie können verwendet werden, um Störungen zu reduzieren, indem Ereignisse aus einer Vielzahl von IT-Systemen und -Tools zusammengeführt und aggregiert werden. Mit über 700 sofort einsatzbereite Integrationen PagerDuty kann so konfiguriert werden, dass es Ereignisse und Warnungen aus verschiedenen Quellen empfängt, z. B. Cloud- und Netzwerküberwachungstools, SIEM-Systeme (Security Information and Event Management) und Änderungsmanagementtools. Dies ermöglicht eine frühzeitige Erkennung potenzieller Probleme, die sich zu größeren Problemen entwickeln könnten.
    • Alarmweiterleitung, Alarmierung und Eskalation : PagerDuty ermöglicht es Unternehmen, Benachrichtigungsprotokolle für verschiedene Arten von Vorfällen basierend auf Dringlichkeit und Schwere zu definieren. PagerDuty arbeitet mit einem servicebasierten Modell – denken Sie an identifizierte wichtige Geschäftsdienste (IBS) aus den PRA-Vorschriften – und leitet Warnungen direkt an die am besten geeigneten Teams und Personen weiter, die über die erforderliche Expertise verfügen, um die Situation zu bewältigen. Dies reduziert die mittlere Zeit zur Wiederherstellung des Dienstes (MTTR) drastisch. Es ist auch möglich, diese IBSs zu visualisieren und ihre Upstream- und Downstream-Abhängigkeiten im Servicediagramm anzuzeigen.
    • PagerDuty -Automatisierung, Workflow-Automatisierung und Vorfall-Workflows : PagerDuty bietet Tools zum Erstellen standardisierter Workflows für die Bearbeitung von Vorfällen. Diese Workflows können automatisierte Schritte zur Fehlerbehebung, Diagnose und Lösung von Vorfällen enthalten und so einen konsistenten, wiederholbaren Ansatz zur Verwaltung von IKT-Risiken im gesamten Unternehmen fördern.
  1. Verwaltung, Klassifizierung und Meldung von IKT-bezogenen Vorfällen:

DORA schreibt die Meldung von Betriebsvorfällen vor, die erhebliche oder potenzielle Auswirkungen auf die Erbringung von Finanzdienstleistungen haben. Dies erfordert die Festlegung klarer Verfahren zur Identifizierung, Meldung und Analyse solcher Vorfälle.

    • Unveränderlicher zentraler Vorfalldatensatz : PagerDuty bietet ein zeitgestempeltes Protokoll aller Aktivitäten und Lösungsschritte im Zusammenhang mit einem Vorfall. Diese zentrale Aufzeichnung bietet eine klare Prüfspur für alle Vorfälle und vereinfacht die Einhaltung der Berichtspflichten von DORA.
    • Automatisiertes Reporting : PagerDuty umfasst eine Reihe sofort einsatzbereiter Dashboards und Analyseberichte, ermöglicht aber auch die Integration mit externen Systemen, wodurch möglicherweise die automatische Meldung wichtiger Vorfälle an die zuständigen Behörden auf der Grundlage vordefinierter Kriterien möglich wird. PagerDuty bietet außerdem Vorlagen für Statusaktualisierungen und webbasierte Statusseiten – direkt verknüpft mit Important Business Services (wiederum PRA) –, um eine sofortige Massenkommunikation mit Stakeholdern und Kunden zu ermöglichen.
  1. Digitale Tests zur Betriebsbelastbarkeit:

DORA und die britischen Vorschriften verlangen von Finanzdienstleistern ausdrücklich, dass sie ihre IKT-Systeme und Notfallreaktionspläne regelmäßig testen, um Schwachstellen in ihrer operativen Belastbarkeit zu identifizieren. Diese Tests sollten regelmäßige Simulationen verschiedener Störungsszenarien umfassen.

    • Vorfallsimulation : Üben, üben, üben! Die Automatisierungsfunktionen von PagerDuty könnten verwendet werden, um einen simulierten Vorfall zu initiieren. Alternativ könnten Unternehmen eine Maschine oder Anwendung manuell deaktivieren oder einen PagerDuty -Testvorfall erstellen, um einen Ausfall auszulösen und dann ihre Reaktionsverfahren zu üben. Dies hilft dabei, Schwachstellen und verbesserungswürdige Bereiche im Vorfallreaktionsplan zu identifizieren. PagerDuty als Unternehmen führt solche Simulationen jede Woche in seinen eigenen Systemen durch (sogenannter „Failure Friday“!). Natürlich geht die betriebliche Belastbarkeit über die Technologie hinaus und umfasst Menschen und Prozesse. Wir haben das PagerDuty Vorfallreaktionsverfahren – einschließlich Rollen und Verantwortlichkeiten – „Open Source“ und Sie können sich eine Kopie erstellen und es nach Belieben anpassen ( response.pagerduty.com ).
    • PagerDuty ermöglicht betriebliche Ausfallsicherheit : Während eines Vorfalls – real oder simuliert – helfen die Kernfunktionen der PagerDuty Operations Cloud (AIOPs, PagerDuty Automation und Incident Response) in Kombination mit den Incident-Response-Prozessen und -Schulungen eines Unternehmens diesen dabei, die mittlere Zeit bis zur Bestätigung (MTTA) und Lösung (MTTR) des Vorfalls zu verkürzen und so Störungen zu minimieren.
    • Analyse nach dem Test (Post-Incident-Reviews oder Post-Mortem-Analysen) : Die GenAI-Funktionalität von PagerDuty (im Early Access) erleichtert die Erstellung solcher Berichte und ermöglicht es Unternehmen, die Lösungszeiten für Vorfälle und die Teamzusammenarbeit während Testszenarien zu analysieren. Diese Daten sind von unschätzbarem Wert, wenn es darum geht, den Vorfallreaktionsplan zu verfeinern und die Geschwindigkeit und Effizienz von Prozessen zur betrieblichen Belastbarkeit zu verbessern.
    • Automatisierte Notfallwiederherstellung (DR) : Resiliente Unternehmen nutzen PagerDuty Automation, um die Bereitstellung und das Failover von Disaster-Recovery-Umgebungen und einzelnen oder mehreren Anwendungen zu automatisieren. Tests sind entscheidend, um sicherzustellen, dass diese Prozesse bei Bedarf schnell und zuverlässig ausgeführt werden können und so den Geschäftskontinuitätsplan eines Unternehmens unterstützen.
  1. IKT-Risikomanagement für Drittparteien:

Unternehmen müssen strenge Maßnahmen ergreifen, um die mit der Bereitstellung von IKT-Diensten durch kritische Drittanbieter (CTTPs) verbundenen Risiken zu bewerten und zu verwalten.

    • Aufsicht über Praktiken zur Reaktion auf Vorfälle : Wenn ein CTTP auch die PagerDuty Operations Cloud verwendet, kann das Finanzinstitut Zugriff auf PagerDuty Berichte anfordern, die Einblicke in die Incident-Response-Praktiken des CTTP, seine Reaktionsfähigkeit auf Vorfälle und seine allgemeine Betriebsbelastbarkeit geben.
    • Klassifizierung und Prüfung : Die PagerDuty Operations Cloud wurde verwendet, um Vorfälle basierend auf dem Drittanbieter-Ursprung des Problems zu klassifizieren. Darüber hinaus wurde PagerDuty Automation verwendet, um Tests mit CTTPs durchzuführen, um deren Verfügbarkeit und Robustheit sicherzustellen.
  1. Informationsaustausch, Aufzeichnungsführung und Dokumentation:

Sowohl nach DORA als auch nach den britischen Vorschriften müssen Finanzdienstleister eine umfassende Dokumentation ihrer IKT-Risikomanagementaktivitäten, Vorfallberichte und Testergebnisse führen. Diese Dokumentation ist bei potenziellen Prüfungen von entscheidender Bedeutung, um die Einhaltung dieser Vorschriften nachzuweisen. Darüber hinaus fördert DORA den Informationsaustausch zwischen Finanzinstituten und Behörden in Bezug auf Cyberbedrohungen und -vorfälle. Dieser kollaborative Ansatz zielt darauf ab, die allgemeine Bereitschaft und Reaktionsfähigkeit des Finanzsektors zu verbessern.

    • Zentralisiertes Repository : PagerDuty ist ein „Aktionssystem“ und dient, wie oben erwähnt, als unveränderliches zentrales Repository für Vorfalldaten, einschließlich zeitgestempelter Aktivitätsdetails, Kommunikationsprotokolle und Lösungsschritte, die alle während der Hitze eines Vorfalls gesammelt werden. PagerDuty kann auch in das vom Unternehmen gewählte „Aufzeichnungssystem“ – ITSM- und ITOps-Tools – integriert werden und es automatisch auf dem neuesten Stand halten. Dies vereinfacht und verbessert die Aufzeichnung und zeigt einen dokumentierten, wiederholbaren und konsistenten Ansatz für das Vorfallmanagement.
    • Reporting und Analysen : Wie bereits erwähnt, bietet PagerDuty Analyse- und Berichtsfunktionen, mit denen Berichte zu Vorfalltrends, Lösungszeiten und Teamleistung erstellt werden können. Diese Berichte liefern datengesteuerte Erkenntnisse, die gezielte technische Sanierungsbemühungen vorantreiben und laufende Bemühungen zur Verbesserung der Betriebsstabilität aufzeigen können.
    • Statusseiten : Der Informationsaustausch erfolgt automatisch und mühelos, wenn Unternehmen die webbasierten Statusseiten von PagerDuty verwenden, die mit Vorfällen verknüpft sind, die wichtige Geschäftsdienste betreffen, und direkt von diesen gespeist werden.

Abschluss

Aus dem oben Gesagten ist hoffentlich klar geworden, dass die PagerDuty Operations Cloud in hohem Maße auf die Grundpfeiler von DORA und den britischen Vorschriften anwendbar ist:

Die PagerDuty Operations Cloud bietet ein nahezu in Echtzeit ablaufendes Aktionssystem, das Ihnen dabei hilft, Ihr Problem so schnell wie möglich zu lösen und gleichzeitig Ihre ITSM- und Dokumentationstools zu aktualisieren. Es reduziert den Aufwand für Operations- und NOC-Teams und ermöglicht ihnen, von der reaktiven Brandbekämpfung zu einer proaktiven Problemlösung überzugehen. Es kann Probleme automatisch beheben, um die Lösungszeiten zu verkürzen, und bietet wertvolle Analysen und Berichte nach Vorfällen, die Ihnen helfen, zu lernen und Ihre Prozesse zu verbessern.

Abschließend ist noch ein übergreifender Punkt hervorzuheben. Mehr als alles andere möchten die Aufsichtsbehörden für Finanzdienstleistungen sehen, dass die Unternehmen über ihre Strategie zur operativen Belastbarkeit nachdenken, diese dokumentieren und in sie investieren. Die Investition in und der Einsatz von PagerDuty ist ein klares Zeichen dafür, dass Finanzdienstleister die operative Belastbarkeit ernst nehmen.

Wenn Sie weitere Einzelheiten oder Informationen wünschen, Bitte melden Sie sich .