Der Blog

Schnellere Reaktion auf Vorfälle und Minderung von Sicherheitsrisiken bei Finanzdienstleistungen

von Joe Pusateri 14. Juli 2021 | 9 min lesen

Software erobert die Welt. Die digitale Transformation ist das wichtigste Thema für Unternehmen, die den ständig wachsenden Verbraucheranforderungen gerecht werden und manuelle Prozesse digitalisieren möchten. Dies ist nicht nur in der Technologiebranche der Fall. E-Commerce, Finanzen, Gesundheitswesen und andere Branchen bewegen sich alle in diese Richtung.

Während die Kundenerwartungen branchenübergreifend steigen, stehen regulierte Branchen, insbesondere Finanzdienstleister, unter erhöhtem Druck, Ausfallzeiten und Sicherheitsrisiken zu minimieren. Wir erwarten von ihnen, dass sie ihre Dienste sicher und ohne Unterbrechungen bereitstellen. Nirgendwo trifft dies mehr zu als im Finanzsektor. Finanzdienstleistungen beeinträchtigen Millionen von Menschen und Milliarden von Dollar an Einnahmen, wenn sie ausfallen. In einem wettbewerbsintensiven Markt voller Fintech-Startups, die die Branche aufmischen wollen, gepaart mit diesem höheren Standard an Verfügbarkeit und Zuverlässigkeit, können Vorfälle das Vertrauen sehr schnell untergraben und Kunden dazu veranlassen, nach alternativen Lösungen zu suchen. Jede Sekunde zählt!

PagerDuty, in Partnerschaft mit AWS, kann Teams dabei helfen, ihren digitalen Betriebsansatz durch bessere Warnmeldungen, automatisierte Reaktion auf Vorfälle, sichere DevOps-Prozesse und optimierte Kommunikation zu verbessern. Sehen wir uns an, wie das funktioniert.

Erhalten Sie die richtigen Warnmeldungen mit PagerDuty und DevOps Guru

Stellen Sie sich vor, bei einem Online-Banking-Unternehmen kommt es zu einem Vorfall, bei dem direkte Einzahlungen nicht im Kontoverlauf der Anwendungsbenutzer angezeigt werden. Dies betrifft eine große Gruppe von Kunden und löst bei ihnen große Sorgen aus, und sie möchten, dass das Problem sofort behoben wird. Diese Art von Problem kann das Vertrauen schnell zerstören und Kunden zum Weggehen veranlassen. Es muss nicht nur sofort behoben werden, sondern es ist auch entscheidend für die Kundenbindung und das Vertrauen, sicherzustellen, dass dies nicht erneut passiert. Sehen wir uns also genauer an, was passiert.

Der Incident-Response-Prozess wird gestartet, wenn eine ungewöhnliche Verzögerung bei Amazon festgestellt wird. DevOpsGuru und eine neue Warnung wird an PagerDuty gesendet. Diese Warnung kann je nach Konfiguration automatisch mit anderen ähnlichen offenen Problemen korreliert werden. Das bedeutet, dass mehrere Warnungen zum gleichen Problem (es können viele sein) alle zum gleichen Vorfall zusammengefasst werden, wodurch die Anzahl der Benachrichtigungen, die die Bereitschaftsperson bestätigen muss, reduziert wird. Es gibt nichts Ärgerlicheres, als wenn Ihr Telefon ständig mit einer Benachrichtigung zu einem Problem summt, an dem Sie bereits arbeiten!

Dank seiner einzigartigen servicebasierten Architektur weiß PagerDuty automatisch, wer für diesen Service und die Art des Problems Bereitschaftsdienst hat. Bei kritischen, dringenden Problemen kann PagerDuty den Anrufer auf seinem Telefon tätigen, ihm eine SMS senden und eine Push-Nachricht an seine mobile PagerDuty -App senden. So wird sichergestellt, dass bei einem Alarm schnell die richtige Person im richtigen Team eingeschaltet wird, um den Vorfallreaktionsprozess zu verwalten. Dies ist der erste Schritt zur Reduzierung der Gesamtzeit, die zur Behebung von Problemen benötigt wird: die Zeit, die benötigt wird, um mit der Arbeit daran zu beginnen, wird verkürzt.

Aber das ist erst der Anfang. Es ist auch wichtig, Automatisierung zu nutzen, um sicherzustellen, dass der Schadensbegrenzungsprozess so reibungslos wie möglich abläuft.

Automatisieren Sie die Reaktion auf Vorfälle mit PagerDuty und EventBridge

Aber das ist erst der Anfang. Stellen Sie sich vor, die Serviceverzögerung tritt auf einer AWS EC2-Instanz auf. Während des Antwortvorgangs beginnt die diensthabende Person normalerweise mit der Untersuchung, indem sie Diagnosen ausführt, um zu verstehen, was los ist. Dazu muss sie sich bei der AWS-Konsole anmelden (vorausgesetzt, sie hat die Anmeldeinformationen zur Hand, verfügt über die richtige Autorisierungsebene und ist hoffentlich nicht abgelaufen). Mithilfe der Automatisierungsfunktionen von PagerDuty kann der Antwortende diese Diagnosen problemlos über PagerDutys Amazon-Client in AWS ausführen. EventBridge-Integration während der Rest des Reaktionsteams parallel benachrichtigt wird.

Ein Vorteil der servicebasierten Architektur von PagerDuty besteht darin, dass ein Team zwar in erster Linie an Warnmeldungen interessiert ist, die von seinen eigenen Überwachungstools an seine Dienste gesendet werden, PagerDuty den Einsatzkräften jedoch Informationen über Probleme in anderen Systemen liefert, die Stehen im Zusammenhang mit das, woran sie gerade arbeiten.

PagerDuty beantwortet Fragen, die ein Helfer normalerweise stellen würde, beispielsweise:

  • Was gibt derzeit sonst noch Alarm und für wie lange?
  • Ist dieses Problem schon einmal aufgetreten? Wenn ja, wann?
  • Was haben wir vorher dagegen getan?

Diese historischen Informationen können für die Entscheidung über die zu unternehmenden Schritte von entscheidender Bedeutung sein. Wenn den Helfern diese Antworten schneller übermittelt werden, lässt sich Zeit und Geld sparen.

Bis der Einsatzleiter den Vorfall anzeigt, wird er mit den Diagnoseergebnissen sowie diesen wichtigen historischen Informationen aktualisiert. Dies spart Zeit und gibt dem Einsatzleiter die Informationen, die er für eine effektive Triage benötigt, ohne direkten Zugriff auf die Systeme selbst zu benötigen. Wo man normalerweise einen Login bereitstellen und autorisierten Zugriff auf viele Systeme gewähren müsste, um einzelne Diagnosen auszuführen, spart dies Konfigurationskosten und ermöglicht die sichere Delegation von Aufgaben an Einsatzleiter per Selfservice.

Image of EventBridge Integration showing quickstart event bus configuration.

Screenshot of EventBridge integration add service function

Screenshot of EventBridge integration custom action EC2 instance restart

In diesem Beispiel stellt sich (basierend auf der Diagnose) heraus, dass die Verzögerung bei der Verarbeitung durch eine Interaktion mit der Datenbank verursacht wird. Der Responder kann das Problem nicht beheben, ohne andere Experten hinzuzuziehen. Er wird die Person finden wollen, die für diesen Dienst Bereitschaftsdienst hat. Sie müssen nicht nachschauen, wer zu welchem ​​Team gehört oder wie der aktuelle Urlaubsplan aussieht, PagerDuty kann nach Belieben die Bereitschaftsmitarbeiter ausgewählter Teams anrufen. Bitten Sie einfach die Bereitschaftsperson des Datenbankteams, sich dem Vorfall und dem Responder anzuschließen und sich wieder der Problembehebung zuzuwenden. Wenn der zusätzliche Responder oder einer seiner Ersatzmitarbeiter die Anfrage annimmt, können sie einer Konferenzbrücke beitreten oder chatten, um sich mit den übrigen Respondern abzustimmen.

Screenshot of EventBridge integration conference bridge

Aber was passiert, wenn der Dienst aufgrund seiner Abhängigkeit von einem anderen Dienst, beispielsweise einer SQS-Warteschlange, beeinträchtigt wird? Anwendungen und ihre zugrunde liegenden Dienste sind komplexer miteinander verknüpft als je zuvor. Wie kann ich wissen, auf welche anderen Dienste meine Anwendung angewiesen ist? PagerDuty wird normalerweise von vielen verschiedenen Teams verwendet, die jeweils ihre eigenen Überwachungstools und Workflows besitzen und verwalten. Ein Dienst ist PagerDutys Möglichkeit, die Verwaltungsarbeitslast auf jedes Team zu verteilen und dennoch eine einheitliche Ansicht der geschäftlichen Auswirkungen insgesamt bereitzustellen.

In diesem Beispiel glauben die Responder, dass das Problem durch einen schnellen Neustart des Dienstes auf der betroffenen Instanz behoben werden kann. PagerDuty kann ein Menüelement bereitstellen, das der Responder auswählen kann und das ein Skript oder einen Befehl über EventBridge oder PagerDutys RunDeck-Automatisierungsplattform auslöst, um diese Aktion abzuschließen. Wenn diese Reaktion die Standardreaktion für wiederholte Vorfälle ist, kann PagerDuty dieses Skript tatsächlich ohne menschliches Eingreifen ausführen, während oder sogar bevor die Einsatzkräfte benachrichtigt werden ! Wenn wir mit der Benachrichtigung warten, kann es sein, dass der Vorfall automatisch behoben wird, ohne dass jemand geweckt wird. Dies trägt wesentlich zur Verbesserung der Lebensqualität der Helfer bei!

Dieser beispielhafte Vorfallablauf ist sinnvoll für einen Infrastruktur- oder Anwendungsfehler, der von einem Mitglied des DevOps-Teams beurteilt und behoben werden kann. Aber wussten Sie, dass PagerDuty auch bei anderen Anwendungsfällen mit AWS hilfreich sein kann? Sehen wir uns als weiteres Beispiel eine Sicherheitsverletzung an.

Bleiben Sie sicher und bauen Sie Vertrauen auf mit PagerDuty und GuardDuty

Das Risiko einer Sicherheitsverletzung ist bei Finanzinstituten besonders hoch. Die Einrichtung von Amazons Wache ermöglicht Teams die intelligente Überwachung von Netzwerkaktivitäten, Kontozugriffen und Datenflüssen auf anomales oder bedrohliches Verhalten und ist ein Muss.

Stellen Sie sich in diesem neuen Beispiel vor, dass GuardDuty gerade ein Datenmuster erkannt hat, das auf einen nicht autorisierten Zugriff auf das Netzwerk hinweist. Genau wie bei der Systemverschlechterung zuvor wird PagerDuty das richtige Team und die Bereitschaftsperson finden, um dringend benachrichtigt zu werden, denn bei einer Sicherheitsverletzung zählt jede Sekunde.

In diesem Fall würden wir die Automatisierung so einrichten, dass der Datenverkehr umgeleitet, die entsprechenden Netzwerksegmente gesperrt und die betroffenen Komponenten isoliert werden, sobald der Alarm ausgelöst und der Vorfall erstellt wird. Darüber hinaus möchte der diensthabende Sicherheitsingenieur einen Diagnose-Snapshot sehen. PagerDuty wird dies einleiten und die Ergebnisse mit dem Vorfall verknüpfen. Bis der Ingenieur den Vorfall sieht, sind alle relevanten Informationen vorhanden und es wurde keine Zeit mit der Hektik verloren, um weiteren Schaden zu verhindern.

Ein wichtiger Aspekt dabei ist, dass der Bereitschaftsmitarbeiter unabhängig von der Zugriffsebene des Technikers Zugriff auf die erforderlichen Diagnose Ressourcen. Die Automatisierung stellt sicher, dass der Person die geringstmöglichen Privilegien gewährt werden und die zugrunde liegenden Ressourcen sicher bleiben.

Screenshot of GuardDuty team user profile serviceScreenshot of GuardDuty team user permissions

Stakeholder auf dem Laufenden halten und Vorfälle unverschuldet offenlegen

Bei jedem schwerwiegenden Vorfall, der das Kundenerlebnis beeinträchtigt oder ein Sicherheitsrisiko darstellt, möchten die Eigentümer von Geschäftsdiensten und andere Interessengruppen informiert werden. Wie lange dauert es, bis wir wieder erreichbar sind? Wie viele Kunden sind betroffen? Wurden unsere Daten offengelegt? Dies sind alles wichtige Fragen, und diese Interessengruppen müssen beachtet werden. Leider verzögert das Sammeln der relevanten Daten, das Finden der richtigen Gruppe von Interessengruppen und das Ausarbeiten der richtigen Antwort den Reaktionspartner bei der tatsächlichen Behebung des Problems.

PagerDuty bietet einen Kanal, um die relevanten Stakeholder mit Nachrichten nur für sie auf dem Laufenden zu halten. Benutzerdefiniert “ Antwortspiele „Sie können Konferenzbrücken zuweisen und das Senden der relevanten Nachricht an die richtigen Beteiligten automatisieren. Dadurch wird die Zeit reduziert, die die Einsatzkräfte mit der Verwaltung des Vorfalls verbringen, und sie können sich wieder auf die Behebung des Problems konzentrieren.

Sobald das Problem gelöst ist, bereichert die Erstellung einer Post-Mortem-Analyse ohne Schuldzuweisungen innerhalb der PagerDuty Plattform den Reaktionsprozess mit Erkenntnissen und generiert Best Practices für diese Art von Problem. Hier erfassen die Teams, was sie richtig gemacht haben und was besser hätte sein können, und bieten so die Möglichkeit, sich kontinuierlich zu verbessern.

Finanzdienstleister können sicher in die Cloud migrieren

Die digitale Transformation kann für Finanzorganisationen eine besondere Herausforderung darstellen, aber mit den richtigen Ökosystempartnern und einem digitalen Betriebsmanagement-Setup können sie diese zusätzlichen Compliance- und Sicherheitsvorschriften einhalten und ihren Kunden gleichzeitig hohe Verfügbarkeit und nahtlose Dienste bieten. PagerDuty und AWS ermöglichen dem Finanzsektor eine sichere und geschützte Migration in die Cloud, während gleichzeitig die Auswirkungen auf die Kunden und Ausfallzeiten minimiert und Innovationen beschleunigt werden, um mit den Kundenanforderungen Schritt zu halten.

Erfahren Sie mehr über diese PagerDuty und AWS-Integrationen und vieles mehr unter https://www.pagerduty.com/integrations/aws/ .