- PagerDuty /
- Der Blog /
- Best Practices und Einblicke /
- Überwachung aufschlüsseln
Der Blog
Überwachung aufschlüsseln
Die Überwachung ist entscheidend für die nachhaltige Proaktivität in Ihrem ITOps Architektur. In den letzten Jahren haben wir eine Explosion sowohl der Anzahl als auch der Arten von Tools erlebt, die als „Überwachungstools“ klassifiziert werden. Während diese ständig wachsende Toollandschaft die ITOps-Sichtbarkeit enorm erhöht hat, besteht der gelegentliche Nebeneffekt der Integration dieser riesigen Palette von Tools darin, noch mehr Lärm zu erzeugen. Das Paradoxon „Sichtbarkeit und Lärm“ hat die Überwachungslandschaft für viele IT-Abteilungen zu einem Teufelskreis gemacht, während andere ihre Proaktivität zur Problemlösung optimiert haben. Sehen wir uns die Überwachungslandschaft an und bauen wir eine integrierte Umgebung auf, die erfolgreich ist.
Die Überwachung lässt sich nach Werkzeugtypen unterteilen:
- Überwachung der Anwendungsleistung (APM): Nur die Anwendungsschicht betrachten
- Protokollanalyse: Normalerweise auf die Infrastrukturebene ausgerichtet.
- Ausnahmeüberwachung: Einrichten von Warnungen für jeden Ausnahmeblock auf Codeebene.
- Artefaktüberwachung: Sicherstellen, dass alle Artefakte und Komponenten in der Anwendung frei von Schwachstellen und auf dem neuesten Stand sind.
- Vorfallmanagement: Integrieren Sie es in jeden beliebigen Teil des Stapels und stellen Sie sicher, dass Sie sofort wissen, wenn etwas schief geht.
Einige Tools umfassen mehr als einen Überwachungstyp und manche Organisationen benötigen nur den einen oder den anderen. Aber jede Organisation benötigt ein Vorfallmanagement, denn egal, welche Überwachung im Vorfeld stattfindet, wenn das System ohne Überwachung seinen Wert verliert.
Nachfolgend sind einige typische KPIs aufgeführt, die protokolliert und auf Warnmeldungen überwacht werden:
- Leistung (CPU, Festplatte, Speicher, Netzwerk, Auslastung)
- Dies ist ein kritisches Element für jeden Überwachungsstapel und umfasst die Leistungs- und Auslastungsüberwachung für kritische Hardware wie CPU, Festplatte, Speicher und Netzwerk. Warnsignale, auf die Sie achten sollten, sind hohe Auslastung, IO-Fehler oder vorhersehbare Fehler.
- Betriebszeit (Ressourcenverfügbarkeit, Serververfügbarkeit, Netzwerkverfügbarkeit)
- Diese werden im Allgemeinen als Antworttickets mit hoher Priorität eingestuft, da sie bedeuten, dass einer Ihrer Server, Netzwerkgeräte oder Schlüsselressourcen nicht mehr funktioniert. Dies kann einfach durch Netzwerkzugriff oder Serviceverfügbarkeit überwacht werden.
- Anwendungs-/Systemereignisse (Fehler, Anfragen, Warnungen, Ausfälle)
- In dieser Kategorie verfolgen Sie Fehler und Ereignisse bei wichtigen Anwendungen und Systemen. Beispielsweise die Überwachung von HTTP-Fehlern und -Anfragen auf einem Webserver oder die Überwachung von Diensten, die eine bestimmte Anwendungskomponente betreiben.
- Sicherheit (IDS/IPS, Anmeldeinformationsverwaltung, Vorfallerkennung)
- Alles, was mit Sicherheit und Sichtbarkeit zu tun hat. Dazu gehört die Überwachung Ihrer Firewall, Endpunkte, Verschlüsselungsdienste und anderer Sicherheitssysteme. Die Überwachung erkannter Eindringlinge und fehlgeschlagener Anmeldeversuche sind zwei von zahlreichen Sicherheitswarnungen, die Sie einrichten können.
- Protokollierung (Syslog-Dienste, SNMP, Protokollaggregation, -anreicherung und -benachrichtigung)
- Dienste zur Protokollaggregation und -anreicherung. Beispiele hierfür sind das Senden von Netzwerk- und Sicherheitsbenachrichtigungen an einen Syslog-Server oder ein Drittanbietertool, um Ihre Protokolldaten anzureichern und datengesteuerte Warnungen zu generieren.
Lärm ist der Feind
In jeder IT-Abteilung, egal ob Sie intern oder als Berater arbeiten, ist Lärm der Feind. Das ist allgemein bekannt. Zeit ist unser kostbarstes Gut und sobald wir unseren Tag in reaktive Brandbekämpfung verwickeln, müssen wir darüber nachdenken, wie uns eine Optimierung des Überwachungs- und Warnprozesses hätte retten können. Der erste Schritt zur Erreichung dieses Ziels besteht darin, eine grundlegende Ebene Ihrer Überwachungsstrategie sicherzustellen. Dazu gehört die Einrichtung einer Vorfallverfolgung für unternehmenskritische Stack-Dienste mit hohem SLA wie Netzwerkverkehr, Serververfügbarkeit, Anwendungsverfügbarkeit, Sicherheitsdienste und Ressourcennutzung. Sobald diese grundlegende Ebene vorhanden ist, erhalten ITOps-Teams die Transparenz und die wichtigen Erkenntnisse, um Produkt-SLA-Verstöße zu verhindern.
Die meisten verfügbaren Tools und Systeme verfügen über vorgefertigte Vorlagen, mit denen Sie diese kritischen Dienste wieder in Betrieb nehmen können. Die Konfiguration geeigneter Schwellenwerte und Vorfallprioritäten ist jedoch von größter Bedeutung, um die Störungsreduzierung zu verringern und die Sichtbarkeit zu erhöhen. Es erfordert einiges Fingerspitzengefühl, um die Schwellenwerte für CPU, Festplatte, Speicher und Netzwerk so zu konfigurieren, dass sie Ihren ITOps-Anforderungen entsprechen. Der Schlüssel besteht darin, diese Schwellenwerte so festzulegen, dass Ihr Team rechtzeitig gewarnt wird, um auf Probleme zu reagieren und Vorfälle mit hoher Priorität zu identifizieren.
Sobald das grundlegende Überwachungsframework konfiguriert ist, ist es an der Zeit, zu einer intelligenteren Dienstüberwachung überzugehen, beispielsweise zu Protokollanalysen, Anwendungseinblicken, Betriebsinformationen und Angriffserkennung. Der Einsatz von Tools wie Splunk kann ITOps- und SecOps-Teams eine enorme Menge an plattformübergreifenden Einblicken liefern. Genauer gesagt können Tools wie Rollbar und Errorception Entwicklerteams dabei helfen, Einblick in Anwendungseinblicke zu gewinnen, indem sie Vorfälle für Codefehler generieren. Darüber hinaus können Tools von Rapid7, AlienVault und Threat Stack dabei helfen, die Sicherheitsüberwachung und Bedrohungsinformationen zu beleuchten. Welches Tool-Set auch immer am besten zu Ihrer Umgebung passt, die Ziele bleiben dieselben: Alarmrauschen reduzieren und die mittlere Zeit bis zur Lösung (MTTR) beschleunigen.
Zeit, aktiv zu werden
Wenn wir eine solide Überwachungsgrundlage geschaffen haben, können wir uns als Nächstes auf die Handlungsfähigkeit konzentrieren. Wie setzen wir Warnungen in Maßnahmen um, insbesondere wenn wir mehrere Tools nutzen, um ein umfassenderes Überwachungsprofil zu erhalten? An diesem Punkt werden die Warnungen mehrerer Überwachungstools zu einem Vorfallmanagement-Plattform kann sich enorm auszahlen. Incident-Management-Plattformen wie PagerDuty können nicht nur kritische IT-Dienste verbinden, sondern auch die generierten Ereignisdaten übernehmen und sofort die richtigen Teams rekrutieren und benachrichtigen. Incident-Management-Plattformen wandeln die von Ihren Überwachungssystemen verursachten Probleme in Warnungen und Vorfälle um. Darüber hinaus ermöglichen automatisierte Eskalationsrichtlinien Ihrem Team eine schnelle und effiziente Lösung Ihres Vorfalls, indem sie sicherstellen, dass ein Responder Maßnahmen zur Lösung des Problems ergreift. Dies ist der entscheidende Punkt, an dem Sie den ROI Ihrer Überwachungstools maximieren.
Schritte zum Abbau der Überwachung
- Stiftung: Grundlegende und erweiterte Vorfallerkennung
- Anreicherung: Deduplizierung, Schwellenwertbildung und Priorisierung
- Handlungsfähigkeit: Benachrichtigung und Alarmierung
- Erfolg: Höhere betriebliche Agilität und kürzere MTTR
Mit einem soliden Überwachungsrahmen verfügt ITOps über die Tools und die Transparenz, um proaktiv zu arbeiten und schneller auf Vorfälle zu reagieren. Insgesamt besteht das Ziel nicht darin, ITOps mit Warnmeldungen zu überfluten, sondern kritische Warnmeldungen zu generieren und zu erkennen, die sofortiges Handeln erfordern.
Lärm kostet Geld – in Form von Personalkosten, Produktivitätsverlust, Ausfallzeiten und sogar Umsatzeinbußen. Indem Sie sicherstellen, dass Sie über das richtige Überwachungsframework verfügen und über eine Vorfallmanagementplattform verfügen, die zentralisiert, klassifiziert und bereichert Events Sie können das Paradoxon „Sichtbarkeit und Lärm“ vermeiden.