- PagerDuty /
- Der Blog /
- Alarmierung /
- So verhindern Sie eine Überlastung durch Warnmeldungen
Der Blog
So verhindern Sie eine Überlastung durch Warnmeldungen
In unserem Zeitalter der ständigen Verfügbarkeit, des IoT, der Cloud-Anbindung und der großen Datenmengen stehen wir vor einem großen Paradoxon: Es ist heute einfacher denn je, große Datenmengen zu sammeln. Doch je mehr Daten wir sammeln, desto schwieriger wird es, Situationen effektiv zu überwachen.
Dieses Problem ähnelt dem, was Psychologen als „ Informationsüberlastung “ – das Phänomen, das dazu führt, dass jemand keine effektiven Entscheidungen treffen kann, weil er zu viele Informationen verarbeiten muss.
In manchen Kontexten ist eine Informationsüberflutung unvermeidlich. Wenn Sie täglich Hunderte von E-Mails erhalten, können Sie möglicherweise nicht viel dagegen tun, sich davon überwältigt zu fühlen, da Sie nicht unbedingt viel Kontrolle darüber haben, wer Ihnen eine E-Mail sendet. Wenn es jedoch um die Infrastruktur von Rechenzentren geht, ist eine Informationsüberflutung nicht unvermeidlich. Es liegt ganz bei Ihnen, zu entscheiden, wie viel und welche Arten von Daten gesammelt werden sollen Wenn Sie feststellen, dass Sie zu viele Daten haben, um sie sinnvoll zu analysieren, müssen Sie Ihre Überwachungspraktiken und Alarmfilterung überdenken.
Wie wir bereits erwähnt haben, stehen viele Administratoren vor einem harten Kampf, wenn es darum geht, eine Informationsüberflutung im Rechenzentrum zu verhindern. Das liegt daran, dass die Explosion der Cloud und die Aufkommen des IoT — und all die kostengünstigen Daten, die diese Trends mit sich bringen — haben es einfacher denn je gemacht, alle möglichen Informationen über Ihre Server und Anwendungen zu sammeln.
Was ist kritisch, was nicht
Deshalb ist es heute wichtiger denn je, zu entscheiden, welche Überwachungsarten Sie tatsächlich benötigen, wofür Sie Benachrichtigungen einrichten und worauf Sie verzichten können. Nur weil es einfach und kostengünstig ist, Ihrer Infrastruktur mehr Überwachung hinzuzufügen, heißt das nicht, dass Sie dies unbedingt tun sollten.
Wenn Sie blindlings Überwachung einführen, schießen Sie sich selbst ins Bein, indem Sie mehr Daten sammeln, als Sie jemals verarbeiten oder effektiv nutzen können. Das führt zu Ermüdung Ihres Bereitschaftspersonals, Zeitverschwendung bei Problemen mit niedriger Priorität und dazu, dass Probleme mit niedriger Priorität von den kritischen ablenken.
Ein erfolgreiches Alarmmanagement hängt natürlich von Ihren speziellen Anforderungen ab. Es gibt keinen einheitlichen Ansatz. Generell ist es eine gute Idee, sich auf den Einsatz von Sensoren zu beschränken, die sich auf die folgenden Arten von Informationen konzentrieren:
- Sicherheitsvorfälle: Sie möchten über Dinge wie wiederholte fehlgeschlagene Anmeldeversuche oder Port-Scans benachrichtigt werden, damit Sie Bedrohungen immer einen Schritt voraus sind.
- Hostfehler: Wenn ein physischer oder virtueller Server nicht gestartet werden kann oder plötzlich abstürzt, ist dies ein wichtiges Ereignis, über das Sie Bescheid wissen sollten.
- Erschöpfung der Ressourcen: Sie möchten nicht warten, bis der Datenspeicher oder die Netzwerkbandbreite erschöpft ist, um festzustellen, dass Sie mehr Speicherplatz hinzufügen sollten. Verwenden Sie Sensoren, die Sie warnen, wenn sich die Nutzung dem verfügbaren Maximum nähert und länger als kurze Zeit auf diesem Niveau bleibt.
Auch hier kann die Reichweite durchaus unterschiedlich sein. Die obige Liste enthält jedoch die wichtigsten Arten von Ereignissen, über die Sie benachrichtigt werden sollten.
Überwachung vs. Alarme
Es gibt andere Datentypen, die gut zu überwachen sind, für die aber möglicherweise kein Alarm erforderlich ist. Dazu gehören Dinge wie:
- CPU auslastung: Aufgrund verschiedener Faktoren kann dieser Wert im Tagesverlauf stark schwanken. Sie möchten über allgemeine Trends informiert sein, benötigen aber keinen Alarm, der Sie jedes Mal informiert, wenn die CPU-Auslastung sprunghaft ansteigt.
- Netzwerklast: Dies fällt in dieselbe Kategorie wie die CPU-Auslastung. Die Netzwerklast schwankt natürlich. Sie sollten die Trends Ihres Rechenzentrums kennen, damit Sie eine langfristige Erweiterung planen können. Aber es besteht kein Grund, Alarm auszulösen, nur weil sich zu einem bestimmten Zeitpunkt zufällig viele Geräte im Netzwerk befinden – es sei denn natürlich, die Situation ist extrem und hält an.
- Umweltbedingungen : Sie sollten Dinge wie die Temperatur im Rechenzentrum im Auge behalten. Aber das ist die Art von Vorfall, die normalerweise automatisiert behandelt werden kann. Anstatt dass Sensoren Ihnen eine Warnung senden, wenn die Temperaturen zu hoch steigen, sollten Sie eine Software verwenden, die die Kühleinheiten für Sie hochfährt. Sie brauchen nur dann eine Warnung, wenn die Temperaturen einen kritischen Wert erreichen und dort bleiben.
Es ist durchaus möglich, dass ein durch einen Sensor ausgelöstes Problem wie die Länge der Prozessorwarteschlange leicht indirekt mit dem relevanteren Datenpunkt wie der Prozessorauslastung abgedeckt werden kann.
Die richtigen Daten für die richtigen Leute
Um optimale Ergebnisse mit Ihren Sensoren zu erzielen, können Sie außerdem sicherstellen, dass die richtigen Vorfallbenachrichtigungen an die richtigen Personen gehen.
Plattformen wie PagerDuty ermöglichen es Ihnen, eine Befehlsreihenfolge für die Bearbeitung verschiedener Ereignistypen festzulegen. Anstatt Ihr gesamtes Team mit Vorfallbenachrichtigungen zu überhäufen, stellen Sie sicher, dass nur die genau richtigen Personen geweckt werden, die Probleme behandeln müssen. Dies minimiert ungeplante Arbeit und Alarmmüdigkeit bei der Beantwortung von Problemen.
Sie können PagerDuty auch so konfigurieren, dass Benachrichtigungen an eine größere Gruppe gesendet werden, wenn die ursprünglichen Empfänger nicht innerhalb einer bestimmten Zeit antworten.
Holen Sie mehr aus Protokollen heraus
Und zu guter Letzt sollten Sie bedenken, dass es viele verschiedene Möglichkeiten gibt, mit Informationen umzugehen. Eine Möglichkeit besteht darin, Warnmeldungen zu generieren. Eine andere besteht darin, Log-Analytics-Tools zu verwenden, um Trends zu erkennen, die sich über eine große Menge von Daten erstrecken, die von verschiedenen Überwachungstools erfasst werden.
Indem Sie Ihre Protokollergebnisse auf das Wesentliche reduzieren, können Sie herausfinden, worauf Sie achten sollten, ohne eine große Anzahl von Ereignissen einzeln bearbeiten zu müssen.
Deshalb bietet PagerDuty Funktionen wie Integrationen mit Splunk und anderen Analysetools . Diese eignen sich ideal, um aus Überwachungsdaten einen Nutzen zu ziehen, ohne dass es zu einer Informationsüberflutung kommt.