- PagerDuty /
- Der Blog /
- Best Practices und Einblicke /
- Überwachung bewährter Methoden aus IT-Ausfällen
Der Blog
Überwachung bewährter Methoden aus IT-Ausfällen
Gastbeitrag von Alexis Lê-Quôc, Mitbegründer und CTO von Datenhund . Datadog ist ein Überwachungsdienst für IT-, Betriebs- und Entwicklungsteams, die die riesigen Datenmengen, die von ihren Apps, Tools und Diensten produziert werden, in umsetzbare Erkenntnisse umwandeln möchten.
Bei Datenhund wir essen unser eigenes … Hundefutter. Wir verfolgen intern Hunderttausende von Kennzahlen. Es hat einige Zeit gedauert, bis wir gelernt haben, worauf wir hinweisen und was wir überwachen müssen. Nicht alle Kennzahlen sind gleich, und wir haben eine einfache Methode entwickelt, sie zu verwalten, die jeder beherrschen kann. So machen wir es.
Ziele überwachen
Warum sollten Sie Zeit in eine bessere Überwachung investieren?
- Um vor Ihren Kunden oder Ihrem Chef über ein Problem informiert zu sein
- Um zu wissen, wie Ihre Systeme und Anwendungen funktionieren
- Um Ihr Stressniveau zu minimieren
Klassifizieren von Metriken
Welche Art von Metriken verfolgt Ihr Überwachungstool? Beispiele sind: CPU-Auslastung, Speicherauslastung, Datenbank- oder Webanforderungen. Das sind viele verschiedene Arten von Metriken und sie können in zwei grundlegende Metrikklassifikationen unterteilt werden – Arbeit und Ressourcen.
Arbeitsmetriken
Eine Arbeitsmetrik misst, wie viel nützliches Zeug Ihr System oder Ihre Anwendung produziert. Wir könnten uns beispielsweise die Anzahl der Abfragen ansehen, auf die eine Datenbank antwortet, oder die Anzahl der Seiten, die ein Webserver pro Sekunde bereitstellt. Der Zweck einer Datenbank besteht darin, Abfragen zu beantworten. Der Zweck eines Webservers besteht darin, Seiten bereitzustellen. Dies sind also geeignete Arbeitsmetriken.
Eine weitere Arbeitsmetrik wäre beispielsweise, wie viel Geld Ihre Anwendung generiert. Das ist eine sehr nützliche Arbeitsmetrik, um die Verfügbarkeit zu verfolgen und die Effektivität Ihrer Anwendung und Infrastruktur zu verstehen.
Ressourcenmetriken
Die andere Klasse sind Ressourcenmetriken. Eine Ressource ist etwas, das verwendet wird, um etwas Nützliches zu produzieren. Sie verwenden eine Ressource, um Arbeit zu produzieren. Eine Ressourcenmetrik misst also, wie viel von etwas verbraucht wird, um Arbeit zu produzieren. Wenn Sie die Frage stellen: „Wie viel CPU verbrauche ich in der Datenbank?“, sagt das nicht wirklich viel darüber aus, ob das nützlich ist oder nicht. Es sagt nur: „Nun, ich habe mehr CPU zur Verfügung“ oder „Ich bin am Limit und meine CPU ist komplett ausgelastet.“ Dasselbe gilt für Speicher, Festplatte, Netzwerk und so weiter. Im Allgemeinen habe ich Ressourcenmetriken eher für die Kapazitätsplanung als für das Verfügbarkeitsmanagement verwendet.
Optimieren Sie Ihr Monitoring
Nachdem wir nun Arbeits- und Ressourcenmetriken definiert haben, können wir zu Best Practices übergehen. Klassifizieren Sie Schlüsselmetriken als Arbeit oder Ressource
1. Klassifizieren Sie Schlüsselkennzahlen als Arbeit oder Ressource
Sehen Sie sich Ihre Schlüsselkennzahlen an, insbesondere die, die Ihnen wirklich wichtig sind, und finden Sie heraus, ob es sich dabei um Arbeitskennzahlen oder Ressourcenkennzahlen handelt.
2. Warnen Sie nur bei Arbeitsmetriken
Sobald Sie diese Klassifizierung vorgenommen haben – und es ist wirklich wichtig, sich dafür Zeit zu nehmen – müssen Sie festlegen, worüber Sie benachrichtigt werden möchten. Sie möchten nur über Arbeitsmetriken benachrichtigt werden.
Mit anderen Worten: Sie möchten über Dinge benachrichtigt werden, die Aufschluss über die Nützlichkeit Ihres Systems geben.
Ich sollte erwähnen, dass es sinnvoll ist, bei einigen Ressourcenmetriken Warnungen auszugeben, wenn sie ein Frühindikator für einen Fehler sind. Festplattenspeicher ist beispielsweise eine Ressourcenmetrik. Wenn Ihnen jedoch der Festplattenspeicher ausgeht, stoppt die ganze Show, sodass es auch wichtig ist, bei diesen Metriken Warnungen auszugeben. Generell sollten Warnungen bei Ressourcenmetriken jedoch selten sein.
3. Warnen Sie nur bei umsetzbaren Arbeitsmetriken
Die Verbesserung gegenüber der vorherigen Best Practice besteht darin, dass Sie wirklich nur bei umsetzbaren Arbeitsmetriken Alarme ausgeben möchten. Mit anderen Worten: Sie möchten bei Arbeitsmetriken Alarme ausgeben, bei denen Sie etwas tun können.
Eine umsetzbare Arbeitsmetrik für einen Webserver ist beispielsweise, wie viele Webseiten Sie pro Sekunde fehlerfrei bereitstellen. Das ist eine Arbeitsmetrik, denn wenn Sie null Seiten bereitstellen, läuft Ihre Website überhaupt nicht – sie ist ausgefallen.
Eine nicht umsetzbare Arbeitsmetrik könnte sein, wie viele 404-Fehler ich pro Sekunde ausliefere. Dies ist keine umsetzbare Arbeitsmetrik, da dies vollständig davon abhängt, was die Leute auf Ihrer Site tun. Wenn sie zu URLs navigieren, die nicht existieren, werden Sie viele 404-Fehler erhalten. Das bedeutet nicht, dass es schlecht ist, sondern dass sie etwas Unerwartetes tun. Sie sollten also keine Warnungen zu nicht umsetzbaren Arbeitsmetriken ausgeben.
4. Überprüfen Sie regelmäßig Kennzahlen und Warnmeldungen
Die vierte und vielleicht eine der schwierigsten Best Practices besteht darin, tatsächlich eine Überprüfung durchzuführen und diesen Prozess regelmäßig zu wiederholen. Vielleicht ist das wöchentlich, zweiwöchentlich oder monatlich, aber Sie sollten sich in Ihrem vollen Terminkalender wirklich etwas Zeit nehmen und mit Ihrem Team eine Überprüfung durchführen.
Zurück zu den Zielen
Lassen Sie uns nun diese Best Practices mit den anfänglichen Zielen der Überwachung verknüpfen, die ich erwähnt habe. Die Klassifizierung der wichtigsten Kennzahlen als Arbeit oder Ressource ist eine Voraussetzung für alles.
a. Um vor Ihren Kunden oder Ihrem Chef über ein Problem informiert zu sein
Warnen Sie nur bei Arbeitsmetriken, damit Sie sicher sein können, dass Sie keine Warnmeldungen für Dinge ausgeben, die nicht nützlich sind, und so ein viel besseres Ergebnis erzielen.
b. Um Ihr Stressniveau zu minimieren
Geben Sie nur Warnmeldungen zu umsetzbaren Arbeitsmetriken aus, da Sie keine Warnmeldungen zu Dingen erhalten, über die Sie keine Kontrolle haben.
c. Um zu wissen, wie Ihre Systeme und Anwendungen funktionieren
Überprüfen Sie regelmäßig Kennzahlen und Warnmeldungen, damit Sie sich ein gutes Bild von der Leistung Ihrer Systeme und den Trends machen und wissen, welche Änderungen Sie vornehmen können.
Nutzen Sie diese Best Practices, um Ihre Überwachungsstrategie zu verbessern, und wenn Sie bereit zur Implementierung sind, versuchen Sie es mit 14-tägige kostenlose Testversion von Datadog um Ihre umsetzbaren Arbeitsmetriken und alle anderen Metriken und Ereignisse aus über 80 gängigen Infrastrukturtools grafisch darzustellen und Warnmeldungen dazu bereitzustellen.