- PagerDuty /
- Der Blog /
- Vorfallmanagement und Reaktion /
- Nach der Katastrophe: So lernen Sie aus historischen Daten zum Vorfallmanagement
Der Blog
Nach der Katastrophe: So lernen Sie aus historischen Daten zum Vorfallmanagement
Ihr Geschichtslehrer an der High School hat Ihnen zweifellos eine Variante von George Santayanas berühmtem Ausspruch erzählt: „ Wer sich nicht an die Vergangenheit erinnern kann, ist dazu verdammt, sie zu wiederholen. „
Ich bin ziemlich sicher, dass Santayana nicht an das Vorfallmanagement dachte, als er das schrieb. Aber seine Weisheit gilt immer noch – und es lohnt sich, darauf zu hören, wenn Sie für das Vorfallmanagement verantwortlich sind.
Der Hauptzweck des Vorfallmanagements besteht zwar darin, Probleme erkennen und lösen die Ihre Infrastruktur betreffen, aber Ihre Incident-Management-Maßnahmen sollten hier nicht aufhören. Anstatt nur auf Kundentickets zu reagieren, sollten Sie auch die umfangreichen Datenmengen nutzen, die Ihre Warnsysteme generieren, um Probleme proaktiv zu erkennen und zu verhindern. So können Sie Erkenntnisse gewinnen, die Ihnen helfen, Ihre Infrastruktur in Zukunft widerstandsfähiger zu machen.
In diesem Beitrag werde ich einige Strategien für die Arbeit mit historischen Vorfallmanagementdaten skizzieren. Unter anderem werde ich erläutern, wie die Daten erfasst und analysiert werden und worauf bei der Arbeit mit diesen Informationen zu achten ist.
Speichern und standardisieren Sie Ihre Daten
Der erste Schritt bei der Analyse historischer Incident-Management-Daten besteht darin, eine standardisierte Methode zum Sammeln und Analysieren der Informationen zu finden. Dies kann eine Herausforderung sein, da die Menge und das Format der historischen Protokolldaten je nach Region stark variieren. verschiedene Überwachungssysteme .
Einige Überwachungssysteme liefern kaum protokollierte Daten, die Sie im Nachhinein untersuchen können. Zum Beispiel: Pingdom ist ein großartiges Tool zur Echtzeitüberwachung. Da es jedoch so konzipiert wurde, dass es Ihnen anzeigt, was jetzt passiert und nicht, was gestern passiert ist, stellt es selbst nicht viele historische Daten bereit.
Andere Überwachungssysteme speichern Daten nur für begrenzte Zeiträume oder in schwer zu verarbeitenden Formaten. Um beispielsweise Snort-Daten zu analysieren, müssen Sie möglicherweise Paketdumps durchforsten. Sofern Wireshark nicht Ihre Lieblingsbeschäftigung für einen Freitagabend ist, ist das eine Menge Arbeit.
Wenn Sie viele Überwachungssysteme im Einsatz haben, speichern diese die Daten außerdem wahrscheinlich an mehreren verstreuten Standorten. Einige Tools schreiben Protokolle in /var/log auf lokalen Rechnern, wo sie schwer zu finden sind und möglicherweise von Wartungsskripten gelöscht werden. Andere bewahren Protokolle für unterschiedlich lange Zeiträume in der Cloud auf – nicht ideal, wenn Sie alle Ihre historischen Daten auf einmal analysieren möchten.
Um Ihre Vorfallmanagementdaten optimal zu nutzen, sollten Sie aus diesen Gründen zwei Dinge beachten:
- Senden Sie Warnungen und Protokolle an einen zentralen Sammelpunkt, wo sie so lange gespeichert werden können, wie Sie sie benötigen (und nicht so lange, wie das ursprüngliche Überwachungssystem oder der lokale Speicher sie unterstützt).
- Konvertieren Sie die Daten an Ihrem Erfassungspunkt in ein Standardformat – und extrahieren Sie umsetzbare Erkenntnisse und Schlussfolgerungen, die in die Infrastruktur reinvestiert werden können (mit einem Prozess wie Obduktion von Vorfällen ).
Tools wie Logstash , Splunk Und Papier Spur können hier hilfreich sein. Sie helfen dabei, Daten aus isolierten Standorten zu sammeln und an einen zentralen Speicherort zu leiten.
PagerDuty geht noch einen Schritt weiter und ermöglicht Ihnen den Import von Daten aus diesen und anderen Quellen, die Konvertierung in eine standardisiertes Format , und Zentralisierung und Kreuzkorrelation von Daten mit Visualisierungen, die Muster und Trends erkennen und zur Ermittlung der Grundursache und mehr genutzt werden können.
Anzeigen und Analysieren Ihrer Daten
Das Speichern Ihrer Daten ist nur die halbe Miete. Die andere Herausforderung besteht darin, diese anzuzeigen und zu analysieren.
In den meisten Fällen ist die einfachste Möglichkeit, Ihre Daten anzuzeigen, eine webbasierte Schnittstelle. Im Idealfall verfügt sie über eine ausgefeilte Suche, mit der Sie bestimmte Ereignisse in Ihren Protokollen finden, den aktuellen Status von Vorfällen überwachen usw. können. Deshalb ist es wichtig, Filtern und Suchen über Ihre gesamte Infrastruktur mit normalisierten Feldern ist so hilfreich.
Die Weboberfläche eignet sich zwar gut zum Aufspüren kleiner Trends oder zum Nachverfolgen des Verlaufs eines bestimmten Vorfalltyps, aber um ein Gesamtbild zu erhalten, benötigen Sie Bilder. Tabellen und Listen mit Warnmeldungen helfen Ihnen nicht, systemweite Trends zu verstehen. Visualisierungen auf der Grundlage Ihrer Vorfallmanagementdaten, wie die von PagerDuty in Berichte einbeziehen , helfen Ihnen, Informationen im großen Maßstab zu interpretieren.
Zu guter Letzt – insbesondere wenn Sie Daten programmgesteuert analysieren – gibt es APIs, mit denen Sie Ihre Protokolldaten nach Bedarf exportieren können. Die PagerDuty -API macht es einfach, Sammeln und Exportieren von Protokolldaten in dem von Ihnen benötigten Format (und die Events API v2 normalisiert außerdem automatisch alle Daten in ein gemeinsames Format).
Wonach schauen
Worauf sollten Sie achten, wenn Sie Ihre Datenanalyse abgeschlossen haben? Ihre genauen Anforderungen hängen natürlich von der Art der Infrastruktur ab, die Sie überwachen. Einige allgemeine Informationen, die Sie beachten sollten, sind:
- Die Häufigkeit, mit der Vorfälle auftreten. Wenn sich diese Zahl im Laufe der Zeit ändert, möchten Sie wissen, warum.
- Mittlere Zeit bis zur Bestätigung (MTTA) und Mittlere Zeit bis zur Lösung von Vorfällen (MTTR) . Indem Sie diese Zahlen im Auge behalten, wissen Sie, wie effektiv Ihr Team seine Aufgaben im Vorfallmanagement bewältigt.
- Wer in Ihrem Team kümmert sich am meisten um die Alarme? Wenn Sie das wissen, können Sie die Mitglieder nicht nur für ihre harte Arbeit belohnen, sondern es bestimmt auch, ob Ihre Alarme richtig verteilt werden und an die richtigen Personen gehen. Wenn beispielsweise ein Administrator mehr Alarme erhält, als ihm zusteht, sollten Sie die Dinge optimieren, damit er nicht überlastet wird. Das führt zu Alarmmüdigkeit , und das will niemand.
- Welche Überwachungssysteme erzeugen die meisten Alarme? Wenn Sie die Alarme Ihrer verschiedenen Überwachungssysteme wie oben vorgeschlagen an einem einzigen Protokollierungsort zusammenfassen, können Sie auch feststellen, welche Systeme Ihnen die meisten Informationen liefern. Sie können erkennen, ob ein System zu wenig Leistung bringt oder zu viel Lärm erzeugt, und Ihre Alarmschwellen nach Bedarf anpassen.
Wenn Sie diese Tipps befolgen, müssen Sie sich nicht ständig mit den gleichen Arten von Vorfällen auseinandersetzen. Stattdessen können Sie die großen Trends erkennen, die Ihnen dabei helfen, Wege zu finden, Ihre Infrastruktur insgesamt effizienter zu gestalten.
Und so kann sich Vorfallmanagement wirklich auszahlen. Denken Sie an eine andere oft zitierte Maxime: „ Vorbeugen ist besser als heilen. „Die Reaktion auf Vorfälle ist die Heilung, aber die Schaffung einer kontinuierlichen Feedbackschleife mit historischen Daten zum Vorfallmanagement ist die beste Vorgehensweise zur Prävention.“