PagerDuty
/
Der Blog
/
Vorfallmanagement und Reaktion
/
Silos aufbrechen: Daten zwischen Anbietern korrelieren

Der Blog

Silos aufbrechen: Daten zwischen Anbietern korrelieren

von Chris Riley 21. Februar 2017 | 5 Minuten Lesezeit

Danke an die DevOps-Bewegung verstehen wir jetzt, warum Softwarelieferketten die aus einer Reihe von Silos bestehen, sind schlecht. Sie erschweren die Kommunikation zwischen verschiedenen Teams, was zu Lieferverzögerungen, Rückverfolgungen und Fehlern führt.

Beim Vorfallmanagement muss man sich mit einer anderen Art von Silos auseinandersetzen – nämlich solchen, die Vorfallmanagementdaten von einem Anbieter oder Produkt zum anderen trennen. Diese Silos erschweren die Vorfalllösung, da sie das Sammeln und Analysieren von Überwachungsdaten aus mehreren Quellen erschweren.

Wie können Sie diese Silos aufbrechen, um einen effizienten Ablauf des Vorfallmanagements aufrechtzuerhalten?

Identifizieren Sie die Silos

Der erste Schritt bei der Überwindung von Silos im Vorfallmanagement besteht darin, zu verstehen, warum Silos überhaupt existieren.

Der Grund ist einfach: Moderne Infrastruktur besteht aus unterschiedlicher Hard- und Software. Die meisten Komponenten haben spezielle Überwachungsanforderungen. Sie geben Informationen in einem bestimmten Format und in einem bestimmten Rhythmus aus und erfordern eine bestimmte Datenerfassung. Die mit jedem Teil der Infrastruktur verbundenen Überwachungsinformationen befinden sich daher in einem Silo, da sie nicht ohne weiteres mit Daten aus anderen Teilen der Infrastruktur vergleichbar sind.

Als einfaches Beispiel nehmen wir ein Rechenzentrum, das aus zehn Bare-Metal-Servern mit Windows und zehn weiteren Bare-Metal-Servern mit Linux besteht. In diesem Szenario würde das Unternehmen unterschiedliche Überwachungstools für seine Windows- und Linux-Server benötigen. Obwohl einige der Überwachungsinformationen für jeden Betriebssystemtyp (z. B. ob der Host aktiv ist) gleich wären, wären andere Daten nicht gleich. Und in jedem Fall müssten die Daten mit Tools erfasst werden, die mit dem betreffenden Betriebssystem kompatibel sind. Jeder Kontext wird daher zu einem eigenen Silo mit seinem eigenen Miniatur-Ökosystem aus Überwachungstools und Daten .

Dies ist übrigens nur ein einfaches Beispiel. In den meisten realen Umgebungen ist die Sache viel komplizierter, wenn Sie nicht nur zwei verschiedene Arten von Bare-Metal-Servern überwachen müssen, sondern auch virtuelle Server, die auf einem oder mehreren Hypervisortypen laufen, Workstations mit verschiedenen Desktop-Betriebssystemen und mobile Geräte mit einer sehr unterschiedlichen Palette von mobilen Betriebssystemen, Versionen usw.

Silos aufbrechen

Wie beseitigen Sie die Silos, die die einzelnen Überwachungskontexte in Ihrer Infrastruktur voneinander trennen, um nahtlose und ganzheitliche Überwachungstransparenz ? Die Lösung besteht aus zwei Teilen.

Schritt 1: Zentralisieren Sie die Datenerfassung

Der erste Schritt besteht darin, eine Vorfallmanagementlösung zu implementieren, die Informationen aus unterschiedlichen Umgebungen sammeln und diese dann an einen zentralen Ort weiterleiten kann. Auf diese Weise können Ingenieure Überwachen Sie die gesamte Infrastruktur von einem einzigen Aussichtspunkt aus. Sie müssen nicht in einzelne Silos schauen, um verschiedene Teile der Infrastruktur zu überwachen.

Für eine zentralisierte Datenerfassung ist eine Incident-Management-Lösung erforderlich, die intelligent genug ist, um Überwachungsinformationen aus mehreren Quellen zu aggregieren. Dies ist keine triviale Aufgabe; die Unterstützung einer breiten Palette von Umgebungen und Endpunkten erfordert Integration mit vielen verschiedenen Arten von Überwachungssystemen , manchmal sogar Sonderwerkzeuge.

Schritt 2: Übersetzen der Daten

Der zweite Schritt wird leicht übersehen. Neben der Aggregation von Daten aus vielen Überwachungstools und deren Bereitstellung an einem zentralen Ort müssen die Incident-Management-Teams alle Daten auch in ein einheitliches Format übersetzen.

Nur durch die Datenübersetzung kann sichergestellt werden, dass jeder Ingenieur Warnmeldungen aus jeder Quelle interpretieren und darauf reagieren kann. Wenn die Daten nicht übersetzt werden, müssen die Ingenieure über spezielle Fachkenntnisse zu einem bestimmten Überwachungssystemtyp verfügen oder das Schema eines bestimmten Anbieters kennen, um die Daten zu verstehen, die aus diesem System stammen. Die Bereitstellung aller Daten an einem zentralen Ort würde daher wenig dazu beitragen, Silos aufzubrechen, da es weiterhin hohe Barrieren zwischen verschiedenen Überwachungskontexten gäbe.

Betrachten wir zum Beispiel die verschiedenen Arten, in denen Zabbix Und Nagios Verwenden Sie den Begriff „Alias“. Beim früheren Überwachungssystem dient ein Alias im Grunde als Abkürzung für jede Art von Konfigurationsbegriff. Bei Nagios hingegen ist ein Alias ein vorgegebener Name für einen Host. Seine Bedeutung ist spezifischer. Wenn Sie diesen Unterschied nicht verstehen und Daten sowohl von Zabbix- als auch von Nagios-Systemen in einem zentralen Dashboard aggregiert sehen, kann dies leicht verwirrend werden.

Für ein effektives Vorfallmanagement benötigen Sie eine Lösung, die anbieter- und plattformspezifische Terminologie in eine einheitliche, konsistente Sprache übersetzen kann. Nur mit einer Ereignisnormalisierung, wie sie durch die Allgemeines Ereignisformat von PagerDuty können die Antwortenden Daten aus mehreren Quellen einfach und genau interpretieren.

Die Komplexität moderner Infrastrukturen macht es schwierig, Silos zu vermeiden. Das bedeutet jedoch nicht, dass Überwachungsinformationen in diesen Silos verbleiben müssen, denn Informationen sind nur dann nützlich, wenn sie verstanden und umgesetzt werden können. Indem sie Überwachungsinformationen aus verschiedenen Quellen aggregieren und in eine Sprache übersetzen, die jeder im Bereitschaftsteam versteht, können Vorfallmanagementteams die Silos aufbrechen, die in ihrer Infrastruktur existieren. Sie profitieren dann von nahtloser Kommunikation und einer flexiblen Reaktion auf Vorfälle in Echtzeit.

^{Dunatov, Devin. „Speeding.“ 17. Juli 2012. Online-Bild. https://www.flickr.com/photos/ddunatov/7588797542 >}

Zentralisiertes Incident Management Vollständige Transparenz Vorfallmanagement IT-Silos Überwachung Silos

Das könnte Ihnen auch gefallen ...

Vorfallmanagement und Reaktion , Bewährte Methoden für das Vorfallmanagement , PagerDuty Universität
Sind Sie auf Ihren nächsten größeren Ausfall vorbereitet?

Vorfallmanagement und Reaktion , Bewährte Methoden für das Vorfallmanagement
Aus großen Zwischenfällen lernen: Die Chancen, die wir verpassen

Vorfallmanagement und Reaktion , Lösungen zum Vorfallmanagement
Sorgen Sie für einen widerstandsfähigeren Betrieb mit dem PagerDuty Incident Management

Vorfallmanagement

AIOps

Automatisierung

Kundenservice-Operationen

Statusseiten

PagerDuty Advance

Integrationen

Entwicklerplattform

Professionelle Dienstleistungen

Sicherheit

Unternehmensklasse