Die „Aktion“ in umsetzbare Informationen einbringen
AIOps kombiniert maschinelles Lernen und Menschen, um technische Ergebnisse im IT-Betrieb zu liefern. Das Versprechen dieser Fähigkeit treibt weiterhin neue Wettbewerber auf den Markt. AIOps ist zu einer zentralen Messaging-Komponente für alle großen Eventmanagement-Player geworden. Viele haben gerade ihre Produkte umbenannt, um speziell hervorzuheben AIOps-Funktionen . Neue Event-Management-Player sind auf den Plan getreten und versuchen, auch den AIOps-Bereich zu beanspruchen. Fast alle Observability- und APM-Anbieter haben dasselbe getan und behaupten, dass sie jetzt das AIOps-Tool der Wahl sind.
Was ist AIOps?
Aber gehen wir einen Schritt zurück und seien wir für einen Moment realistisch. AIOps ist kein Tool, sondern eine Reihe von Funktionen. Dementsprechend ist AIOps als Produktset schwer zu definieren – so, als würde man behaupten, sein Tool sei das DevOps-Tool der Wahl. Selbst branchenführende Analysten sind sich ähnlich uneinig darüber, was der Kernansatz von AIOps sein sollte und was die spezifischen Heuristiken von AIOps sind. Trotz dieser Diskrepanzen können wir als Praktiker die überwiegende Mehrheit der AIOps-Lösungen getrost in zwei Kernlager einteilen.
Option Nr. 1: Anwendungsüberwachung
Tools zur Anwendungsüberwachung gehören zum ersten Lager. Dieser überwachungszentrierte Ansatz zielt darauf ab, Metriken, KPIs, Protokolle usw. zu nutzen und mithilfe von maschinellem Lernen und Trendanalysen Vorhersagen zu treffen, die eine intelligentere Warnung früher ermöglichen. Der Vorteil besteht darin, dass Sie durch die Überwachung aller Aspekte möglicherweise näher an die Grundursache herankommen. Der Nachteil besteht darin, dass Sie entweder die Überwachung replizieren oder große Teile Ihres aktuellen Toolsets entfernen und ersetzen müssen, um diese Toolsets nutzen zu können. Darüber hinaus kann die Instrumentierung aller Ihrer Netzwerke, Speicher, Anwendungen, Leistungsüberwachung usw. mit einem einzigen Tool kostspielig sein, insbesondere wenn „gut genuge“ Überwachungstools ersetzt werden.
Option Nr. 2: Eventmanagement
Der zweite Ansatz ist Veranstaltungsmanagement geführt. Diese Gruppe von Lösungen behält eine domänenunabhängige Ansicht bei, indem sie unterschiedliche Überwachungen integriert, und Sie erhalten einen zentralisierten NOC-Funktionstyp, der sich auf ein einheitliches Ergebnis konzentriert. Dieser Ansatz verspricht, alle unterschiedlichen Informationen zu zentralisieren, um im Idealfall bessere Entscheidungen zu treffen. Es kann jedoch zu einem Engpass bei den Funktionen kommen, da Sie einen zentralen Ort zum Aktualisieren von Regeln benötigen. Darüber hinaus kann die Dimensionierung der Lösung schwierig sein, da viele Anbieter unterschiedliche Gebührenmetriken basierend auf Daten wie Spitzennutzung, durchschnittliche tägliche Nutzung, Anzahl der Knoten oder Anzahl der Ereignisquellen haben.
Beide Ansätze lassen außer Acht, dass selbst wenn Sie die „perfekte“ Grundursache finden, die Frage „Was nun?“ fehlt. Wie beheben Sie das Problem? Teams, die diese Lösungen verwenden, bleiben dennoch mit kritischen Fragen zurück, die bei der eigentlichen Brandbekämpfung hilfreich sind. Welcher Dienst ist betroffen? Wem gehört dieser Dienst? Wer ist dafür zuständig? Welche Diagnosen sind erforderlich? Welche Automatisierung kann eingesetzt werden?
Ohne diese Antworten kann die Wiederherstellung des Dienstes schwierig sein.
Eine bessere AIOps-Lösung
PagerDuty nimmt diese Herausforderung an, um das Echtzeit-Arbeitsproblem zu lösen, das die meisten AIOps-Lösungen ignorieren. Wir helfen dabei, den Lärm zu reduzieren, den Kontext zu schaffen, um die Grundursache zu isolieren, und die Automatisierung voranzutreiben, um den Aufwand zu reduzieren und den Service wiederherzustellen. Mit PagerDuty können Teams einen Full-Service-Ownership-Ansatz nutzen, um den Entwicklern und Innovatoren zu helfen, Lösungen schneller als ihre Konkurrenten auf den Markt zu bringen und den Wert für ihre Kunden zu steigern. Anstatt alles auseinanderzunehmen und zu ersetzen, nutzen wir die Tools, Teams und Fähigkeiten, die Sie bereits haben, um Ihnen schnell zu taktischen operativen Erfolgen zu verhelfen und Sie gleichzeitig dabei zu unterstützen, umfassendere strategische Vorteile für die digitale Transformation aufzubauen.
Automatisierung zuerst
Unser Automatisierungs-First-Ansatz kann die Arbeitsweise Ihrer Teams verändern, indem Sie Rundeck, unsere Runbook-Orchestrierungsplattform, als Ersthelfer einsetzen. Mit Rundeck können Teams Probleme oft lösen, ohne jemals ein Team mobilisieren zu müssen. Diese automatisierte Lösung kann die MTTR erheblich verbessern, aber was ebenso wichtig ist: Sie ermöglicht es Ihren Fachexperten, sich auf ihre Tagesarbeit zu konzentrieren. Wenn das Problem durch Automatisierung nicht sofort gelöst werden kann, können unsere automatisierten Diagnosen einen Kontext für Ersthelfer schaffen, damit diese die betroffenen Dienste, die Auswirkungen auf den Kunden und die SLA-Auswirkungen verstehen können. Auf diese Weise können sie Informationen aus Protokollen, Skripten und Verfahren sammeln, die sie bei der Steuerung ihrer automatisierten Antworten unterstützen. All dies schafft einen umfassenden Prüfpfad, der Post-Mortem-Analysen und das ITSM-Problemmanagement verbessert, um Probleme in der Zukunft zu vermeiden.
Unsere Plattform nutzt eine API-Konfigurationsfunktion, die es größeren Organisationen oder mehreren Teams ermöglicht, die Verwaltung im Self-Service durchzuführen. Anstatt also von einem zentralisierten Team abhängig zu sein, um Regeln zu aktualisieren oder Konfigurationen zu verwalten, können Administratoren Repositories und Tools wie Terraform nutzen, um sicherzustellen, dass Teams schnell die Updates erhalten, die sie benötigen, ohne dass sie durch ausschließlich zentralisierte Funktionen in Verlegenheit gebracht werden.
Wir sind davon überzeugt, dass ein datengesteuerter Self-Service-Ansatz, der auf Automatisierung setzt und Teams und maschinelles Lernen zusammenbringt, um Probleme zu beheben, anstatt nur die Grundursache zu finden, das wahre Versprechen von AIOps erfüllt. Indem Sie Ihr ausreichendes und erstklassiges Monitoring bei Bedarf nutzen, können Sie sich mit diesem domänenunabhängigen Ansatz darauf konzentrieren, die richtigen Informationen zur richtigen Zeit an die richtigen Personen weiterzugeben, wenn es auf Sekunden ankommt. Indem wir die Aktion in verwertbare Informationen umsetzen, können wir Lärm und Alarmmüdigkeit reduzieren, Ersthelfer in die Lage versetzen, Probleme zu beheben, Mühen reduzieren und Entwicklern und Innovatoren ermöglichen, neue Funktionen bereitzustellen, anstatt nur Vorfällen nachzujagen.