- PagerDuty /
- Der Blog /
- Vorfallmanagement und Reaktion /
- Vorfallmanagement der nächsten Generation: Skriptbasierte Infrastruktur
Der Blog
Vorfallmanagement der nächsten Generation: Skriptbasierte Infrastruktur
Der große Vorteil von Konfigurationsmanagement-Tools wie Chef, Puppet und Ansible besteht darin, dass sie Ihr Rechenzentrum in „geskriptete“ Infrastruktur Anstatt Stunden damit zu verschwenden, jeden Server manuell bereitzustellen und zu konfigurieren, können Sie ein Konfigurationstool verwenden, das die Drecksarbeit für Sie erledigt.
Diese Werkzeuge sind jedoch nicht dafür gedacht, Automatisieren Sie das Vorfallmanagement . Und das wirft die folgenden Fragen auf: Warum handhaben Sie das Vorfallmanagement manuell, wenn der Rest Ihres IT-Betrieb sind geskriptet? Ist es nicht an der Zeit, das Vorfallmanagement in Ihre geskriptete Infrastrukturroutine zu integrieren? Ja! Indem Sie einen geskripteten Infrastrukturansatz für das Vorfallmanagement wählen, können Sie Skalenüberwachung und Alarmmanagement genauso gut wie der Rest Ihrer Operationen.
Das Problem
Lassen Sie uns zunächst besprechen, warum ein skriptbasierter Infrastrukturansatz für das Vorfallmanagement so wichtig ist.
Ich möchte zunächst sagen, dass Sie nicht zu streng mit sich selbst sein sollten, wenn Sie das Vorfallmanagement immer noch manuell durchführen. Sie sind kein schlechter Administrator, sondern nur ein Opfer der Umstände. Bis vor kurzem waren automatisierte Lösungen für das Vorfallmanagement nicht so leicht verfügbar wie in anderen Bereichen. Infrastrukturmanagement-Tools wie Koch .
Auch waren die Anforderungen an das Incident Management nicht immer so komplex wie heute. Ihr Rechenzentrum bestand vor zehn Jahren wahrscheinlich höchstens aus ein paar Dutzend Servern vor Ort. Dort konnten Sie das Incident Management manuell abwickeln.
Doch heute ist die Infrastruktur aufgrund der Anforderungen an Skalierbarkeit und schnellere Produktinnovation größer und komplexer als je zuvor. Sie haben Bare-Metal-Server vor Ort. Sie haben lokale virtuelle Server. Sie haben Cloud-Server, Behälter und Mobilgeräte. Und mit der IoT-Revolution Jetzt, wo die Dinge auf Hochtouren laufen, kann man davon ausgehen, dass man dieser Mischung bald auch Kühlschränke, Mikrowellen und Parkuhren hinzufügen muss.
Wenn Sie das Vorfallmanagement auf all diesen Geräten effektiv durchführen möchten, muss Ihre Strategie skalierbar sein und sich wiederholende, manuelle Aufgaben nach Möglichkeit eliminieren. Dazu benötigen Sie Vorfallmanagementlösungen der nächsten Generation, die auf die gleiche Weise automatisiert und geskriptet werden können, wie Sie die Konfiguration Ihrer wachsenden Rechenzentrumsinfrastruktur automatisieren.
Die Lösung
Kommen wir nun zu den Einzelheiten. Um das Vorfallmanagement im Zeitalter geskripteter Infrastrukturen effektiv zu handhaben, sollten Ihre Vorfallmanagement-Tools:
- Leiten Sie Warnmeldungen an die richtigen Personen weiter , jedes Mal, automatisch. Wenn bei der Benachrichtigung der richtigen Personen über ein Problem irgendwo ein manueller Schritt erforderlich ist, ist Ihr Prozess fehlerhaft.
- Vorfälle automatisch eskalieren . Auch hier können Sie nicht darauf warten, dass ein Mensch ein Problem manuell neu zuweist, wenn die Leute vergessen, etwas zu unternehmen, insbesondere wenn Sie über eine riesige Infrastruktur verfügen. Ihre Software muss intelligent genug sein, um das für Sie zu tun, genauso wie Chef und Puppet intelligent genug sind, um Ihre Server automatisch zu konfigurieren.
- Verwalten Sie das Warnverhalten im großen Maßstab. Infrastruktur-Scripting-Tools sind unter anderem deshalb so praktisch, weil sie vorhandene Ressourcen so effizient wie möglich nutzen. Sie wissen beispielsweise, wo in der Cloud Ihre virtuellen Server platziert werden müssen, ohne Sie danach zu fragen. Ebenso sollten Ihre Tools für das Vorfallmanagement in der Lage sein, Warnmeldungen automatisch zu gruppieren, zu unterdrücken und an die richtigen Dienste und Teams weiterzuleiten. Reduzierung des Lärms sowie der Reaktionszeit S.
- Integrieren mit ChatOps damit Ihr Team bei der Reaktion auf Vorfälle zusammenarbeiten kann, ohne den Kommunikationsprozess von der Arbeit im Vorfallmanagement zu trennen. Außerdem durch Chatbots ChatOps kann dabei helfen, bestimmte Antwortaufgaben zu automatisieren.
- Unterstützen Sie alle Ihre Überwachung Bedürfnisse. Wahrscheinlich haben Sie mehrere Überwachungssysteme im Einsatz, wie AWS Cloudwatch, Nagios und Pingdom. Damit Ihr Vorfallmanagement wirklich skalierbar und automatisiert ist, müssen diese Tools ohne manuelle Eingriffe zusammenarbeiten. Eine Vorfallmanagementstrategie, die Warnungen aus allen Quellen außer einer automatisiert, ist genauso problematisch wie eine Puppet-Infrastruktur, die Ihre gesamte Infrastruktur außer einem Servertyp konfiguriert, den Sie manuell bereitstellen. Die Zentralisierung aller Ihrer Tools in einer Lösung, die es Ihnen ermöglicht, Ereignisse in automatisierte Workflows umzuwandeln, ist der Schlüssel.
- Seien Sie 100 % der Zeit wach . Das mag offensichtlich erscheinen, aber ich möchte damit daran erinnern, warum es keine gute Idee ist, sich ausschließlich auf lokale Benachrichtigungen zu verlassen. Ich war genauso begeistert von Nagios wie jeder andere, als wir 2002 schrieben und die Cloud noch ein Ding am Himmel war. Aber heute, wenn Sie sich auf einzig und allein Wenn Sie ein altmodisches Tool wie Nagios lokal ausführen, um Ihre Alarme zu übermitteln, besteht das Risiko, dass Ihr Incident Management System selbst ausfällt, wenn es ein Problem mit Ihrer Infrastruktur gibt. Die Verwendung von Nagios ist gut und schön, aber Sie sollten seine Alarme zusammen mit denen Ihrer anderen Überwachungssysteme an einen zentralisierte, Cloud-basierte Vorfallmanagementlösung , das von Problemen Ihrer Infrastruktur nicht betroffen ist.
Wenn Sie es gewohnt sind, ausschließlich mit herkömmlichen Warn- und Überwachungssystemen zu arbeiten, erscheinen Ihnen die Anforderungen auf dieser Liste vielleicht wie Fantasien, aber das sind sie nicht. Jetzt gibt es Vorfallmanagementsoftware, die schnelle Reaktionsabläufe rund um alle Ihre Ereignisdaten genauso effektiv automatisiert, wie eine geskriptete Infrastruktur Ihr Rechenzentrum automatisieren kann. Und um bei Ihrer Arbeit deutlich produktiver und effektiver zu sein, ist jetzt der richtige Zeitpunkt, diese Vorteile zu nutzen.