Der Blog

Umfassendere Überwachung für DevOps

von Twain Taylor 18. Juli 2017 | 4 Minuten Lesezeit

Der Punkt von kontinuierliche Integration ist es, Builds und Tests zu automatisieren und Effizienz und Qualität in die Pipeline zu bringen. Bei der schnelleren Entwicklung und den häufigeren Updates, die einen kontinuierlichen Integrationsprozess begleiten, kann es jedoch manchmal zu Problemen kommen.

Wenn größere Vorfälle oder etwas schief geht, herrscht große Panik. Hier kommt das Vorfallmanagement ins Spiel. Aber muss es immer erst dann geschehen, wenn etwas schief geht? Wenn Sie das Vorfallmanagement von Anfang an und in Ihren kontinuierlichen Integrationsprozess integrieren, können Sie Verantwortlichkeit, Sichtbarkeit und Transparenz auf ein ganz neues Niveau heben.

In diesem Beitrag besprechen wir, wie das Vorfallmanagement eine umfassendere Überwachung für DevOps ermöglicht und wie es Ihre Anwendungsentwicklung verändern kann.

Die Verantwortlichkeit beginnt in der Phase der kontinuierlichen Integration

Das Ziel von DevOps ist es, die Zusammenarbeit zwischen Entwicklungs- und Betriebsteams zu erleichtern, damit sie die Bedürfnisse des jeweils anderen verstehen und nicht nur aufeinander zeigen, wenn etwas schief geht. Die Betriebszeit muss nicht immer die Bürde des Betriebsteams sein. Mit DevOps sollte sich sogar ein neuer Entwickler für die Betriebszeit verantwortlich fühlen und in der Lage sein, bei Ausfallzeiten mitzuhelfen.

Einer der großen Vorteile der Implementierung kontinuierlicher Integration besteht darin, dass Entwicklungs- und QA-Teams ebenfalls verantwortlich für den Versandqualitätscode . Jedes Mal, wenn ein neuer Build übermittelt wird, wird er automatisch durch eine Reihe automatisierter Unit-Tests überprüft. Wenn das Incident Management auf dieser Ebene implementiert ist, haben Ihre Teams bei einem Ausfall die richtigen Daten zur Hand, um das Problem effektiv zu lösen. Auf diese Weise können sie schnell und ohne Panik Fehler beheben, ohne jemandem die Schuld geben zu müssen. Das Incident Management fördert automatisch eine Qualitätskultur und macht Entwicklungs- und QA-Teams für die Verfügbarkeit verantwortlich.

Wie bei echten Notfallteams ist es auch gut, einen Ersthelfer oder Bereitschaftstechniker zu haben, der bei einem Vorfall zuerst handelt, bevor jemand mit höherer Verantwortung vor Ort eintrifft. Um diese Kultur der Verantwortlichkeit zu ermöglichen, benötigen Sie Überwachungs- und Bereitschaftsmanagementsysteme, die Überwachungsdaten für alle Teams sichtbar machen und ungeplante Arbeiten auf der Grundlage gerechter Schichten aufteilen.

Transparenz für alle Entwicklungs- und Betriebsteams

Ein guter Überblick darüber, woran das gesamte Team arbeitet und welche Fortschritte erzielt wurden, hilft allen, ihre Bemühungen zu konzentrieren. Viele Unternehmen lassen das Ops-Team nur dann in neue Code-Implementierungen eingebunden werden, wenn etwas schief geht oder ein Zwischenfall auftritt. Infolgedessen wird Ops-Teams manchmal vorgeworfen, Änderungen aus Misstrauen zurückzuhalten, was zu langsameren Updates führt.

Wenn das Entwicklungsteam dem Betriebsteam bereits in der Planungsphase transparent über neue Änderungen informiert, kann es offener für Änderungen sein und verstehen, wie Änderungen dem gesamten Unternehmen zugute kommen. Wenn Sie das Betriebsteam bereits in der Entwicklungsphase über neue Ideen, kommende Funktionen und mögliche Risiken informieren, wirkt sich dies positiv auf das Bewusstsein des gesamten Teams aus. Das Betriebsteam kann sicher sein, dass das gesamte Team immer bereit und vorbereitet ist, selbst wenn etwas schief geht.

Durch die Implementierung des Vorfallmanagements in den frühen Phasen können alle den Zustand der Anwendung besser verstehen und wissen, was sie tun sollten, wenn Probleme auftreten. Alle sind sich des Gesamtbildes bewusst und können Fehler schneller beheben.

Transparenz erfordert einheitliche Kennzahlen

Je besser sich das gesamte Team während einer Krise über die jeweiligen Verantwortlichkeiten der anderen im Klaren ist, desto effektiver kann gearbeitet werden und desto schneller kann sich die Lage wieder normalisieren.

Zu oft verwenden Dev und Ops eine völlig andere Reihe von Metriken und Überwachungstools ohne die Daten in einem zentralen Hub zu vereinen und zu versuchen, Muster, Anomalien und Abhängigkeiten zu verstehen. Ein Auto kann nicht ohne Windschutzscheibe gefahren werden; ebenso ist es entscheidend, Zentralisieren Sie alle Ihre Überwachungsdaten um proaktiv und ganzheitlich jedem einen guten Überblick über das Geschehen zu geben.

Das Sammeln, Korrelieren und Analysieren von Daten aus mehreren Quellen verschafft Entwicklern und dem Betrieb kontinuierliche Einblicke. Diese Daten sind jedoch nur dann wertvoll, wenn sie verwertbar gemacht werden. Mit einer Vorfallmanagementlösung können Sie den richtigen Personen einen Überblick über die Vorgänge geben und ihnen sogar die Möglichkeit geben, sich auf die Dinge zu konzentrieren, die Ihre App möglicherweise irgendwann beschädigen könnten.

Stellen Sie schließlich sicher, dass Ihre Vorfallmanagement-Tools tatsächlich helfen, indem sie Echtzeit-Benachrichtigungen bereitstellen, wenn ein Problem schwelt oder auftritt. Es ist entscheidend, einen Prozess zu definieren, um wie Probleme unterschiedlicher Schwere weitergeleitet werden sollten ; Sie möchten zwar keine Daten wegwerfen, aber Sie möchten auch keine Benachrichtigungen über Eitelkeitsmetriken erhalten, die nicht zur Lösung des vorliegenden Problems beitragen.

Für eine erfolgreiche DevOps-Transformation , kontinuierliche Integration und Incident Management müssen Hand in Hand gehen. Dies wird dem gesamten Team enorme Entlastung verschaffen und viel schnellere Reaktionen auf Ausfallzeiten ermöglichen. Das Incident Management sorgt dafür, dass die DevOps-Engine reibungslos und ohne Ausfälle funktioniert.