Der Blog

Was ist Betriebsreife?

von Sam Lewis 26. Juni 2015 | 4 Minuten Lesezeit

DSC_5897

PagerDuty und DevOps-Vordenker kommen zusammen, um Fragen zur Betriebsreife zu beantworten

Am Mittwochabend veranstaltete PagerDuty eine Veranstaltung, bei der die langjährigen PagerDuty Kunden Dropbox, Flipboard und Splunk über ihre hart erkämpften Erfahrungen sprachen, Kriegsgeschichten erzählten und darüber diskutierten, was sie über Operationen im großen Maßstab gelernt haben. Sie gaben auch Ratschläge, wie das Gelernte auf andere Teams angewendet werden kann. Wir haben uns sehr gefreut, mit Kunden, Partnern und der erweiterten Community darüber zu sprechen, was es bedeutet, betriebsreif zu sein. Hier ist, was über Betriebsreife gesagt wurde:

Was ist Betriebsreife?

Andrew Fong, Infrastrukturmanager bei Dropbox :

Operativ ausgereifte Kulturen sind solche, die in der Lage sind, die Kompromisse zu verstehen, die sie in einer Produktionsumgebung eingehen, und die Auswirkungen, die dies auf das Geschäft hat.

Joey Parsons, Head of Platform & Operations bei Flipboard :

Aus unserer Sicht bedeutet operative Reife, die Auswirkungen von Vorfällen sowohl aus geschäftlicher Sicht als auch aus Sicht des Wohlbefindens der Mitarbeiter zu verstehen. Bereitschaftsdienst kann für die Person, die ihn leistet, sowohl eine lohnende als auch eine negative Erfahrung sein. Es ist entscheidend, über die operativen Tools und Prozesse zu verfügen, um intelligente, fundierte Entscheidungen für Ihr Unternehmen treffen zu können.

Sean Jacobs, Leiter Infrastruktur und Rechenzentrumsbetrieb bei Splunk :

Die operative Reife von Splunk wird häufig an der Effektivität unserer Reaktion während einer Krise gemessen. Als Big-Data-Unternehmen sammeln wir Informationen zu nahezu jedem Aspekt unserer Infrastruktur, aber die Daten zu haben und aussagekräftige Daten zu haben, sind zwei völlig unterschiedliche Herausforderungen.

Tim Armandpour, Vice President of Engineering bei PagerDuty :

Betriebsreife bedeutet, Teil einer testgesteuerten Umgebung zu sein, in der schwerwiegende Vorfälle aufgrund von Fehlern sehr selten und gemessen sind. Es bedeutet auch, Teil einer Organisation zu sein, in der jedes Team Teil eines Bereitschaftsrotationsplans ist und dasselbe Vorfallmanagementsystem und dieselbe Methodik für maximale Transparenz und Zusammenarbeit verwendet. In einem betrieblich reifen Unternehmen gelten Zuverlässigkeit und Verantwortlichkeit als Schlüsselfaktoren für ein erfolgreiches Geschäft. Je reifer Sie sind, desto einfacher ist es für Ihr Unternehmen, flexibel zu sein und sich schnell an den Markt anzupassen und zu verändern.

Was tun Sie, das Ihre betriebliche Reife steigert?

Andrew Fong, Infrastrukturmanager bei Dropbox :

Unser SEV-Prozess (Incident Response) bei Dropbox war früher Ad-hoc-Prozess und hatte außer den leitenden Ingenieuren keine klaren Verantwortlichen. Im letzten Jahr haben wir einen Prozess entwickelt, der einen klaren Verantwortlichen für Koordination und Lösung identifiziert. Wir haben klar definierte Kriterien und Werkzeuge entwickelt, damit wir über 350 Ingenieure sowie Produktmanagement, Kommunikation und Rechtsabteilung unterstützen können. Bei Dropbox können Vorfälle außerdem sowohl Backend-Server-Probleme als auch Client-Probleme sein. (Wir haben Desktop-Software!) Wir mussten also einen Prozess entwickeln, der für alle funktioniert.

Joey Parsons, Head of Platform & Operations bei Flipboard :

Die Weiterentwicklung unserer Bereitschafts- und Eskalationsrichtlinien hat viel mit der Entwicklung unserer Bereitschafts- und Eskalationsrichtlinien zu tun. Die Überwachung ist nie abgeschlossen und muss sowohl für die Geschäftsqualität als auch für die Lebensqualität kontinuierlich überarbeitet werden. Eine schlechte Alarmierung führt sehr schnell zu Unzufriedenheit bei den Mitarbeitern.

Sean Jacobs, Leiter Infrastruktur und Rechenzentrumsbetrieb bei Splunk :

Wir investieren viel Mühe, um unsere Warn- und Überwachungsfunktionen nützlich zu gestalten und nicht nur einen pauschalen Überwachungsansatz zu verfolgen. Darüber hinaus legen wir großen Wert auf Rückblicke und rückwirkende Überprüfungen, damit wir iterieren und uns verbessern können, anstatt jede Woche auf dieselben Probleme reagieren zu müssen.

Tim Armandpour, Vice President of Engineering bei PagerDuty :

Jeden Freitag bei PagerDuty ist Misserfolg am Freitag , bei dem unsere Techniker absichtlich Dienste offline nehmen und versuchen, unser System zu beschädigen, um sicherzustellen, dass alle unsere Sicherheitsvorkehrungen funktionieren. Wir nehmen Zuverlässigkeit hier sehr ernst und haben drei aktive Rechenzentren, sodass wir online bleiben, selbst wenn eines davon ausfällt. Wir haben auch eine robuste Richtlinie für das Vorfallmanagement und haben nicht umsetzbare Warnungen soweit eliminiert, dass unsere diensthabenden Techniker höchstens ein paar Warnungen pro Monat erhalten.

Outage communication best practices eBook