Der Blog

Mühe: Immer noch ein Problem für Ingenieurteams

von Damon Edwards 6. Dezember 2022 | 6 min Lesezeit

Dieses Blog ist ein Update eines beliebten Blogs von Damon Edwards.

In unserer Branche gab es schon immer lokale Bezeichnungen für Arbeiten, die zwar notwendig waren, das Unternehmen aber nicht weiterbrachten. Die SRE-Bewegung nennt diese Art von Arbeit „mühevolle Arbeit“.

Das Konzept der Mühe hat eine verbindende Kraft, denn es bietet einen unparteiischen Rahmen für die Identifizierung – und anschließende Eindämmung – der Arbeit, die unsere Zeit in Anspruch nimmt, die Menschen daran hindert, ihr technisches Potenzial zu entfalten und das Unternehmen nicht voranbringt.

Warum harte Arbeit wichtig ist

Leider ist „nicht genug Zeit und zu viel zu tun“ die Standardarbeitslage in Betriebsorganisationen. Es gibt eine unbegrenzte Menge an geplanter und ungeplanter Arbeit – neue Dinge müssen eingeführt werden, Vorfälle müssen bewältigt werden, Supportanfragen müssen beantwortet werden, technische Schulden müssen abgebaut werden, und die Liste geht noch weiter.

Wie stellen Sie bei einer begrenzten Anzahl von Stunden am Tag sicher, dass das, woran Sie arbeiten, tatsächlich einen Unterschied macht?

Wie stellen Sie sicher, dass Ihr Team und Ihre Organisation insgesamt die wertschöpfenden Arbeiten maximieren und Wege finden, um Arbeiten zu vermeiden, die keinen Mehrwert bieten? Schließlich bestimmen Organisations- und Teamentscheidungen den Großteil Ihrer Arbeit.

Um sowohl den Wert Ihrer Engineering-Organisation als auch das menschliche Potenzial Ihrer Kollegen zu maximieren, benötigen Sie einen objektiven Rahmen, um die „falsche“ Art von Arbeit zu identifizieren und einzudämmen und die „richtige“ Art von Arbeit zu maximieren. Zu verstehen, was harte Arbeit ist – und die Menge an harter Arbeit einzudämmen – bietet Ihrem Unternehmen wirtschaftliche Vorteile und verbessert die Arbeitswelt Ihrer Kollegen.

Was ist die Definition von Mühe?

Der Begriff „Toil“ und die SRE-Bewegung wurden erstmals von Google populär gemacht und seitdem auch auf den IT-Betrieb ausgeweitet.

Kurz gesagt geht es bei SRE darum, Software-Engineering-Praktiken – und eine neue Denkweise – in den IT-Betrieb einzubringen, um hochzuverlässige und hochskalierbare Systeme zu schaffen. Das Interesse am Thema SRE ist sprunghaft gestiegen, seit Google seine Buch „Site Reliability Engineering“ .

Vivek Rau formuliert in seinem Buch eine hervorragende Definition: „Mühe ist die Art von Arbeit, die mit dem Betrieb eines Produktionsdienstes verbunden ist. Sie ist tendenziell manuell, repetitiv, automatisierbar, taktisch, hat keinen bleibenden Wert und wächst linear mit dem Wachstum des Dienstes.“

Je mehr dieser Attribute eine Aufgabe hat, desto sicherer können Sie die Arbeit als „mühevolle Arbeit“ einstufen. Nur weil Arbeit als mühevolle Arbeit eingestuft wird, heißt das jedoch nicht, dass die Aufgabe leichtfertig oder unnötig ist. Im Gegenteil, die meisten Organisationen würden zum Stillstand kommen, wenn die mühevolle Arbeit nicht erledigt würde.

Das Ziel „keine Mühe“ klingt in der Theorie gut. In der Realität ist ein solches Ziel in einem Unternehmen jedoch nicht erreichbar. Technologieunternehmen sind immer im Wandel und neue Entwicklungen (erwartet oder unerwartet) verursachen fast immer Mühe. Nur weil eine Aufgabe notwendig ist, um einem Kunden einen Mehrwert zu bieten, bedeutet das nicht, dass es sich immer um wertschöpfende Arbeit handelt. Mühe mag manchmal notwendig sein, aber sie schafft keinen dauerhaften Mehrwert (d. h. keine Änderung der Wertwahrnehmung der Kunden). Langfristig sollten wir die Notwendigkeit der Mühe beseitigen wollen.

Das Beste, worauf wir hoffen können, ist, den Aufwand effektiv zu reduzieren und ihn unternehmensweit auf einem überschaubaren Niveau zu halten. Der Aufwand wird von Quellen ausgehen, die Sie bereits kennen, für deren Automatisierung Ihnen aber einfach die Zeit oder das Budget fehlten (z. B. halbmanuelle Bereitstellungen, Schemaaktualisierungen/-rollbacks, Änderung von Speicherkontingenten, Netzwerkänderungen, Benutzerhinzufügungen, Kapazitätserweiterungen, DNS-Änderungen, Service-Failover). Der Aufwand wird auch von einer Reihe unvorhergesehener Bedingungen ausgehen, die Vorfälle verursachen können, die manuelle Eingriffe erfordern (z. B. Neustarts, Diagnosen, Leistungsprüfungen, Änderung von Konfigurationseinstellungen).

Was sollten die Leute tun, statt zu schuften?

Sie möchten, dass Ingenieure ihre Zeit nicht mit nicht wertschöpfender Arbeit verschwenden, sondern möglichst viel Zeit mit wertschöpfender Ingenieursarbeit verbringen.

Auch wenn man Vivek Raus hilfreiche Definitionen heranzieht, kann Ingenieursarbeit als kreative und innovative Arbeit definiert werden, die menschliches Urteilsvermögen erfordert, einen bleibenden Wert hat und von anderen genutzt werden kann.

Table of what constitutes "toil" and "engineering work"

In einem Unternehmen zu arbeiten, in dem Ingenieursarbeit und harte Arbeit sehr viel Arbeit erfordern, fühlt sich an, als ob jeder einem Ziel entgegenschwimmt. In einem Unternehmen zu arbeiten, in dem Ingenieursarbeit und harte Arbeit sehr wenig erfordern, fühlt sich im besten Fall eher so an, als ob man auf der Stelle tritt oder im schlimmsten Fall untergeht.

Hoher Arbeitsaufwand ist giftig

In kleinem Maßstab mag harte Arbeit harmlos erscheinen. Wenn sie jedoch unkontrolliert bleibt, kann sie sich schnell zu einem Ausmaß anhäufen, das sowohl für den Einzelnen als auch für die Organisation schädlich ist.

Image of skull and cross bones with the word "toil"

Für den Einzelnen führt ein hoher Arbeitsaufwand zu:

  • Unzufriedenheit und fehlende Erfolgserlebnisse
  • Ausbrennen
  • Mehr Fehler, die zu zeitaufwändiger Nacharbeit führen
  • Keine Zeit, neue Fähigkeiten zu erlernen
  • Karrierestagnation (beeinträchtigt durch fehlende Möglichkeiten, wertschöpfende Projekte durchzuführen)

Ein hoher Arbeitsaufwand führt für die Organisation zu:

  • Engpässe bei der Teamkapazität
  • Überhöhte Kosten für den Betriebssupport
  • Unfähigkeit, bei strategischen Initiativen Fortschritte zu erzielen (das „Jeder ist beschäftigt, aber nichts wird erledigt“-Syndrom)
  • Unfähigkeit, Spitzenkräfte zu halten (und Spitzenkräfte zu gewinnen, sobald sich herumgesprochen hat, wie die Organisation funktioniert)

Einer der gefährlichsten Aspekte der Schwerstarbeit besteht darin, dass ihre Beseitigung ingenieurstechnischer Arbeit bedarf.

Um den Arbeitsaufwand zu reduzieren, ist Entwicklungszeit erforderlich, um entweder eine unterstützende Automatisierung zu entwickeln, die manuelle Eingriffe überflüssig macht, oder um das System so zu verbessern, dass Eingriffe von vornherein nicht mehr nötig sind.

Bei den technischen Arbeiten, die zur Reduzierung des Arbeitsaufwands erforderlich sind, handelt es sich in der Regel um die Wahl zwischen der Erstellung externer Automatisierung (d. h. Skripts und Automatisierungstools außerhalb des Dienstes), der Erstellung interner Automatisierung (d. h. Automatisierung, die als Teil des Dienstes bereitgestellt wird) oder der Erweiterung des Dienstes, sodass kein Wartungseingriff erforderlich ist.

Mühe verschlingt die Zeit, die für die technische Arbeit benötigt wird, die zukünftige Mühe verhindert. Wenn Sie nicht aufpassen, kann der Grad der Mühe in einer Organisation bis zu einem Punkt ansteigen, an dem die Organisation nicht mehr über die nötigen Kapazitäten verfügt, um sie zu stoppen. Wenn wir die Metapher der technischen Schulden verwenden, wäre dies ein „technischer Bankrott“.

Visual illustration of toil at manageable percentage of capacity vs. unmanageable percentage of capacity

Das SRE-Arbeitsmodell – und alle damit verbundenen Vorteile – hängen davon ab, dass die Teams über ausreichend Kapazitäten für die technische Arbeit verfügen. Diese Kapazitätsanforderung ist der Grund, warum harte Arbeit ein so zentrales Konzept für SRE ist. Wenn harte Arbeit die Kapazität für die technische Arbeit auffrisst, funktioniert das SRE-Modell nicht. Ein SRE, der ständig unter harter Arbeit begraben ist, ist kein SRE, sondern nur ein traditioneller, leidgeprüfter Systemadministrator mit einem neuen Titel.

Warum PagerDuty sich um harte Arbeit kümmert

Eines unserer Hauptziele ist es, die Arbeit von Betriebsfachleuten zu verbessern. Genau das erreichen wir, indem wir die Mühen reduzieren und die Entwicklungszeit maximieren.

Unsere Benutzer haben uns oft gezeigt, wie sie PagerDuty Process Automation und Rundeck zur Reduzierung der Arbeitsbelastung einsetzen.

Zu den Vorteilen gehören:

  • Reduzierung von Abweichungen und Fehlern, um den Arbeitsaufwand durch Standardisierung der Verfahren zu verringern.
  • Erleichtert die Ausführung technischer Arbeiten und reduziert den Arbeitsaufwand durch die Automatisierung von Aufgaben, die früher viel Mühe erforderten.
  • Verhindern Sie, dass ein Team einem anderen Team schwere Arbeit macht, indem Sie Selfservice ermöglichen und es anderen erlauben, Betriebsaufgaben selbst auszuführen.

Kontaktiere uns um mehr über PagerDuty Runbook Automation zu erfahren.