Der Blog

AWS: Betriebszustand und bewährte Methoden

von Ophir Ronen 26. November 2018 | 5 Minuten Lesezeit

Die ITOps-Welt ist ein raues Arbeitsumfeld, in dem von ITOps-Mitarbeitern erwartet wird, dass sie die geschäftlichen Auswirkungen von Vorfällen rund um die Uhr minimieren – unabhängig von den Auswirkungen auf sich selbst oder ihre Familien. Da immer mehr Unternehmen eine digitale Transformation durchlaufen, wird die Anzahl der Alarme und Unterbrechungen, die an die IT-Ersthelfer gehen, weiter zunehmen.

Dieser ständige und wachsende Druck, die Geschäftssysteme rund um die Uhr am Laufen zu halten, führt zu einem höheren Burnout der Einsatzkräfte als je zuvor, was wiederum zu einer höheren Mitarbeiterfluktuation und negativen Auswirkungen auf das Kundenerlebnis führt. Im September 2018 haben wir 85.000 Dienste überprüft, um festzustellen, welche Überwachungssysteme bei jedem Dienst Unterbrechungsbenachrichtigungen (definiert als SMS-, Sprach- und Push-Benachrichtigungen) generieren.

Integrierte AWS-Dienste

Die Ergebnisse? Wir haben festgestellt, dass in AWS integrierte Dienste in den ersten 7 Monaten des Jahres 2018 an jedem Tag einen durchweg höheren Gesundheitswert aufweisen. Im Durchschnitt haben integrierte AWS-Dienste einen höheren täglichen Gesundheitsbewertung um mehr als 3 Punkte, wie unten gezeigt.

Wir haben auch festgestellt, dass Integrierte AWS-Dienste hatte:

  • 45 Prozent weniger Benachrichtigungen pro Tag im Durchschnitt
  • Durchschnittlich 52 Prozent weniger Benachrichtigungen während der Schlafenszeit
  • 60 Prozent weniger Unterbrechungsbenachrichtigungen an Wochenenden
  • Geringerer Anteil täglicher Benachrichtigungen außerhalb der Arbeitszeit und während der Schlafenszeit
  • Geringere Anzahl von Tagen in Zeiträumen (z. B. Woche oder Monat) mit Benachrichtigungen zu arbeitsfreien Tagen und Schlafenszeiten

Was also tut AWS, um weniger Lärm und damit weniger Alarmmüdigkeit zu erzeugen?

Kurze Antwort: Das können wir nicht definitiv beantworten. Wir können nur spekulieren, warum AWS-Benutzer im Vergleich zu Benutzern anderer DevOps-Tools eine überdurchschnittlich gute Gesundheit aufweisen. Beispielsweise könnte es eine allgemeine AWS-Ausfallsicherheit sowohl bei Serviceangeboten als auch bei Instanzen geben oder die automatische Wiederherstellung von EC2-Instanzen und die hohe Verfügbarkeit der meisten AWS-Services ermöglichen eine höhere Betriebseffizienz und erzeugen weniger Warnmeldungen. Was wir jedoch wissen, ist, dass wir auf der Grundlage unserer Daten, die wir in den letzten zehn Jahren bei über 10.500 Kunden gesammelt haben, bewährte Best Practices haben, die Sie implementieren können, um in allen drei Facetten der Betriebsgesundheit messbare Verbesserungen zu erzielen: Mitarbeiter, Effizienz und Reife.

Best Practices für die Betriebsgesundheit

Führen Sie eine Analyse vorübergehender Benachrichtigungen durch
Eine der einfachsten Möglichkeiten zur Verbesserung der Betriebsintegrität besteht darin, eine Analyse vorübergehender Benachrichtigungen durchzuführen. Dabei handelt es sich um Warnmeldungen, die schnell nach ihrer Generierung automatisch geschlossen bzw. aufgelöst werden.

Angenommen, Sie sind ein Bereitschaftsmitarbeiter, der mitten in der Nacht durch eine SMS-Unterbrechungsbenachrichtigung geweckt wurde. Sie bestätigen den Vorfall benommen auf Ihrem Telefon, stehen dann auf und setzen sich an Ihren Laptop, um mit den Abhilfemaßnahmen zu beginnen. Das Managementsystem hat den Vorfall jedoch bereits geschlossen, sodass er nicht mehr relevant ist, da er als geschlossen (gelöst) angezeigt wird. Jetzt sind Sie mürrisch – von einer Bereitschaftswarnung geweckt zu werden, gehört zum Job, aber von etwas geweckt zu werden, das sich bereits von selbst gelöst hat, ist unglaublich frustrierend, insbesondere wenn es mehrmals pro Nacht vorkommt.

Um solche Szenarien zu verhindern, sollten Sie vorübergehende Benachrichtigungsanalysen durchführen, um die Anzahl der Transienten zu ermitteln, die in weniger als zwei Minuten bei jedem Dienst auftreten. Dann fügen wir, abhängig vom Prozentsatz der Transienten, einen Benachrichtigungspuffer von zwei Minuten hinzu, um diese Transienten zu absorbieren, während das vorgelagerte Problem, das sie verursacht, behoben wird. Jeder Vorfall, der über den Zwei-Minuten-Puffer hinaus offen bleibt, wird an den Bereitschaftsdienst gesendet. Das Absorbieren von Transienten auf diese Weise verbessert die Gesundheit Ihrer Teams sowie die allgemeine Effektivität Ihrer Abläufe, indem eine bedeutende Quelle von Fehlalarmen eliminiert wird.

Alarmgruppierung
Der Mensch ist in vielen Dingen gut, doch der Versuch, das Ausmaß eines Vorfalls anhand einer Tabelle mit Warnmeldungen aus unzähligen Quellen zu ermitteln, gehört nicht dazu.

Mit Alarmgruppierung passieren zwei großartige Dinge gleichzeitig:

1) Alarme werden automatisch zugeordnet und zu Vorfällen gruppiert, was im Vergleich zu einer manuellen Vorgehensweise ein viel besseres Situationsbewusstsein ermöglicht, und

2) Der Bereitschaftshelfer erhält eine Unterbrechungsbenachrichtigung für einen Vorfall, der 50 Alarme umfasst, statt 51 separate Benachrichtigungen für 50 Alarme und einen Vorfall.

Service-Taxonomien
Ein ... haben konsistente Taxonomie für Ihre Teams, Zeitpläne, Eskalationsrichtlinien und Dienste ist eine weitere wichtige Best Practice. Warum? Weil richtig benannte Dienste die Reaktionszeit bei Vorfällen um entscheidende Minuten verkürzen können, indem sie dem Antwortenden Kontext darüber geben, was kaputt ist. Dadurch wird es einfacher, Vorfälle zu eskalieren, mehr Fachexperten hinzuzuziehen und, was am wichtigsten ist, die geschäftlichen Auswirkungen von Vorfällen zu verringern.

Was denken Sie über die Betriebsgesundheit?

Bedenken Sie, dass einer der wichtigsten Aspekte zur Verbesserung der Betriebsqualität darin besteht, an kontinuierlichen und messbaren Verbesserungen zu arbeiten. Es gibt zahlreiche weitere bewährte Methoden, mit denen Sie unseren Kunden bei der Verbesserung ihrer Betriebsabläufe helfen können.

Methodik

Um die negativen Auswirkungen des Bereitschaftslebens zu mildern, analysiert PagerDutys Operations Health Management Service (OHMS) die Gesundheit der Organisation aus menschlicher Sicht, indem er die Dienste identifiziert, die eine Verschlechterung der Betriebsgesundheit verursachen, und spezifische, umsetzbare Empfehlungen zur messbaren Verbesserung der Gesundheit liefert. Weitere Informationen zu unserem Operations Health Management Service finden Sie unter kontaktiere uns Heute.