Der Blog

Eine Standardprozedur für den Fall, dass die Scheiße am Dampfen ist

von Johannes Laban 8. November 2011 | 3 Minuten Lesezeit

Dies ist der dritte in eine Reihe von Beiträgen auf die Steigerung der Gesamtverfügbarkeit Ihres Dienstes oder Systems.

Im erster Beitrag dieser Serie haben wir einige Konzepte der Systemverfügbarkeit definiert und eingeführt, darunter die mittlere Zeit zwischen Ausfällen (MTBF) und die mittlere Zeit bis zur Wiederherstellung (MTTR). In unserem zweiter Beitrag Wir diskutierten dann einfache Möglichkeiten, wie Sie die MTTR effektiv reduzieren können, beginnend mit Jetzt . Dieser Beitrag setzt dieses Thema fort und bietet weitere Tipps zur Reduzierung der MTTR und zur direkten Erhöhung Ihrer Verfügbarkeit.

Haben Sie eine SOP

Für die Wirklich schlimme Probleme, haben Sie eine Standardarbeitsanweisung, die jeder zu befolgen weiß. Die SOP sollte eine Reihe von Schritten sein, die unternommen werden können, um die Arbeit an dem Problem durch verbesserte Kommunikation und Organisation zu erleichtern. Dies unterscheidet sich von den dokumentierten Fehlermodi im Abschnitt „Kennen Sie Ihren Feind“ in mein letzter Beitrag , da eine SOP ein generisches Verfahren ist, das in so ziemlich jedem beliebig schwerwiegendes Ausfallszenario.

Das SOP wäre etwas, auf das Ihr diensthabender Hauptingenieur zurückgreifen kann, wenn eine größere Katastrophe eintritt, die er oder sie nicht innerhalb eines bestimmten Zeitrahmens – beispielsweise 10 Minuten – beheben kann.

Ein Beispiel für eine SOP für Ihren Bereitschaftsdienst könnte sein:

  • Starten Sie eine Telefonkonferenz und laden Sie andere Teammitglieder ein. So stellen Sie sicher, dass alle, die an dem Problem arbeiten, schnell und einfach kommunizieren können und Sie nicht sich gegenseitig auf die Füße treten . Sie könnten eine dedizierte Telefonleitung für die Konferenzbrücke oder etwas so Einfaches wie Skype verwenden. Richten Sie diesen Sprachkanal einfach im Voraus ein, damit Sie nicht die Skype-IDs usw. aller Teilnehmer herausfinden müssen, wenn Sie wirklich unter Zeitdruck stehen.
  • Stellen Sie sicher, dass es einen designierten Anrufleiter gibt oder „ Einsatzleiter „ – ein erfahrener Bereitschaftsdienst-Veteran, der das defekte System nicht unbedingt kennt, aber weiß, wie er andere bei der Fehlerbehebung und Problemlösung anleitet. Dieser Anrufleiter sollte dafür sorgen, dass alle auf dem Laufenden bleiben, sicherstellen, dass nichts vergessen wird, und auftretende Konflikte lösen.
  • Halten Sie eine Reihe von Diagnosen bereit, die der Bereitschaftsleiter so schnell wie möglich starten kann, während der Anruf eingerichtet wird und Personen beitreten. Diese Diagnosen können Dinge wie Überwachungsdaten, relevante Diagramme, verwandte Probleme in anderen Systemen usw. sein und sind sofort nützlich, wenn die Telefonkonferenz beginnt.
  • Bereiten Sie ein Chatsystem vor, mit dem Sie Daten, Links, Codeausschnitte oder alles, was nonverbal geteilt werden muss, teilen können. Einige Ticketsysteme sind hierfür ebenfalls gut geeignet. Hier bei PagerDuty verwenden wir HipChat .
  • Wenn Sie Teil einer großen Organisation sind, sollten Sie eine bestimmte Person bestimmen, die mit den Stakeholdern des Unternehmens, wie z. B. der oberen Führungsebene, kommuniziert. Diese Stakeholder werden verständlicherweise (sehr) daran interessiert sein, dass Sie das Problem so schnell wie möglich beheben, werden aber wahrscheinlich störend wirken, wenn sie direkt an der Telefonkonferenz teilnehmen. Ihr Vizepräsident kennt wahrscheinlich nicht die Feinheiten und Einzelheiten Ihrer Nachrichtenschicht oder Ihres Caching-Systems, kann aber die bereits gestressten Ingenieure in einer Telefonkonferenz definitiv einschüchtern. Diese Personen können jedoch sehr nützlich sein, wenn wichtige Entscheidungen getroffen werden müssen, die andere Aspekte des Geschäfts stören könnten (z. B. indem Sie vorübergehend Aufträge/Anfragen/Geld/Ihr Gesicht/was auch immer verlieren), um das vorliegende Problem zu beheben. Daher ist die Kommunikation mit ihnen wichtig.

Ein SOP für wirklich schwerwiegende Probleme verringert die Variabilität der Reaktions- und Lösungszeiten und bringt alle, einschließlich der Entscheidungsträger, schnell auf den neuesten Stand. Es reduziert auch Stress, Unsicherheit und Verwirrung, wenn es ein ziemlich klares Verfahren gibt, das bei der Bearbeitung großer Probleme befolgt werden muss.