- PagerDuty /
- Der Blog /
- Best Practices und Einblicke /
- Neuer Ops-Leitfaden: Best Practices für Bereitschaftsteams
Der Blog
Neuer Ops-Leitfaden: Best Practices für Bereitschaftsteams
Die Erwartungen an digitale Dienste, dass sie immer erreichbar und ständig verfügbar sein müssen, haben die Anforderungen an technische Teams erhöht, rund um die Uhr einsatzbereit zu sein. Für Teams, die mit diesem Konzept noch nicht vertraut sind, kann die Einführung der Rufbereitschaft stressig und komplex sein. Als Teil der Hauptplattform von PagerDuty ist die Rufbereitschaftsverwaltung der Schlüssel zu unserem Geschäft, aber auch die nichttechnischen Aspekte sind für Teams wichtig und müssen berücksichtigt werden.
Wir haben eine Reihe der zahlreichen Ressourcen von PagerDuty in einem zusammenhängenden Leitfaden zusammengefasst, der Ihnen dabei hilft, sich in den trüben Gewässern der Bereitschaft mit Teams zurechtzufinden, die noch nie zuvor auf Abruf waren. Hoffentlich sind Sie vertraut mit unserem Ops-Anleitungen , aber wenn nicht, ist dies ein guter Ausgangspunkt!
Stellen Sie fest, warum Sie ein Bereitschaftsprogramm benötigen
Wenn Ihr Team noch nie an einem vorgeschriebenen Bereitschaftsdienst teilgenommen hat, ist es wichtig, zu klären, warum das Team die Bereitschaftsaufgaben übernehmen soll. Es kann viele Gründe geben, warum es für Ihre Organisation sinnvoll ist, mehr Teams für den Bereitschaftsdienst einzusetzen.
Wenn Ihr Team bisher auf ein Network Operations Center (NOC) oder andere externe Ersthelfer angewiesen war, kann eine hohe Anzahl von Eskalationen und/oder ungelösten Alarmen ein Indiz dafür sein, dass Sie einen robusteren Bereitschaftsplan implementieren müssen. Wenn Ihr NOC einen Alarm nicht lösen kann und ihn dann an ein Team ohne vorgeschriebene Bereitschaftsrotation eskalieren muss, können die durch diese Übergabe verursachten Verzögerungen die Wiederherstellungszeiten verlängern. Denken Sie daran, dass jede Übergabe, die bei der Lösung eines Vorfalls stattfindet, wertvolle Zeit kostet. Und jeder neue Helfer, der dem Vorfall hinzugefügt wird, braucht Zeit, um Informationen und Kontext zum Vorfall zu sammeln.
Verzögerungen und Verwirrungen können auch dann auftreten, wenn sich Anwendungsentwicklungsteams für ihre Produktionsumgebungen auf separate Betriebsteams verlassen. Ähnlich wie im NOC-Beispiel müssen die Mitarbeiter des Betriebsteams bei Fehlern und Vorfällen im Zusammenhang mit dem Anwendungscode letztendlich Zeit damit verbringen, jemanden im Entwicklungsteam zu finden, der ihnen bei der Lösung der Probleme helfen kann.
Die Aufgabentrennung bei Vorfällen kann auch zu einer Verzögerung führen, bis Probleme im Anwendungscode dauerhaft behoben werden. Niemand möchte immer wieder auf denselben Fehler reagieren, weil er in der Anwendung nicht dauerhaft behoben wurde. Das Hinzufügen einer Karte zum Backlog, um einen Fehler zu beheben, behebt das Problem nicht wirklich; die Korrektur muss priorisiert und bearbeitet werden. Wenn sich der ROI für die Durchführung einer Korrektur nicht lohnt, ist eine Dokumentation für die nächsten Mitarbeiter, wie damit umzugehen ist, die nächstbeste Option.
Möglicherweise arbeiten Sie also in einem Unternehmen, in dem von Anwendungsentwicklern erwartet wird, dass sie sich stärker im Bereitschaftsdienst für ihre Anwendungen engagieren, um die Zeit zur Lösung eines Problems und zur Entwicklung einer dauerhaften Lösung zu verkürzen.
Ängste lindern
Eine der größten Herausforderungen für Teams, die eine neue Bereitschaftsverantwortung übernehmen, ist der Ruf, dass Bereitschaftsdienste das Leben der Helfer auf sehr nachteilige Weise stören. Niemand möchte Familienereignisse, Feiertage und Schlaf verpassen.
Um Ihrem Team ein besseres Bereitschaftserlebnis zu bieten, sind gute technische und kulturelle Praktiken erforderlich. Ihr Team wird störende Warnmeldungen beseitigen wollen, sei es durch die dauerhafte Behebung der Probleme, die Schaffung Automatisierung um allgemeine Probleme zu behandeln oder Warnmeldungen mit minimaler Auswirkung auf den Benutzer herabzustufen.
Wenn ein Alarm möglicherweise jemanden um 2 Uhr morgens weckt, sollte es sich lohnen!
Sie sollten auch Richtlinien für Ihr Team festlegen, damit es Schichten tauschen und sich gegenseitig vertreten kann, wenn etwas dazwischenkommt. Das Leben geht weiter und man kann nicht immer alles planen. Machen Sie es Ihrem Team also leicht, Schichten zu verschieben, wenn es nötig ist.
Verwenden Sie Ihre Werkzeuge
Die PagerDuty -Plattform verfügt über eine Reihe nützlicher Tools, mit denen Sie sicherstellen können, dass Ihr Team einsatzbereit ist. Eines dieser Tools ist das Bereitschaftsberichte .
Mithilfe dieser Berichte bleibt Ihr Team mit PagerDuty so verbunden, wie Sie es möchten.
Die Optionen im Bereitschaftsbericht hängen von den Anforderungen ab, die Sie für Ihr Team festgelegt haben, und zeigen Ihnen, welche Teammitglieder ihre Konten entsprechend konfiguriert haben. Sie können mit Ihrem Team entscheiden, welche Benachrichtigungsmethoden für die von Ihnen unterstützten Dienste am besten geeignet sind. Für Aufgaben mit niedriger Priorität können Sie „Telefon muss enthalten“ wählen. Für Teams, die wichtige kundenorientierte Dienste verwalten, möchten Sie vielleicht eher etwas wie „Verpassen Sie keine Seite“ und ermutigen Sie Ihr Team, seine Konten mit E-Mail-, Telefon-, SMS- und Push-Benachrichtigungen aus der mobilen PagerDuty -App einzurichten.
Teile deine Gedanken
Wir hoffen, Sie geben die neuer Ops-Leitfaden lesen! Dann besuchen Sie uns im Community-Foren um uns mitzuteilen, was Sie denken und ob wir etwas übersehen haben. Wenn Sie außerdem irgendwelche „Must-have“-Elemente für unsere Bereitschaftscheckliste haben, teilen Sie uns dies in diesem Faden . Wir sammeln die Antworten und fügen dem Leitfaden eine herunterladbare Checkliste hinzu.