Bereitschaftsrotationen und -pläne

So wie Ärzte rund um die Uhr Bereitschaftsdienst leisten, um Notfallpatienten zu unterstützen, beauftragen IT-Organisationen spezielle Gruppen von Techniker mit Bereitschaftsdienst um Probleme bei Softwarediensten zu beheben, sobald diese auftreten. Diese Ingenieure werden in einen Bereitschaftsdienst eingeteilt, bei dem die geplante Schichtarbeit auf alle Teammitglieder verteilt wird, die für die Aufrechterhaltung der Softwareverfügbarkeit verantwortlich sind.

Sollte während der Schicht etwas ausfallen, wird der Bereitschaftstechniker per Paging benachrichtigt (per Smartphone-Push-Benachrichtigung, Anruf, SMS, E-Mail oder bei älteren Unternehmen sogar per Blackberry oder Pager, der herumgereicht wird). Der Bereitschaftstechniker ist dafür verantwortlich, umgehend Maßnahmen zu ergreifen und das Problem schnellstmöglich zu beheben oder es zu eskalieren, wenn er es nicht beheben kann. Da er während der gesamten Schicht für die Fehlerbehebung verfügbar sein muss, ist die Rotation der Bereitschaftsaufgaben zwischen mehreren Personen oder Teams wichtig, um die Probleme zu bewältigen. Alarmmüdigkeit und die Work-Life-Balance zu wahren.

Die Praxis der Bereitschaftsrotation ist typischerweise der erste Schritt einer Organisation zur Verpflichtung Zuverlässigkeit für Kunden und Nutzer. Bereitschaftstechniker sind die erste Verteidigungslinie, um sicherzustellen, dass Ausfälle, die sich auf die Kunden auswirken, schnell erkannt und von einem Teammitglied behoben werden. Deshalb ist die Implementierung eines solchen Prozesses entscheidend, um eine 24/7-Abdeckung für die Problembehebung zu gewährleisten. Und durch die Verknüpfung einer Timeout-Schwelle mit jeder Stufe einer Eskalationsrichtlinie (d. h. der Vorfall muss innerhalb von 30 Minuten Bevor es automatisch an die nächste Verteidigungslinie weitergeleitet wird), können Unternehmen sicherstellen, dass sich im Problemfall schnell jemand darum kümmert. Sie können ihre SLAs besser einhalten, anstatt bei einem kundenrelevanten Problem kollektiv einzuschlafen, weil die richtigen Informationen nicht schnell an die richtige Person weitergeleitet wurden.

Erstellen eines effektiven Bereitschaftsplans

Manche Organisationen nutzen Wiki-Seiten oder Tabellenkalkulationen manuell, um Bereitschaftspläne zu verwalten. Änderungen werden jedoch oft nicht in Echtzeit umgesetzt, und es kann schnell schwierig werden, die richtigen Ansprechpartner für Probleme zu gewinnen, wenn beispielsweise Kontaktinformationen veraltet sind oder die Zeitzonenberechnung falsch ist. Gleichzeitig stellen Organisationen fest, dass jede Minute Ausfallzeit Tausende von Dollar kosten und den Ruf ihrer Marke irreversibel schädigen kann. Das mühsame Suchen und Benachrichtigen des richtigen Bereitschaftstechnikers in Wiki-Seiten oder statischen Tabellenkalkulationen wird schnell zu einer sehr kostspieligen Methode zur Verwaltung von Bereitschaftsinformationen.

 Example of a On Call Rotation Schedule using PagerDuty

Bewährte Methoden für die Bereitschaftsrotation, die Sie beachten sollten

Hier sind einige Schritte, die Sie unternehmen können, um Bereitschaftsrotationen, die den Anforderungen Ihres Teams entsprechen, effektiv zu erstellen und zu verwalten:

Erwägen Sie Software zur Automatisierung

Eine Software zur Bereitschaftsplanung kann eine wertvolle Investition für Ihr Team sein. Sie spart Zeit und minimiert den manuellen Aufwand, indem sie Benachrichtigungen automatisch über die bevorzugten Kontaktmethoden der Techniker basierend auf vordefinierten Zeitplänen weiterleitet. Dadurch entfallen mehrere Schritte, um die richtigen Informationen an den richtigen Experten weiterzuleiten, wenn jede Minute zählt.

Teams einrichten

Definieren Sie die Teams von Personen, die für jeden Dienst Bereitschaftsaufgaben übernehmen. Stellen Sie sicher, dass Sie sowohl Dienst- als auch Überwachung auf Serverebene und Dashboards für Teams zum Verständnis Systemleistung und -zustand . Tritt ein Problem auf, sollte es an den Bereitschaftstechniker des entsprechenden Teams weitergeleitet werden, das den jeweiligen Service betreut. Der Bereitschaftstechniker sollte außerdem in der Lage sein, bei Bedarf sofort weitere Teammitglieder zur Unterstützung hinzuzuziehen. Zusammenarbeit bei der Problemlösung mit einem Tool zur Zusammenarbeit, beispielsweise Konferenz oder Chat.

Definieren Sie Eskalationsrichtlinien

Legen Sie fest, wer in den jeweiligen Verteidigungslinien vertreten sein soll und welche Maßnahmen im Falle eines Vorfalls ergriffen werden müssen. Beispielsweise könnte die erste Verteidigungsebene der Softwareentwickler sein, der den Code geschrieben hat, während die zweite Ebene aus jemandem aus dem Betriebsteam besteht, der die zugrunde liegende Netzwerk- und Hardwareinfrastruktur besser versteht – oder umgekehrt.

Legen Sie Zeitlimits fest

Wenn Sie mit Ihren Kunden oder Endbenutzern ein Verfügbarkeits-SLA vereinbart haben, ist es wichtig, Zeitlimits zu definieren. Auf diese Weise wird das Problem automatisch eskaliert, wenn der Ersthelfer nicht innerhalb des Zeitrahmens reagiert, und bleibt nicht unbemerkt.

Einfaches Überschreiben aktivieren

Stellen Sie sicher, dass die Mitarbeiter den Dienstplan problemlos bearbeiten können, um bei Bedarf Schichtwechsel zu ermöglichen, falls ein unerwartetes Ereignis eintritt, beispielsweise ein Termin oder ein bezahlter Urlaub.

24×7-Abdeckung

Planen Sie die Schichten lückenlos ein und sorgen Sie für eine lückenlose Besetzung unter korrekter Berücksichtigung der Zeitzonen.

Transparenz und Kommunikation

Jeder sollte über Änderungen im Zeitplan informiert und auf dem Laufenden gehalten werden, damit niemand unvorbereitet ist oder sein Wochenende aufgrund einer nicht mitgeteilten kurzfristigen Änderung unwissentlich ruiniert wird.

Beachten Sie die Bereitschaftszeiten

Im Hinblick auf Transparenz und Kommunikation sollten Mitarbeiter frühzeitig wissen, wann sie Bereitschaftsdienst haben und wann sie frei haben. So verpassen sie keine Schicht und können ihre Aktivitäten entsprechend planen. Mit Bereitschaftsschichten ist dies ganz einfach möglich.

Vorteile eines effektiven Bereitschaftsdienstes

Es gibt mehrere Vorteile, die die Einrichtung eines effektiven Bereitschaftsdienstes zu einer äußerst lohnenden Investition machen:

  • Verbesserte Transparenz und Verantwortlichkeit des Teams bei der Bearbeitung von Problemen
  • Bessere Servicezuverlässigkeit durch schnelles Reagieren auf und Beheben von Warnmeldungen
  • Zufriedenere Kunden, die Kontakt zum Bereitschaftspersonal für dringende Probleme jederzeit oder seien Sie versichert, dass Probleme immer schnell behoben werden
  • Weniger Zeitverlust durch den Einsatz von Bereitschaftspersonal bei Problemen

Insgesamt führt dies zu kürzeren Serviceunterbrechungen, weniger Umsatz- und Kundenverlusten und einem besseren Markenruf.

Wer hat Bereitschaftsdienst?

Traditionell wurden die Aufgaben der Bereitschaftsdienste an Systemadministratoren oder Betriebsingenieure (einschließlich Helpdesk und NOC) delegiert. Entwicklungsteams waren in erster Linie für die Konzeption, Entwicklung und Bereitstellung neuer Dienste und Funktionen verantwortlich. Anschließend leiteten sie den Code an die Betriebsteams weiter, die ihn debuggten, ausführten, bedienten und warteten.

Dieser isolierte Prozess brachte jedoch erhebliche Herausforderungen hinsichtlich Verantwortlichkeit, funktionsübergreifender Abstimmung, Skalierbarkeit und Zuverlässigkeit mit sich. Entwickler fühlten sich weniger für die Kundenzufriedenheit verantwortlich und lieferten, da sie keine Erfahrung mit Produktionsworkloads hatten, eher nicht performanten Code, der nicht vollständig skalierbar war oder eine hohe Betriebslast verursachte. Betriebsingenieure brauchten oft länger, um fehlerhaften Code zu reparieren, der von jemand anderem geschrieben wurde, und mussten die Probleme manchmal trotzdem an den Entwickler weiterleiten.

Während die meisten Betriebsabläufe in Unternehmen bisher weitgehend zentralisiert waren, beginnen viele Organisationen nun, die operativen Verantwortlichkeiten zu verteilen, um die Leistung von Diensten und Anwendungen zu verbessern, anstatt monolithische Systeme zu betreiben. Zunehmend Entwickler gehen für ihren eigenen Code auf Abruf , das den Feedbackkreislauf schließt, indem es die Zusammenarbeit zwischen Entwicklung und Betrieb fördert, um proaktiv widerstandsfähigere, produktionsreife Dienste zu erstellen. Außerdem sind neue Rollen entstanden, wie etwa DevOps Engineer und Site Reliability Engineer. Diese Rollen konzentrieren sich oft auf schnellere und sicherere Releases, Verbesserung der Zuverlässigkeit durch Automatisierung und Verbesserung des Software-Lebenszyklus durch die Entwicklung interner Tools, die die manuelle, menschliche Arbeit automatisieren, die typischerweise im Betrieb anfällt (Triage, Änderungsmanagement, Überwachung usw.). Da mehr Gruppen innerhalb einer Organisation betriebliche Verantwortung übernehmen (im Gegensatz zum NOC, das alle Probleme triagiert und versucht, sie an die richtigen Leute weiterzuleiten), können sich funktionsübergreifende Teams in der Regel auf höherwertige Kennzahlen zur Kundenerfahrung konzentrieren und gemeinsam an deren Verbesserung arbeiten.

Welche Bereitschaftsrotationspläne unterstützt PagerDuty ?

PagerDuty unterstützt jede Art von benutzerdefiniertem Bereitschaftsrotationstyp, einschließlich Bereitschaftsunterstützung außerhalb der Geschäftszeiten, Follow-the-Sun, täglich, wöchentlich, Rundenturnier oder geteilte Schichtrotationen. Wir ermöglichen Ihnen die Erstellung mehrerer Planungsebenen (eine Gruppe von Personen, die ihre Bereitschaftsaufgaben in derselben Schicht abwechselnd wahrnehmen) innerhalb eines einzigen Zeitplans. Im Folgenden haben wir einige gängige Konfigurationen hervorgehoben und Vorlagen für Bereitschaftspläne aus unserer Support-Wissensdatenbank.

  • Erste Schritte Lernen Sie die Grundlagen von So erstellen Sie einen Bereitschaftsplan , einschließlich der Anleitung zum Hinzufügen von Benutzern, Definieren von Rotationsfrequenzen und Tageszeitbeschränkungen und mehr.
  • Komplexe unregelmäßige Zeitpläne – Dieser Zeitplan ist für Teams gedacht, die abwechselnd Schichten einteilen, die eine Woche lang dauern und dann einige Wochen frei haben.
  • Komplexer Zeitplan für 2 Benutzer im 2-Tages-Rhythmus mit separaten Wochenenden – Dieses Beispiel zeigt einen komplexen Zeitplan für zwei Benutzer, die im Zwei-Tages-Rhythmus arbeiten. Samstags und sonntags ist der Bereitschaftsbenutzer jedoch 24 Stunden lang in Bereitschaft.
  • Komplexer Zeitplan mit Einschränkungen Mit PagerDuty können Sie komplexe Dienstpläne erstellen, bei denen Benutzer die Frühschicht, den Vormittag, den Abend, das Wochenende und andere Schichten für jeweils unterschiedliche Stundenzahlen abwechseln. Klicken Sie auf den Link für ein Beispiel.
  • Komplexe geteilte Schichtrotation – Dieses Beispiel zeigt Ihnen, wie Sie eine Rotation mit zeitlicher Beschränkung erstellen, bei der jede Schicht auf mehrere Benutzer aufgeteilt wird.
  • Erstellen von primären und sekundären Bereitschaftsplänen – Durch die Erstellung primärer und sekundärer Bereitschaftspläne entstehen mehrere Verteidigungslinien, falls der primäre Bereitschaftstechniker eine Benachrichtigung verpasst. Sie können mehrere Pläne als progressive Stufen einer Eskalationsrichtlinie hinzufügen, um sicherzustellen, dass ein Ersatzbenutzer auf einen Vorfall reagiert.
  • Follow-the-Sun-Zeitplan – Der Follow-the-Sun-Zeitplan wird von Teams verwendet, die international in verschiedenen Zeitzonen arbeiten, und gewährleistet eine vollständige Abdeckung rund um die Uhr.
  • Umgekehrte Zeitpläne für eine Eskalationsrichtlinie – Wenn Sie zwei oder mehr Benutzer haben, die abwechselnd primäre und sekundäre Bereitschaftsschichten übernehmen, sollten Sie zwei Bereitschaftspläne erstellen und jeden dieser Pläne einer separaten Ebene einer Eskalationsrichtlinie hinzufügen.
  • Planen Sie die Bereitschaft der Benutzer alle zwei Wochen ein – Sie können in Ihrem Zeitplan mehrere Ebenen erstellen, um mehreren Benutzern gerecht zu werden, die jede zweite Woche wechseln (z. B. zwei Bereitschaftstechniker, die die Wochentage abdecken, und zwei, die die Wochenenden abdecken, die wöchentlich wechseln).
  • Ständiger Bereitschaftsexperte – Sie können eine zusätzliche Ebene erstellen, um bestimmte Arten von Problemen immer an bestimmte Experten weiterzuleiten (z. B. einen DBA, Netzwerkarchitekten usw.).

Kontakt support@pagerduty.com Wenn Sie Fragen haben, kontaktieren Sie uns gerne. Wir unterstützen Sie gerne bei der individuellen Terminplanung und richten optimale Bereitschaftspläne für Entwickler, NOC-Teams, Support-Teams, Sicherheitsteams und mehr ein.

So holen Sie das Beste aus der Bereitschaftsplanung heraus

PagerDuty rationalisiert Bereitschaftsmanagement Für jede Art von Rotation oder Team. Unsere Bereitschaftsplanung umfasst vereinfachte Bearbeitung, SSO-Integration, automatisierte Eskalationen und vieles mehr. Testen Sie es jetzt selbst mit einem 14 Tage kostenlos testen .

Wir hoffen, dass diese Ressourcen es Ihnen ermöglichen, Ihren Bereitschaftsrotationsprozess zu formalisieren, um Ihrem Team die Reaktion auf Probleme so einfach wie möglich zu machen.