- PagerDuty /
- Der Blog /
- Gemeinschaft /
- So verwalten Sie einen Tier-Zero-Dienst
Der Blog
So verwalten Sie einen Tier-Zero-Dienst
In einem kürzlich erschienenen Blogbeitrag Die Verwaltung eines Tier-Zero-Dienstes muss keine Angst machen Tim Armandpour, SVP of Product Development bei PagerDuty, diskutierte mehrere wichtige Best Practices, die Minimieren Sie das Chaos bei der Lösung von Vorfällen . Laut Tim ist es in der heutigen „Always-on“-Welt wichtig, die Zuverlässigkeit durch die Einführung besserer Prozesse zur Reaktion auf Vorfälle ist eine Praxis, die wichtiger ist als je zuvor. Es ist entscheidend, dass Teams Fragen beantworten können wie: „Wie benachrichtige ich die richtigen Leute, wenn mein System ausfällt?“, „Wie verkürze ich die Lösungszeiten?“, „Wie gewinne ich die richtigen Daten und wie können wir uns gemeinsam verbessern?“
Er erzählte die Geschichte der Transformation von PagerDuty und wie unser Engineering-Team begann, Fehler in unsere eigene Umgebung einzubringen, mit Misserfolg am Freitag um die Systemstabilität zu verbessern, Probleme proaktiver zu erkennen und wichtige Erfahrungen im effizienten Reagieren auf Probleme und deren Lösung zu sammeln. Er skizzierte auch die beiden Hauptziele von Failure Friday: 1) häufige Fehlerszenarien zu verstehen und Best Practices für den Fall zu etablieren, dass etwas schief geht, und 2) die Zusammenarbeit zu fördern, indem unterschiedliche Teile unserer Organisation zusammengebracht werden, um Probleme – insbesondere in der Schusslinie – mit einem kontrollierten, gezielten Ansatz zu lösen.
Der Beitrag hebt die wichtigsten Erkenntnisse aus der Einführung der Failure Fridays hervor, darunter:
- Das Team prüft ständig verschiedene Fehlerszenarien und probiert verschiedene Dinge aus, um potenzielle Schwachstellen aufzudecken. . Teams, die für die Verwaltung von angegriffenen Diensten verantwortlich sind, wissen nicht im Voraus Bescheid (genau wie im echten Leben). Jeder muss jederzeit darauf vorbereitet sein, in den koordinierten Reaktionsmodus zu wechseln.
- Das Team führt Tests von Fehlerszenarien durch nicht in einer Test- oder Vorproduktionsumgebung, sondern in der Live-Produktionsumgebung. Während die Fehlertests immer so aufgebaut sind, dass sichergestellt ist, dass Kunden nicht betroffen sind, ist gezieltes Vorgehen der Schlüssel, um wirklich Experten für die Reaktion auf reale Vorfälle zu werden. Laut Tim ist Zuverlässigkeit ein so wichtiges Versprechen an unsere Kunden, „also arbeiten wir, als ob unsere Jobs davon abhingen“.
- Wenn du Tun Wenn Sie während eines Live-Fehlertests tatsächlich eine Schwachstelle identifizieren, ist es wichtig, dass Sie sich dadurch nicht in Panik versetzen lassen. Vielmehr sind „Gotchas“ eine wichtige Gelegenheit, sich daran zu gewöhnen, inmitten von Problemen unbeeindruckt zu bleiben, sowie tatsächlich eine Lösung zu implementieren und die Belastbarkeit Ihrer Infrastruktur weiter zu verbessern.
- Am Ende der Vorfallreaktion ist es unerlässlich für die Durchführung einer Obduktion damit das Team gemeinsam lernen und sich verbessern kann. Post-Mortem-Analysen müssen frei von Schuldzuweisungen sein und sich auf umsetzbare nächste Schritte zur Verbesserung konzentrieren.
Lesen Sie den gesamten Beitrag, um weitere bewährte Erkenntnisse zum Üben und Verbessern der Reaktion auf Vorfälle zu erhalten, damit Ihr Team vorbereitet ist, wenn der nächste unvermeidliche Fehler eintritt.