Der Blog

Best Practices für die Störungskommunikation: Incident Team

von Sam Lewis 7. April 2015 | 4 Minuten Lesezeit

blog-outage-com-team

Dieser Beitrag ist Teil unserer dreiteiligen Serie über bewährte Vorgehensweisen bei der Kommunikation bei kritischen Vorfällen. Lesen Sie über die Ausfallkommunikation mit interne Stakeholder und mit Kunden .

Sie haben gerade festgestellt, dass etwas kritisch schief gelaufen ist und Sie es nicht selbst beheben können. Insbesondere wenn Sie innerhalb eine kollaborative DevOps-Umgebung , es ist besser, mit ein wenig Hilfe von Freunden klarzukommen. Die effektive Koordination der Reaktion auf Vorfälle zwischen Fachexperten und Front-Line-Respondern ist ein Geheimnis des operativen Erfolgs, das Spitzenteams auszeichnet. Daher ist es wichtig, dass Sie eine effektive und effiziente Möglichkeit haben, Alarm zu schlagen, und dass Ihre Gespräche aufgezeichnet werden und umsetzbar sind.

Der erste Schritt zu einer effektiven Störungskommunikation innerhalb Ihres Incident-Response-Teams besteht darin, sicherzustellen, dass die richtigen Personen beteiligt werden. Sie sollten klare Prozesse eingerichtet haben, um Fachexperten zu identifizieren, sie zu kontaktieren und sie an einem Ort zusammenzubringen. Sie sollten auch ein bestimmtes Team für die externe Kommunikation haben, und wenn der Ausfall schwerwiegend genug ist, sollten Sie sie sofort einbeziehen, damit sie einen Vorsprung bei der Benachrichtigen Sie Ihre Kunden. Ein System wie PagerDuty kann in beiden Fällen hilfreich sein, indem es Bereitschaftspläne und die bevorzugten Kontaktmethoden der Mitarbeiter automatisch speichert.

Zweitens ist es wichtig, die Bedeutung der Dokumentation zu verstehen. Während des Vorfalls wird das Einsatzteam viele Informationen aufdecken und schnelle Entscheidungen darüber treffen, wie das Problem am besten eingedämmt werden kann. Die Dokumentation im Moment ist wichtig, um sicherzustellen, dass nichts vergessen oder übersehen wird. Glücklicherweise gibt es Tools und Prozesse, die hier helfen können.

Telefonieren.

Zuerst müssen Sie alles aussprechen. Richten Sie eine feste Konferenzleitung ein; niemand sollte Zeit damit verschwenden, für jeden Anruf manuell eine Brücke einzurichten. Jeder im Team sollte die Einwahldetails kennen oder wissen, wo sie zu finden sind. Es ist eine gute Idee, die Details in das PagerDuty Ereignis oder in die Servicebeschreibung aufzunehmen, damit sie bei Bedarf leicht abgerufen werden können. Es ist auch eine gute Idee, Ihre Gespräche aufzuzeichnen, falls Sie Ihren Prozess debuggen möchten.

Telefongespräche eignen sich hervorragend für Gespräche und Diskussionen in Echtzeit. Aber Telefongespräche haben auch ihre Tücken: Sie liefern nur dürftige Daten über den Ausfall und die Aufgabenverteilung. Es gibt keinen Text, der die Leute für die im Laufe des Gesprächs getroffenen Entscheidungen verantwortlich macht. Wie können Sie also Ihre Gespräche nachverfolgen?

Verschieben Sie es in einen Chat-Client.

Die Antwort ist ChatOps . Eine gleichzeitige Diskussion in einem Chat-Client liefert verwertbare, durchsuchbare und mit Zeitstempel versehene Daten darüber, wer was tut und in welchen Diensten. Und denken Sie daran, Ihren Diensten Namen zu geben. Hier bei PagerDuty sind unsere Dienste nach griechischen Gottheiten benannt. Auf diese Weise kann unser gesamtes Team verstehen, was wir meinen, wenn wir von Artemis sprechen.

Um die Reaktion auf Vorfälle noch einfacher zu machen, können Sie Ihre Tools mit Ihrem Chat-Client verbinden. Pipe in PagerDuty Vorfällen und verwenden Sie Plugins um Ihren Chat-Dienst anzupassen und optimal zu nutzen. Sie können beispielsweise einen Chatbot verwenden, um Server-Updates zum Chat beizutragen, oder Sie können Datenhund Diagramme liefern Analysen im Chatfenster. Sie können im Chat auch Aktionen an Tools senden und Bots können Aktionen ausführen oder Folgeaufgaben erfassen.

Führen Sie ein Protokoll.

Zeichnen Sie Ihren Chatverlauf in einem CMS oder in PagerDuty Hinweise , damit später darauf verwiesen werden kann. Dies kann ein großartiges Lehrmittel für das Lernen nach der Lösung sein und Ihrem Team helfen, in Zukunft effizienter zu werden, indem es aus der Art und Weise lernt, wie es Probleme in der Vergangenheit gelöst hat. Und diese mit einem Zeitstempel versehene, durchsuchbare Diskussion, die Ihnen bei der Lösung Ihres Vorfalls nützlich war, macht es auch viel einfacher, eine Nachbesprechung zu schreiben.

Ein zusätzlicher Vorteil von ChatOps scheint offensichtlich, ist aber erwähnenswert: Schriftliche Kommunikation ist im Allgemeinen qualitativ hochwertiger als gesprochene Kommunikation. Ihr Team hat mehr Zeit, seine Gedanken zu ordnen als bei einer Telefonkonferenz oder einem persönlichen Gespräch, und es kann leichter auf das verweisen, was andere Teammitglieder im Laufe des Gesprächs gesagt haben, um einen klaren Aktionsplan zu erstellen.

Lernen und wachsen.

Eine effektive Kommunikation während eines Vorfalls erleichtert Ihnen auch das Training neuer Teammitglieder. Sie müssen Ihre Erfahrungen aus der Vergangenheit nicht in einen zukünftigen Aktionsplan oder eine Runbook Sie schreiben Schulungsmaterialien und Aktionspläne in Echtzeit, die sofort einsatzbereit sind, sobald Sie mit der Dokumentation und Lösung des Vorfalls fertig sind.

 

Wie kommuniziert Ihr Team Ausfälle intern? Lassen Sie es uns im Kommentarbereich wissen.

Weitere Informationen finden Sie unter Best Practices in der Störungskommunikation: Kunden .

 

eBook_440_220