- PagerDuty /
- Der Blog /
- Gemeinschaft /
- Chaos Engineering mit Ana Medina
Der Blog
Chaos Engineering mit Ana Medina
Vor Kurzem habe ich mich mit Ana Medina von Gremlin zu einem PagerDuty Community AMA getroffen!
Ana arbeitet derzeit als Chaos Engineer bei Gremlin und hilft Unternehmen, Ausfälle zu vermeiden, indem sie proaktive Chaos-Engineering-Experimente durchführt. Zuvor arbeitete sie bei Uber als Ingenieurin in den SRE- und Infrastrukturteams, wo sie sich speziell auf Chaos Engineering und Cloud Computing konzentrierte. Folgen Sie ihr auf Twitter unter @Ana_M_Medina über Reisen, Vielfalt in der Technik und psychische Gesundheit.
Sie können das gesamte AMA hier ansehen:
https://www.youtube.com/watch?v=Rf7CedwLnYY
Wenn Sie jedoch lieber lesen möchten, finden Sie hier einige der gestellten Fragen sowie eine Zusammenfassung von Anas Antworten.
F: Ich habe an mehreren Projekten mitgearbeitet und mit Kunden zusammengearbeitet, bei denen Chaos Monkey diskutiert oder ins Spiel gebracht wurde und großes Interesse und Gespräche aufkamen. Aber wenn es dann an die tatsächliche Umsetzung geht, bekommen die Leute Angst. Es kommen Einwände zum Vorschein und es entwickelt sich ein Spiel nach dem Motto „Aber was, wenn Daten beschädigt werden, ein Kunde betroffen ist, die sehr wichtige Person verärgert ist?“ Sind Sie mit solchen Einwänden konfrontiert worden und wie haben Sie sie überwunden? – Joel Heenan
Es muss nicht beängstigend sein – bedenken Sie die Voraussetzungen, wie etwa Explosionsradius und Überwachung. Der erste Schritt ist Überwachung und Beobachtbarkeit. Sie können nicht loslegen, wenn Sie nicht wissen, wie Ihr aktuelles System oder Ihr aktueller Dienst jetzt aussieht oder wie es aussehen wird, wenn Sie mit Ihrem Experiment beginnen.
Überlegen Sie als Nächstes, welche Art von Experiment Sie durchführen möchten. Machen Sie sich Ihre Hypothese klar und überlegen Sie, was nötig ist, um das Experiment abzubrechen, wenn Sie merken, dass Sie dabei sind, gegen ein SLA zu verstoßen. Machen Sie sich bewusst, unter welchen Bedingungen Sie das Experiment abbrechen möchten.
Bedenken Sie auch Ihren Explosionsradius – warum sollten Sie dies in der Produktion ausführen, wenn Sie nicht wissen, was es in der Staging- oder einer anderen Vorproduktionsumgebung bewirkt? Sie können dies in einer Nicht-Produktionsumgebung starten, die sicherer ist und keine Kunden berührt. Anstatt es auf 50 Prozent Ihrer Infrastruktur auszuführen, können Sie es vielleicht nur auf drei Ihrer Hosts ausführen, um ein Gefühl für die möglichen Auswirkungen zu bekommen. Als Ana beispielsweise bei Uber war, ließen sie ihr SRE-Team in die Servicebesitzer einbinden, um ihnen zu erklären, was das Experiment bewirken würde, damit sie die Bedingungen und potenziellen Auswirkungen besser verstanden.
Viele Bedenken drehen sich um die Sicherheit, daher ist es wichtig, einen „großen roten Knopf“ zu haben, der alle Experimente stoppt. Sie können dies durch Ihre Überwachung und Beobachtung automatisieren, sodass Sie die Experimente automatisch beenden können, wenn etwas schief geht, bevor ein Problem mit Auswirkungen auf die Kunden auftritt.
Und schließlich kann es wirklich helfen, Ängste und Bedenken zu überwinden, wenn Sie die möglichen Erkenntnisse kommunizieren, die aus den Experimenten gewonnen werden können.
F: Was ist Ihrer Erfahrung nach das wirksamste Mittel, um einem Burnout vorzubeugen, wenn man Bereitschaftsdienst hat oder in kurzer Zeit an mehreren intensiven Projekten arbeitet? – Taylor Dolezal
Ein guter Manager und eine gute Beziehung zu Ihrem Manager sind der Schlüssel. Sie müssen in der Lage sein, mit Ihrem Manager darüber zu sprechen, was los ist mit Du und wie Ihr Arbeitspensum aussieht. Kommunizieren Sie, dass Ihre Bereitschaftsarbeit Ihre oberste Priorität ist und dass es nicht effektiv ist, gleichzeitig an Projekten mit hoher Priorität zu arbeiten.
Chaos Engineering kann dabei helfen, ein Burnout zu verhindern, denn Sie können sich auf diese Seiten um 2 Uhr morgens vorbereiten, indem Sie während der Geschäftszeiten üben, um Ihr Muskelgedächtnis für die Reaktion auf Ausfälle zu stärken. Noch besser: Sie können potenzielle Probleme möglicherweise im Voraus erkennen und verhindern, dass die Seiten um 2 Uhr morgens überhaupt auftreten.
Auch die Selbstfürsorge ist ein wichtiger Bestandteil der Burnout-Prävention. Achten Sie auf eine gesunde Ernährung und ausreichend Ruhe … und stopfen Sie Ihren Körper nicht mit Zucker voll, auch wenn Ihnen das im Moment gut erscheint! Wenn Ana Bereitschaftsdienst hat, nimmt sie sich Zeit, um mit Freunden auszugehen und sich vom Stress der Bereitschaftsarbeit zu erholen. Sie ist viel unterwegs und um Stress abzubauen, hat sie immer Badebomben dabei!
F. Wer ist Ihre Lieblingsperson (oder Ihre Lieblingspersonen) innerhalb der technischen Community? – Taylor Dolezal
Da Burnout ein wichtiger Faktor in früheren Positionen war, hat Anas aktueller Manager Tammy Bütow ist einer ihrer Favoriten; Amy Chen ist ein weiterer Favorit.
F. Was möchten Sie im Moment lernen? – Taylor Dolezal
In diesen Tagen konzentriert sich Ana auf das Lernen über Weltgeschichte und amerikanische Geschichte. Sie interessiert sich auch für die Erforschung der Suche SRE Buch und Untersuchung der Best Practices rund um die Beobachtbarkeit.
F: Worauf freuen Sie sich im Bereich Chaos Engineering im Jahr 2019 am meisten? – Taylor Dolezal
Es wird ein Jahr der Akzeptanz – 2018 haben sich viele Menschen mit dem Thema befasst, sich mit Observability-Praktiken vertraut gemacht usw. Jetzt, da die Grundlagenarbeit erledigt ist, erwartet Ana eine stärkere Akzeptanz.
F: Wie kann PagerDuty von Chaos Engineers verwendet werden? – Tammy Bütow
Ein Chaos-Ingenieur hat normalerweise ein PagerDuty Konto! Er hat wahrscheinlich bereits Erfahrung im Bereitschaftsdienst, aber er könnte auch der Ingenieur sein, der PagerDuty Warnmeldungen mit Dummy-Diensten testet und Chaos-Experimente mit ihnen durchführt. Dies hilft auch dabei, Ingenieure darin zu schulen, effektiv auf Warnmeldungen zu reagieren.
Vielen Dank für das Lesen dieser AMA-Zusammenfassung und vergessen Sie nicht, sich unsere anderen AMA-Videos ! Und wenn Sie sich fragen, wer unser nächster Gast bei der PagerDuty Community AMA sein wird, besuchen Sie unsere Community-Foren für Updates!