Blog

Ingénierie du chaos avec Ana Medina

par Matt Stratton 26 février 2019 | 5 minutes de lecture

Récemment, je me suis assis avec Ana Medina de Gremlin pour une AMA communautaire PagerDuty !

Ana travaille actuellement en tant qu'ingénieure du chaos chez Gremlin, aidant les entreprises à éviter les pannes en exécutant des expériences proactives d'ingénierie du chaos. Auparavant, elle a travaillé chez Uber en tant qu'ingénieure au sein des équipes SRE et Infrastructure, où elle s'est spécifiquement concentrée sur l'ingénierie du chaos et le cloud computing. Retrouvez-la sur Twitter à @Ana_M_Medina sur les voyages, la diversité dans la technologie et la santé mentale.

Vous pouvez consulter l'intégralité de l'AMA ici :

https://www.youtube.com/watch?v=Rf7CedwLnYY

Si vous préférez lire, voici quelques-unes des questions posées, ainsi qu'un résumé des réponses d'Ana.

Q : J’ai participé à de nombreux projets et travaillé avec des clients pour lesquels Chaos Monkey a été évoqué ou évoqué et a suscité un grand intérêt et des discussions, mais une fois qu’il est temps de l’exécuter, les gens ont peur. Les objections s’échappent et cela devient un jeu du genre : « Et si les données étaient corrompues, si un client était impacté, si la personne très importante était contrariée ? » Avez-vous rencontré ces objections et comment les avez-vous surmontées ? – Joel Heenan

Il n'est pas nécessaire que cela soit effrayant : pensez aux prérequis, comme le rayon d'explosion et la surveillance. La première étape est la surveillance et l'observabilité. Vous ne pouvez pas commencer si vous ne savez pas à quoi ressemble votre système ou service actuel ou à quoi il ressemblera une fois que vous aurez commencé votre expérience.

Ensuite, réfléchissez au type d’expérience que vous allez réaliser. Comprenez votre hypothèse, ainsi que ce qu’il faudra faire pour arrêter l’expérience si vous commencez à découvrir que vous êtes sur le point de violer un SLA. Soyez conscient de vos conditions d’abandon.

Tenez également compte de votre rayon d’action : pourquoi exécuter cette expérience en production si vous ne savez pas ce qu’elle fera en phase de test ou dans un autre environnement de préproduction ? Vous pouvez démarrer cette expérience dans un environnement hors production, plus sûr et qui ne touche pas les clients. Au lieu de l’exécuter sur 50 % de votre infrastructure, exécutez-la simplement sur trois de vos hôtes pour avoir une idée de l’impact potentiel. Par exemple, lorsqu’Ana travaillait chez Uber, son équipe SRE s’intégrait aux propriétaires de services pour leur expliquer ce que l’expérience ferait afin de mieux comprendre les conditions et les impacts potentiels.

De nombreuses préoccupations concernent la sécurité. Il est donc important de disposer d'un « gros bouton rouge » qui arrêtera toutes les expériences. Vous pouvez automatiser cette opération grâce à votre surveillance et à votre observabilité, de sorte que si les choses commencent à mal tourner, vous pouvez arrêter automatiquement les expériences avant qu'un problème impactant le client ne survienne.

Enfin, si vous communiquez les apprentissages potentiels qui peuvent découler des expériences, cela peut réellement aider à surmonter les peurs et les inquiétudes.

Q : Selon vous, qu’est-ce qui est le plus efficace pour prévenir l’épuisement professionnel : être de garde ou travailler sur plusieurs projets intensifs sur une courte période ? – Taylor Dolezal

Avoir un excellent manager et une excellente relation avec lui est essentiel. Vous devez être capable de parler à votre manager de ce qui se passe toi et à quoi ressemble votre charge de travail. Communiquez-leur que lorsque vous êtes de garde, cela sera votre priorité numéro un et qu'avoir des projets hautement prioritaires en même temps n'est pas efficace.

L'ingénierie du chaos peut aider à prévenir l'épuisement professionnel, car vous pouvez vous préparer à ces appels à 2 heures du matin en vous entraînant pendant les heures de bureau pour développer votre mémoire musculaire afin de réagir aux pannes. Mieux encore, vous pourrez peut-être détecter d'éventuels problèmes à l'avance et empêcher que les appels à 2 heures du matin ne se produisent.

Prendre soin de soi est également un élément clé pour prévenir l’épuisement professionnel. Assurez-vous de manger sainement et de vous reposer suffisamment… et ne gavez pas votre corps de sucre, même si cela semble être une bonne idée sur le moment ! Lorsqu’Ana est de garde, elle s’assure de prévoir du temps pour sortir avec des amis afin de se déconnecter du stress de la garde. Elle est souvent en déplacement et, pour se détendre, elle s’assure toujours de voyager avec des bombes de bain !

Q. Qui est votre personne préférée (ou vos personnes préférées) au sein de la communauté technique ? – Taylor Dolezal

Étant donné que l'épuisement professionnel était un facteur majeur dans les rôles précédents, le manager actuel d'Ana Tammy Butow est l'un de ses favoris; Amy Chen est un autre favori.

Q. Qu’est-ce que vous aimeriez apprendre en ce moment ? – Taylor Dolezal

Aujourd'hui, Ana se concentre sur l'apprentissage de l'histoire mondiale et de l'histoire américaine. Elle s'intéresse également à l'exploration de À la recherche d'un SRE livre et recherche des meilleures pratiques en matière d'observabilité.

Q. Qu’est-ce qui vous enthousiasme le plus dans le domaine de l’ingénierie du chaos en 2019 ? – Taylor Dolezal

Ce sera une année d'adoption : 2018 a vu de nombreuses personnes se renseigner sur le sujet, se lancer dans des pratiques d'observabilité, etc. Maintenant que le travail de base a été fait, Ana s'attend à ce que nous assistions à une plus grande adoption.

Q : Comment PagerDuty peut-il être utilisé par les ingénieurs du chaos ? – Tammy Butow

Un ingénieur du chaos a généralement un compte PagerDuty ! Ils ont probablement déjà eu l'expérience d'être de garde, mais il pourrait également s'agir d'ingénieurs qui testent les alertes PagerDuty à l'aide de services factices et mènent des expériences de chaos contre elles. Cela permet également de former les ingénieurs à répondre efficacement aux alertes.

Merci d'avoir lu ce résumé de l'AMA, et n'oubliez pas de consulter nos autres Vidéos AMA ! Et si vous vous demandez qui sera notre prochain invité sur la PagerDuty Community AMA, rendez-vous sur notre Forums communautaires pour les mises à jour !