Blog

Créer et faire évoluer votre équipe SRE

par Julie Gunderson 12 janvier 2021 | 7 minutes de lecture

Constituer des équipes d'ingénierie de fiabilité de site (SRE) est une tâche difficile ! Il existe tellement d'articles et d'explications sur ce que signifie SRE qu'il est facile de s'y perdre. Aller au-delà de la compréhension du rôle individuel de SRE et de la constitution et de la mise à l'échelle d'une équipe de SRE est le véritable défi. Il est important de trouver les bonnes informations qui vous aideront à faire passer votre équipe SRE au niveau supérieur.

Dans une récente Allez jusqu'à la limite épisode de podcast avec Gremlins Tammy Bryant, directrice de la SRE, nous avons discuté de l’importance de la SRE et de la manière de constituer des équipes avec la bonne culture. En s’appuyant sur certaines des meilleures pratiques partagées par Tammy, cet article ira au-delà de la simple définition du rôle d’un SRE et se penchera sur des moyens pratiques de constituer et de faire évoluer vos équipes SRE.

Qu'est-ce qu'un SRE ?

L'objectif ici n'est pas de réinventer la définition de Site Reliability Engineer, ou SRE. Le terme SRE a été défini à plusieurs endroits (pour les informations les plus complètes, consultez Livre SRE de Google ). L’une de mes explications préférées de ce qu’est un SRE vient de Tammy Bryant elle-même : « Ils [les SRE] travaillent avec toutes les équipes d’une organisation pour garantir que les objectifs de fiabilité sont constamment atteints. Ce sont des ingénieurs, des éducateurs, des mentors, des « automatistes », ils sont axés sur les données et ils donnent la priorité au client. »

« L’une des missions les plus importantes d’un SRE est de protéger, de fournir et de faire évoluer les logiciels et les systèmes qui se cachent derrière les services vraiment importants que les gens utilisent et sur lesquels ils comptent au quotidien. Vous devez donc garder un œil vigilant sur la durabilité, la disponibilité, la latence, les performances et la capacité. »

Tammy Bryant , Responsable SRE, Gremlin

En général, un SRE cherche à combler le fossé entre les équipes de développement et d'exploitation pour garantir la fiabilité des systèmes et est responsable de disponibilité, latence, performances, efficacité, gestion des changements et surveillance.

Dans le monde de DevOps, on confond souvent DevOps et SRE. Bien qu'il y ait des points communs, DevOps se concentre davantage sur le « quoi » qui doit être fait, tandis que l'ingénierie de fiabilité du site se concentre davantage sur le « comment » cela peut être fait.

Compétences et responsabilités SRE

Le SRE est un rôle/une équipe essentielle dans le monde numérique d'aujourd'hui. Comme le dit Tammy, « Si votre système et vos services ne sont pas opérationnels, vos clients ne peuvent même pas utiliser vos services. »

Comme mentionné précédemment, les rôles et responsabilités des SRE sont axés sur la performance et la fiabilité. Un SRE n’est pas seulement « un responsable des opérations qui code », il possède des compétences orientées vers l’automatisation, le déploiement, la gestion de la configuration, la surveillance, ainsi que l’analyse et les mesures. Les bons SRE cherchent à s’associer aux parties prenantes de l’ingénierie pour concevoir et fournir une plateforme fiable, évolutive, sécurisée et performante. Au-delà du partenariat, les SRE et les équipes SRE recherchent des moyens d’améliorer l’expérience client et de rester au courant des tendances techniques pour trouver des outils et des approches innovants pour résoudre les problèmes.

Lorsque vous pensez aux responsabilités globales de l'automatisation, en mettant l'accent sur l'expérience client et la fiabilité, les SRE doivent avoir les compétences nécessaires pour résoudre les problèmes en écrivant du code pour automatiser les processus manuels. Les SRE sont souvent responsables de l'exécution de services critiques dont dépendent les clients (internes et externes). Il est important que les SRE comprennent l'impact et l'importance que l'optimisation opérationnelle peut avoir sur un produit et l'effet d'entraînement positif qu'elle peut avoir sur l'ensemble d'une organisation. Les SRE doivent également faire preuve d'empathie et de réactivité envers les autres, et avoir la capacité de prendre en compte les opinions et les suggestions et de les traduire en opportunités pour parvenir rapidement à des solutions techniques.

Mise en place d'une équipe SRE

Lors de la constitution d'une équipe SRE, il est important d'établir des lignes directrices qui représentent les objectifs de l'équipe. Chez PagerDuty, nos SRE disposent d'un ensemble de lignes directrices qui sont utilisées pour aider l'équipe SRE dans le processus de prise de décision. Dave Bresci, responsable de l'ingénierie de fiabilité des sites chez PagerDuty, a partagé ces lignes directrices avec nous, répertoriées ici :

  • Veiller à ce que notre travail soit lié aux objectifs organisationnels.
  • Travailler en partenariat avec les parties prenantes de l'ingénierie pour définir une architecture de service supportable et performante (route pavée).
  • Nous nous efforçons continuellement d'améliorer l'expérience client : support complet du cycle de vie (création, développement, déploiement, retrait), observabilité, connectivité flexible et surveillance.
  • Privilégiez les solutions gérées, soutenues commercialement ou acceptées par l’industrie plutôt que les systèmes construits en interne.
  • Informer de manière proactive l’organisation de tout changement important dans l’infrastructure.
  • Mesurer le succès par l’adoption.
  • Revoyez les choix de conception et les composants devenus obsolètes et voyez ce qui peut être remplacé par des pièces gérées ou prêtes à l'emploi, ou considérablement simplifié.
  • Partagez l’expertise SRE au service de l’ensemble de l’organisation PagerDuty .
  • Tenez compte des coûts opérationnels dans la prise de décision en matière d’architecture et de plateforme.

Le fait d'avoir des objectifs clairement énoncés, écrits et visibles pour l'ensemble de l'organisation améliore la culture organisationnelle grâce à la transparence, à la clarté et au partage d'informations. Un exemple d'objectif d'équipe spécifique est celui de l'équipe de mise en œuvre SRE de PagerDuty : Donner aux propriétaires de services les moyens de fournir des outils, des modèles et des partenariats pour leur permettre de créer rapidement des services fiables, opérationnels et performants à grande échelle. En plus de ces objectifs SRE généraux chez PagerDuty, nos équipes SRE individuelles ont toutes leurs propres objectifs individuels écrits.

Réfléchir aux différentes manières de partager des informations telles que les progrès et les objectifs est une pratique essentielle lors de la création et de la mise à l'échelle de l'ingénierie de fiabilité des sites. Nous examinons également ces objectifs lors de nos réunions générales sur les produits. Quels que soient vos objectifs, définissez-les clairement, partagez-les avec l'organisation et faites connaître la vision et la mission de votre équipe au plus grand nombre. Chez PagerDuty, nous utilisons un wiki interne ouvert à tous pour partager nos objectifs entre nous et nous examinons également ces objectifs lors de nos réunions générales sur les produits.

Les modalités de fonctionnement d'une équipe SRE varient en fonction de l'organisation. Les rôles SRE peuvent être entièrement intégrés au sein d'une équipe, partagés entre équipes ou partagés avec une équipe autonome. Comprendre où vous vous trouvez dans le processus organisationnel et de transformation et quel est l'objectif global que vous essayez d'atteindre avec une équipe SRE vous aidera à déterminer la manière dont vous souhaitez structurer votre équipe.

Évoluer votre équipe SRE

Comme pour toute évolution d’équipe, il faut d’abord comprendre que le recrutement et l’intégration prennent du temps. Les nouveaux employés peuvent mettre de 3 à 12 mois à apprendre de nouveaux systèmes, de nouvelles méthodes de travail et la dynamique culturelle des nouvelles organisations et équipes.

Gardez toujours à l’esprit que la transformation ne se fait pas du jour au lendemain, comme c’est le cas pour la création de nouvelles équipes et/ou leur développement. Une façon de rester sur la bonne voie est de toujours garder un œil sur l’horizon, de regarder ce qui va suivre. Fixez des objectifs d’équipe pour les 2 à 3 prochaines années pour ce que vous voulez réaliser. N’oubliez pas que les équipes SRE ne sont pas sur une île et que la responsabilité du groupe SRE ne consiste pas seulement à construire pour l’avenir, mais aussi à soutenir l’environnement existant. On ne sait jamais quand les systèmes actuels vont tomber en panne ou quand soudainement une pandémie éclatera et qu’il faudra faire évoluer considérablement votre environnement.

Il est essentiel de comprendre que la mise à l’échelle et la correction des équipes SRE peuvent mettre en suspens les projets d’optimisation en cours et de le communiquer à l’équipe pour qu’elle reste concentrée sur les besoins de l’entreprise et du client. Après tout, les équipes seront frustrées de devoir gérer tous les systèmes existants. Elles voudront tout faire exploser et tout réparer, c’est pourquoi il est important de rappeler aux équipes qu’il faut du temps pour migrer et avancer, et que ces progrès ne se reflètent pas toujours dans la résolution quotidienne des problèmes. Une façon de lutter contre cela est de rappeler régulièrement à l’équipe les petites progressions qui se sont accumulées. Posez des questions telles que « Vous souvenez-vous où nous étions il y a 6 mois ? » L’utilisation de données pour étayer les taux de progression est une excellente idée, vous pouvez examiner des éléments tels que : « Voici notre taux d’adoption de ce nouvel outil au fil du temps » ou « Il y a un an, nous avions cinq services conteneurisés et nous en avons maintenant plus de 100 ».

En fin de compte, constituer et faire évoluer des équipes n’est pas chose aisée. Nous espérons que cet article vous a donné, à vous et à votre organisation, des éléments de réflexion pour vous lancer dans votre parcours SRE. Nous aimerions également connaître vos histoires, vos conseils et vos réflexions.

Poursuivez la conversation avec nous ici à communauté.pagerduty.com . Si vous souhaitez plus d'informations sur la création et la mise à l'échelle de vos équipes SRE, consultez Conférence de Tammy Bryant au Sommet PagerDuty et la page jusqu'à la limite épisode de podcast sur SRE .