Blog

Comment PagerDuty et son partenaire Rundeck assurent la continuité des activités pour les opérations numériques

par Scott McAllister 23 avril 2020 | 5 minutes de lecture

Dans une période comme celle que nous traversons, où le monde a été contraint de s’adapter et de passer presque entièrement au numérique, il est impératif que nos systèmes et nos plateformes restent opérationnels en permanence. Nous mettons tout en œuvre pour garantir la fiabilité et la réactivité du matériel et des logiciels de nos piles d’applications. Le matériel est configuré pour disposer de sauvegardes redondantes et le nouveau code est testé et révisé pour s’assurer qu’il n’introduit aucun bug dans le système. Ces préparatifs minimisent l’impact de la perte d’une partie de notre infrastructure numérique.

Mais que se passe-t-il lorsque nous perdons contact avec notre peuple ?

Réponse courte : la perte (temporaire ou permanente) de personnes signifie également la perte de toutes les connaissances tribales qui font réellement fonctionner une entreprise.

Réponse longue : dans les opérations numériques, malgré toutes les mesures de protection, de test et de révision du matériel et des logiciels, les incidents sont inévitables. Le besoin de solutions en temps réel pour résoudre ces problèmes n’a jamais été aussi grand. Pour répondre au mieux aux problèmes lorsqu’ils surviennent, nous devons nous préparer de manière proactive, tant en tant qu’individus qu’en tant qu’équipes. Nous avons besoin des bonnes informations pour les services dont nous sommes responsables en cas d’incident. Une réponse bien orchestrée nécessite un effort coordonné des bonnes personnes qui peuvent agir, et rassembler celles qui ont les bonnes connaissances et l’accès au système nécessite une planification et une prévoyance.

Des outils comme PagerDuty permettent à vos équipes de rester informées et d'agir, mais, comme l'a mentionné Alex Solomon, cofondateur et directeur technique de PagerDuty , dans un récent épisode de Allez jusqu'à la limite podcast , c'est plus qu'un produit ou une plateforme qui transformera votre équipe pour gérer efficacement les incidents. « Ce que je constate à maintes reprises, c'est que, oui, vous pouvez acheter la plateforme. Mais la partie difficile est de changer la culture... et de transformer la façon dont les gens travaillent, et cela se résume aux personnes et aux processus », a-t-il expliqué.

Pour réussir, vous devez vous assurer que les personnes appropriées sont prévues pour gérer les incidents. Cela nécessite une planification pour obtenir le bon équilibre d'expertise et garantir que ces experts sont en rotation saine. Vous voulez que vos experts soient affûtés et prêts lorsqu'un incident survient. Cela signifie qu'ils ont également besoin de suffisamment de temps d'arrêt, en d'autres termes, ils ont besoin de moments où ils ne sont pas de garde et où on ne leur demande pas d'intervenir.

Toutes ces précautions sont mises en place pour que notre technologie continue de fonctionner en cas d'urgence, mais qu'en est-il de nos employés ? Même avec toute la planification appropriée, il peut arriver que nos experts en la matière (PME) ne soient tout simplement pas disponibles. Comme nous l'avons vu récemment, les catastrophes naturelles, les urgences familiales ou même les pandémies peuvent rendre n'importe lequel d'entre nous soudainement injoignable. Ce type de risque est connu sous le nom de risque pour la continuité des activités, comme le décrivent les gens de Rundeck dans leur nouvel e-book « Guide de continuité des activités pour les opérations numériques. '

Rundeck, une plateforme d'automatisation des cahiers d'exécution, vous permet de donner à tous les membres de votre équipe un accès en libre-service aux capacités opérationnelles que seuls vos experts en la matière pouvaient auparavant exécuter. Imaginez à quel point vous vous sentiriez plus à l'aise si une partie des préparatifs de votre équipe en vue des situations d'urgence consistait à demander à vos experts en la matière de créer des cahiers d'exécution automatisés pour les tâches qu'ils anticipent généralement lors d'incidents.

Lorsque vous réfléchissez aux risques liés à la continuité des activités, la priorité absolue est de capturer les connaissances tribales afin que votre activité ne soit pas perturbée. Avec PagerDuty, vous pouvez utiliser Event Intelligence, Response Plays et Escalation Policies pour savoir comment repérer et répondre aux problèmes (y compris la modélisation des options d'escalade lorsque les personnes ne sont pas disponibles). Le répertoire de services dynamique vous permet de collecter de manière proactive toutes les informations nécessaires sur vos services, en plus des Runbooks, afin que vos équipes puissent facilement accéder à toutes les connaissances nécessaires pendant les moments critiques de résolution d'un incident.

Dans Rundeck, vous allez encore plus loin dans ces préparatifs en capturant toutes les procédures de maintenance, de diagnostic et de réparation de vos environnements et services. Vous associez PagerDuty et Rundeck et vous pouvez continuer à exploiter votre entreprise numérique face à une main-d'œuvre experte perturbée ou désorientée.

Pour aider les organisations à faire la transition vers des effectifs à distance, Rundeck fournit une guide complet sur la manière de garantir la continuité des activités en période d'incertitude. Le guide explique que la clé pour assurer la continuité des activités dans les opérations numériques se résume à trois éléments : un harnais d'automatisation, des garde-fous et une carte d'infrastructure dynamique.

La fonction d'automatisation du cahier des charges de Rundeck permet d'automatiser les tâches répétitives, et PagerDuty peut aider à fournir des garde-fous. Lorsque seules les bonnes personnes sont informées d'un incident (c'est-à-dire celles qui ont les connaissances et l'accès nécessaires pour agir sur le problème) et que ces personnes ne reçoivent que les informations dont elles ont besoin, les organisations peuvent éviter de se démener pour localiser les personnes et les connaissances pendant une crise. Avec une préparation et une planification appropriées, ces décisions sont prises à l'avance.

Un autre aspect de la création d'une équipe d'intervention efficace consiste à aligner les équipes de service technique avec les services métier correspondants. L'infrastructure et les composants logiciels d'aujourd'hui sont en mouvement constant. En établissant et en maintenant une communication solide entre les équipes et en sachant où trouver les « sources de vérité », vous pouvez régulièrement tenir toutes les parties informées. PagerDuty a fourni un guide d'exploitation pour Propriété à service complet qui peut aider votre équipe à s’aligner sur ces principes communs.

Les équipes préparées sont des équipes réactives. Lorsque vous préparez vos équipes à l'impensable, armez-vous des connaissances que vous trouverez dans certaines des ressources mentionnées ci-dessus. Pour en savoir plus sur la meilleure façon de préparer vos équipes (et vos plannings) à gérer au mieux les incidents, consultez notre Réponse aux incidents Guide d'exploitation. Lorsque vous réfléchissez à vos services et à la manière de configurer vos services techniques pour qu'ils correspondent aux services commerciaux correspondants, consultez le Configuration du service guide. Et, pour découvrir comment l'automatisation du livre d'exécution peut vous aider à suivre les connaissances tribales et à faire fonctionner les choses, consultez le guide de Rundeck Continuité des activités dans les opérations numériques guide.