Blog

Du temps de ticket au temps réel : changer le statu quo du travail opérationnel

par PagerDuty 15 juin 2021 | 7 minutes de lecture

Ce blog était publié précédemment le 27 mai 2021.


2020 a été…difficile

Maintenir une entreprise numérique en activité n'a jamais été une tâche facile, surtout au cours de la dernière année. 2020 a obligé de nombreuses entreprises à accélérer leurs initiatives de transformation numérique Plus vite que quiconque ne l'aurait imaginé ! Les clients exigent davantage de capacité et de fiabilité, les entreprises lancent de nouveaux services plus rapidement que jamais et apprennent à utiliser de nouveaux modèles de travail à distance, mettant à rude épreuve les systèmes et les personnes.

La complexité est la nouvelle norme

Dans les opérations, il y a toujours eu un mélange d'applications existantes et nouvelles. Mais le niveau de complexité des systèmes a augmenté avec l'essor du cloud public, des conteneurs et des microservices. Même pour les entreprises SaaS de taille moyenne.

Représentation visuelle des services pour une entreprise SaaS de taille moyenne

Les équipes opérationnelles sont habituées à gérer les échecs. Cependant, avec l'échelle et la complexité croissantes des services d'aujourd'hui, les problèmes et les échecs se produisent plus souvent et peuvent être beaucoup plus difficiles à résoudre. En plus de tout cela, il y a aussi la pression pour ouvrir les choses afin que l'organisation puisse évoluer plus rapidement, mais aussi pour verrouiller les choses et rester conforme.

Il va sans dire qu’il n’est pas facile de garder une longueur d’avance. Comment une entreprise peut-elle aller plus vite tout en évitant les risques ? C’est là qu’intervient le concept d’opérations en temps réel.

Pourquoi des opérations en temps réel ?

Tout le monde s'accorde à dire que la rapidité est un avantage concurrentiel. Alors, comment une entreprise peut-elle évoluer plus rapidement ? C'est presque impossible si les opérations sont dans un état réactif. Malheureusement, c'est le cas de nombreuses entreprises aujourd'hui. Nous appelons cet état réactif les opérations au moment du ticket.

La vie au sein des opérations a toujours été un mélange de travail planifié et non planifié. Les équipes des opérations sont fréquemment interrompues par quelqu'un qui leur demande de faire quelque chose ou qui interrompt quelqu'un avec une demande.

Il s'agit d'un flux incessant de demandes sous forme de tickets, demandant souvent de refaire la même tâche encore et encore. Par exemple, les équipes de développement peuvent avoir besoin que l'équipe réseau modifie une règle de pare-feu à chaque nouvelle version. L'équipe réseau doit abandonner ce qu'elle est en train de faire pour effectuer le changement... mais ce changement doit également être approuvé par l'équipe de sécurité avant d'être mis en ligne. L'équipe réseau interrompt alors l'équipe de sécurité et attend qu'elle l'aide. Pendant ce temps, chacun jongle avec son propre travail.

L'industrie s'est habituée à cette façon de travailler et les résultats ne sont pas terribles. Les ingénieurs se sentent frustrés, surchargés de travail et sous-utilisés et les chefs d'entreprise ont l'impression que tout prend trop de temps, coûte trop cher et tombe en panne trop souvent.

Voilà donc où nous en sommes aujourd'hui. Les exigences des opérations informatiques poussent les choses à leur point de rupture. Il n'est plus possible de fonctionner sous le poids lent, à forte friction et à coût élevé du modèle d'exploitation au temps de ticket. Au lieu de cela, les opérations doivent passer à ce que nous appelons les opérations en temps réel.

Qu'entendons-nous par « temps réel » ? Le temps réel désigne la capacité à prendre des décisions et à agir au rythme de l'entreprise. Il signifie une communication et une prise de décision instantanées. Au lieu de conserver les informations et le contrôle dans des silos, il s'agit de distribuer le contrôle à l'ensemble de l'organisation et de laisser les gens travailler à leur propre rythme et avoir un contrôle de bout en bout.

Trois façons de permettre des opérations en temps réel

1. Surveillance, observabilité et AIOps

La surveillance est une pratique ancienne qui a toujours été du ressort du service Opérations. La surveillance consiste à rechercher des modèles ou des événements similaires à ceux observés précédemment et à alerter les personnes concernées lorsque ces conditions sont déclenchées.

Le « petit nouveau » est l'observabilité, qui mesure la capacité à comprendre les états internes d'un système à partir de ses sorties externes. Les outils et méthodes d'observabilité nous aident à interroger nos services pour comprendre ce qui se passe réellement.

Il est construit sur :

  • Événements: Cet événement discret est-il quelque chose qui s’est déjà produit ?
  • Métrique :Regardez ces événements et demandez-vous : les choses s’améliorent-elles ou empirent-elles ?
  • Traçage distribué : Regardons les nouvelles infrastructures distribuées et comprenons comment ces événements traversent chaque composant.

Bien que la surveillance soit traditionnellement du ressort des opérations, nous constatons que l'observabilité est également pilotée par les développeurs. La surveillance et l'observabilité permettent de réaliser des opérations en temps réel en créant une visibilité plus approfondie entre les équipes et nous aident à comprendre comment les systèmes fonctionnent au quotidien.

Enfin, il y a AIOps. AIOps consiste à combiner les fonctionnalités des outils pour comprendre ce qui se passe en temps réel. AIOps fournit des solutions similaires aux solutions de gestion d'événements existantes, mais inclut des fonctionnalités supplémentaires requises pour les environnements complexes et modernes d'aujourd'hui, telles que l'apprentissage automatique, l'automatisation, la collecte et l'ingestion flexibles de données, des visualisations puissantes, etc. Il s'agit de récupérer toutes les informations et tous les signaux de l'ensemble de l'infrastructure, d'agréger les métriques, de réduire le bruit, d'améliorer la corrélation et la compréhension, et de repérer les tendances. Découvrez comment utiliser AIOps pour une meilleure gestion des incidents.

2. Propriété du service

Dans un monde numérique de plus en plus complexe, la notion de propriété des services devient de plus en plus importante.

Les organisations doivent savoir :

  • Que se passe-t-il lorsque quelque chose ne va pas ?
  • Quelles sont les dépendances ?
  • Et qui est le responsable ?

La pratique de propriété des services permet de créer une carte qui répond à ces questions et aide les entreprises à comprendre l’interaction entre les équipes et les systèmes techniques avec lesquels elles interagissent.

Les services échoueront, c'est une réalité. La façon dont une entreprise réagit en cas d'échec peut faire toute la différence entre conserver ou perdre des clients.

La gestion complète des services permet de rationaliser le cycle de réponse aux incidents en permettant aux ingénieurs de gérer leurs services en production, ce qui réduit le nombre de transferts et peut réduire considérablement le MTTR en cas d'incident. Placer des experts en la matière, ayant une connaissance directe des systèmes qu'ils prennent en charge, dans le rôle de premiers intervenants permet de réduire le chaos et la panique inévitables qui découlent de l'incertitude.

3. Opérations en libre-service

Pour les organisations qui tentent de passer d’une approche réactive basée sur des tickets à une approche proactive, le modèle d’opérations en libre-service est un outil clé pour les opérations en temps réel.

Que signifie « temps réel » en matière de libre-service ? Plutôt que de confiner les informations et le contrôle à des silos fonctionnels, le libre-service délègue le contrôle aux bonnes personnes de l’organisation.

Le libre-service consiste en partie à communiquer des informations, comme le partage du contexte du système, de la visibilité, de la propriété du service, des bons manuels d'exploitation et de l'aide à la décision. L'autre partie consiste à libérer les experts en la matière pour qu'ils puissent effectuer des tâches qui ajoutent de la valeur à l'entreprise, plutôt que d'être continuellement interrompus par des demandes.

Dans un scénario de gestion d'incident, cela signifie que les premiers intervenants disposent des informations et du contrôle dont ils ont besoin pour pouvoir agir ou pour que l'IA agisse en leur nom. Cela se traduit par une résolution plus rapide et moins d'escalades perturbatrices !

Libre-service avec Runbook Automation

Vous pouvez créer du libre-service avec l’automatisation du livre d’exploitation. Automatisation du livre d'exécution permet aux experts en la matière de définir des flux de travail qui couvrent différents outils, scripts, API, autorisations, informations d'identification et procédures de ligne de commande et de déléguer ce processus aux personnes qui en ont besoin.

L'automatisation des cahiers d'exécution permet aux bonnes personnes d'effectuer en toute sécurité des tâches qui auparavant ne pouvaient être effectuées que par des experts en la matière. Elle permet également à vos experts en la matière de prendre leurs meilleures pratiques et de les transformer en pratiques courantes utilisées par tout le monde.

L'automatisation du livre d'exploitation peut être utilisée tout au long du cycle de vie. En cas d'incident, les intervenants ont la possibilité de diagnostiquer un problème et de disposer des actions automatisées à portée de main, qu'ils devraient normalement transmettre aux experts. Cela fonctionne également pour les demandes de service quotidiennes normales. Pour les tâches de provisionnement, de modification et de maintenance, au lieu d'attendre constamment que quelqu'un fasse quelque chose pour vous, l'automatisation du livre d'exploitation permet aux utilisateurs d'effectuer la tâche eux-mêmes. En savoir plus sur les opérations en libre-service.

Notre opportunité de transformer la manière dont les opérations sont effectuées s’étend sur l’ensemble du cycle de vie des opérations. L'application d'une concentration sur les opérations en temps réel à ces autres tâches de travail opérationnels peut faire une grande différence dans l'amélioration de la vitesse de l'entreprise ! Pour savoir comment PagerDuty peut vous aider, inscrivez-vous pour un essai gratuit de 14 jours aujourd'hui.