PagerDuty image

Le processus amélioré de gestion des incidents de Honeycomb élimine les goulots d'étranglement et conduit à des résultats enrichissants dans toute l'organisation

PagerDuty image

Taille: 201-500

Industrie: Technologie

Emplacement: San Francisco, Californie

Intégrations clés :

Mou
Zoom

Avant Jeli

Honeycomb est rapidement devenu un leader dans le domaine de l'observabilité grâce à une équipe innovante à la tête de l'entreprise. Au cours d'une période de croissance incroyable, leur équipe SRE a commencé à ressentir les besoins croissants en matière d'analyse et d'apprentissage des incidents :

  • Le processus était assez laborieux et impliquait de copier et coller manuellement les messages du canal Slack dans Google Docs, de comprendre les moments clés dans le temps sur des systèmes et des outils disparates, tout en ayant une petite équipe.
  • La communication et la coordination entre les équipes internes lors d’un incident actif manquaient d’une appropriation claire.
  • Les incidents ont souvent amené les équipes internes à utiliser un canal Slack opérationnel partagé pour poser des questions, ce qui a empêché les intervenants de se concentrer sur la tâche à accomplir : diagnostiquer et résoudre l'incident. Le principal changement que Jeli a contribué à faciliter est que dès qu'un problème semble intéressant, il devient désormais un canal Jeli dédié.

L'équipe d'ingénierie de Honeycomb cherchait une meilleure façon de tirer des leçons des incidents qu'elle rencontrait (plus tard, après avoir utilisé Jeli pendant un certain temps, elle a également étendu son utilisation pour améliorer la façon dont elle travaillait avec les équipes internes telles que les ventes et le service client lors des incidents). L'équipe souhaitait trouver des thèmes et des modèles qui l'aideraient à identifier les lacunes de ses systèmes et les domaines d'amélioration au sein des équipes techniques et non techniques. Honeycomb cherchait une solution qui l'aiderait à tirer des leçons de ses incidents, et elle a fini par obtenir cela et bien plus encore : Jeli aide désormais également l'équipe à réagir et à analyser les incidents de manière plus efficace.

Identifier une solution

Honeycomb a commencé à utiliser Jeli pour l'analyse des incidents avec l'objectif initial de faire évoluer son équipe SRE et de minimiser les points de défaillance uniques en matière de gestion des incidents. Ils espéraient également partager les enseignements tirés de leurs incidents avec les parties prenantes des ventes, de la réussite client, de la direction et au-delà.

La culture d'apprentissage étant déjà bien ancrée dans la culture de l'entreprise, l'étape suivante consistait à résoudre certains des défis liés à l'information des parties prenantes pendant l'incident. Honeycomb s'est tourné vers le robot de réponse aux incidents de Jeli pour l'aider à continuer de développer sa pratique de gestion des incidents, en particulier à mesure que ses équipes continuaient de s'agrandir.

« C'est ce que vous obtenez avec Jeli, qui est un canal temporaire, qui est détectable à un seul endroit. Tout le monde sait ce que c'est. Tout le monde peut le faire. »

– Ian Smith , Responsable ingénierie, Honeycomb

Les résultats

Aujourd’hui, Honeycomb a réussi à faire évoluer (et à développer) sa pratique de gestion des incidents, passant d’une seule personne à l’ensemble de l’équipe d’ingénierie de la plate-forme, qui participe désormais à la fois à la réponse aux incidents et aux revues d’apprentissage.

  • Le bot IR de Jeli permet aux intervenants de communiquer plus facilement avec les membres de l'équipe, en diffusant automatiquement des messages sur les canaux Slack critiques pour partager les mises à jour avec d'autres équipes des ventes, du support client et de la direction.
  • L'importation automatique de messages et de fils de discussion Slack dans Jeli facilite l'analyse des incidents par rapport à la méthode précédente consistant à copier et coller des messages dans un document Google.
  • Le Narrative Builder de Jeli a aidé Honeycomb à créer un processus dans lequel les ingénieurs peuvent passer plus de temps à rédiger des rapports de haute qualité et moins de temps à rechercher des informations. Ils peuvent ainsi consacrer leur temps à enquêter sur des incidents qui offrent des opportunités d'apprentissage et de croissance à leur équipe. Ils y sont parvenus en utilisant le Narrative Builder pour créer une manière légère (et plus agréable) de créer une chronologie pour aider à raconter l'histoire du déroulement de l'incident.

    « Lorsque nous avons évalué Jeli, j’ai fait une expérience dans laquelle j’avais annoté un incident majeur (durée de plus de 7 heures) à la main, et cela m’avait pris environ 4 jours (ce qui représentait probablement entre 18 et 25 heures). J’ai ensuite réanalysé l’incident avec Jeli et cela m’a pris environ 6 heures. Cette durée d’analyse a été l’un des points clés du passage à Jeli. »

    -Fred Herbert , Personnel SRE, Honeycomb

Résumé

Avec l'introduction de Jeli comme composant clé du programme de gestion des incidents de Honeycomb, ils ont pu rendre le cycle de vie de la gestion des incidents beaucoup plus efficace et utile. Le bot IR de Jeli a redonné aux employés plus de temps pour se concentrer sur la résolution du problème et pour créer des analyses post-incident de meilleure qualité qui capturent des faits et des expériences réels et suscitent des conversations critiques au sein de l'organisation.

« Notre équipe de direction utilise les analyses d’incidents dans Jeli pour prendre des décisions éclairées dans la planification de notre feuille de route. La plateforme nous permet de référencer des documents et des enseignements pour favoriser l’amélioration continue de notre logiciel. »

– Ian Smith , Responsable ingénierie, Honeycomb

Jeli est désormais un élément clé du processus d'intégration de Honeycomb pour les nouveaux ingénieurs d'astreinte, créant un processus simple et reproductible à mesure que l'entreprise continue de croître.