PagerDuty image

Der verbesserte Incident-Management-Prozess von Honeycomb beseitigt Engpässe und führt zu positiven Ergebnissen im gesamten Unternehmen

PagerDuty image

Größe: 201-500

Industrie: Technologie

Standort: San Francisco, Kalifornien

Wichtige Integrationen:

Locker
Zoom

Vor Jeli

Honeycomb hat sich schnell zu einem führenden Unternehmen im Bereich Observability entwickelt, das von einem innovativen Team angeführt wird. Während einer Phase unglaublichen Wachstums begann das SRE-Team, die wachsenden Anforderungen an die Analyse und das Lernen aus Vorfällen zu spüren:

  • Der Vorgang war ziemlich arbeitsintensiv und umfasste das manuelle Kopieren und Einfügen von Slack-Kanalnachrichten in Google Docs sowie das Verstehen wichtiger Zeitpunkte über verschiedene Systeme und Tools hinweg – und das alles mit einem kleinen Team.
  • Bei der Kommunikation und Koordination zwischen internen Teams während eines aktiven Vorfalls fehlte es an klarer Zuständigkeit.
  • Vorfälle führten häufig dazu, dass interne Teams einen gemeinsamen Slack-Kanal für Betriebsabläufe nutzten, um Fragen zu stellen. Dadurch war es für die Helfer schwierig, sich auf die eigentliche Aufgabe zu konzentrieren – die Diagnose und Lösung des Vorfalls. Die wichtigste Änderung, die Jeli ermöglichte, bestand darin, dass ein Problem, sobald es interessant erscheint, nun in einem eigenen Jeli-Kanal bereitgestellt wird.

Das Entwicklungsteam von Honeycomb suchte nach einer besseren Möglichkeit, aus den Vorfällen zu lernen, die sie erlebten (später, nachdem sie Jeli eine Weile verwendet hatten, erweiterten sie die Nutzung auch, um die Zusammenarbeit mit internen Teams wie Vertrieb und Kundenerfolg bei Vorfällen zu verbessern). Das Team wollte Themen und Muster finden, die dabei helfen würden, Lücken in ihren Systemen und Verbesserungsbereiche in technischen und nicht-technischen Teams zu identifizieren. Honeycomb suchte nach einer Lösung, die ihnen helfen würde, aus ihren Vorfällen zu lernen, und sie fanden das und noch viel mehr – Jeli hilft dem Team jetzt auch dabei, effizienter auf Vorfälle zu reagieren und sie zu analysieren.

Eine Lösung finden

Honeycomb begann Jeli zur Vorfallanalyse zu verwenden, mit dem anfänglichen Ziel, sein SRE-Team zu skalieren und einzelne Ausfallpunkte beim Vorfallmanagement zu minimieren. Sie hofften auch, Erkenntnisse aus ihren Vorfällen mit Stakeholdern in den Bereichen Vertrieb, Kundenerfolg, Führung und darüber hinaus teilen zu können.

Da eine Lernkultur bereits fest in der Unternehmenskultur verankert ist, bestand der nächste Schritt darin, einige der Herausforderungen zu lösen, die mit der Information der Beteiligten während des Vorfalls verbunden sind. Honeycomb wandte sich an Jelis Incident Response Bot, um seine Vorfallmanagementpraxis weiter auszubauen, insbesondere angesichts des stetigen Wachstums seiner Teams.

„Das ist das Zeug, das man mit Jeli bekommt, einem temporären Kanal, der an einem einzigen Ort auffindbar ist. Jeder weiß, was es ist. Jeder kann es tun.“

– Ian Smith , Technischer Leiter, Honeycomb

Die Ergebnisse

Und heute, im Schnelldurchlauf, hat Honeycomb sein Vorfallmanagement erfolgreich skaliert (und erweitert), von einer Person auf das gesamte Platform Engineering-Team, das nun sowohl an der Reaktion auf Vorfälle als auch an Lernüberprüfungen teilnimmt.

  • Der IR-Bot von Jeli erleichtert den Antwortenden die Kommunikation mit Teammitgliedern, indem er automatisch Nachrichten an wichtige Slack-Kanäle sendet, um Updates mit anderen Teams in den Bereichen Vertrieb, Kundensupport und Führung zu teilen.
  • Durch den automatischen Import von Nachrichten und Slack-Threads in Jeli wird die Analyse von Vorfällen im Vergleich zur bisherigen Methode des Kopierens und Einfügens von Nachrichten in ein Google-Dokument zum Kinderspiel.
  • Jelis Narrative Builder hat Honeycomb dabei geholfen, einen Prozess zu entwickeln, bei dem Ingenieure mehr Zeit mit dem Schreiben hochwertiger Berichte verbringen können und weniger Zeit mit der Suche nach Informationen. Sie können ihre Zeit damit verbringen, Vorfälle zu untersuchen, die ihrem Team Lern- und Entwicklungsmöglichkeiten bieten. Dies wurde erreicht, indem sie den Narrative Builder verwendeten, um eine einfache (und unterhaltsamere) Möglichkeit zu schaffen, eine Zeitleiste zu erstellen, die dabei hilft, die Geschichte des Vorfalls zu erzählen.

    „Als wir Jeli evaluierten, machte ich ein Experiment, bei dem ich einen schwerwiegenden Vorfall (Dauer über 7 Stunden) manuell annotierte. Dafür brauchte ich etwa 4 Tage (was wahrscheinlich zwischen 18 und 25 Stunden ausmachte). Später analysierte ich den Vorfall erneut mit Jeli und es dauerte etwa 6 Stunden. Diese Analysedauer war einer der wichtigsten Punkte für den Wechsel zu Jeli.“

    -Fred Herbert , Mitarbeiter SRE, Honeycomb

Zusammenfassung

Mit der Einführung von Jeli als Schlüsselkomponente des Vorfallmanagementprogramms von Honeycomb konnten sie den Lebenszyklus des Vorfallmanagements wesentlich effizienter und nützlicher gestalten. Jelis IR-Bot hat den Mitarbeitern mehr Zeit gegeben, sich auf die Behebung des Problems zu konzentrieren und qualitativ hochwertigere Nachbesprechungen von Vorfällen zu erstellen, die echte Fakten und Erfahrungen erfassen und kritische Gespräche im gesamten Unternehmen anregen.

„Unser Managementteam nutzt Vorfallanalysen in Jeli, um fundierte Entscheidungen bei unserer Roadmap-Planung zu treffen. Die Plattform ermöglicht es uns, auf Dokumente und Erkenntnisse zu verweisen, um die kontinuierliche Verbesserung unserer Software voranzutreiben.“

– Ian Smith , Technischer Leiter, Honeycomb

Jeli ist mittlerweile ein wichtiger Bestandteil des Onboarding-Prozesses von Honeycomb für neue Bereitschaftstechniker und sorgt für einen einfachen und wiederholbaren Prozess, während das Unternehmen weiter wächst.