PagerDuty image

Claranet kooperiert mit PagerDuty für Echtzeitbetrieb

PagerDuty image

Größe: 1.001 - 5.000 Mitarbeiter

Industrie: Technologie

Standort: London, Großbritannien

Kunde seit: 2016

Wichtige Integrationen:

AppDynamics
AWS EventBridge
Google Cloud
Grafana
JIRA
Microsoft Azure
Neues Relikt
Prometheus
Service jetzt
Locker
Zabbix

Claranet wurde 1996 gegründet und ist ein IT-Service-Management-Unternehmen, das Netzwerk-, Hosting- und verwaltete Anwendungsdienste für Organisationen auf der ganzen Welt bereitstellt. Mit der Kundenerfahrung als zentralem Bestandteil der Unternehmensmission hilft Claranet seinen Kunden, die Technologielücke zu schließen, indem es Werkzeuge, Automatisierung und IT-Dienste bereitstellt, damit sie sich auf Innovationen konzentrieren und gleichzeitig weiterhin an der internen Entwicklung und Wartung arbeiten können.

Andrew Rundle, leitender Ingenieur bei Claranet, ist Teil des Group Engineering-Teams, das die Infrastruktur- und Betriebsdienste von Claranet überwacht, insbesondere das Hosting in den eigenen Rechenzentren und der öffentlichen Cloud. Die Aufgaben seines Teams reichen von der Bereitstellung von Servern und Containern bis hin zur Verwaltung der Anwendungserfahrung und der DevOps-Prozesse für ihre Kunden. „Das Ziel unseres Teams ist es, die Kosten unserer Kunden zu senken und ihnen zu helfen, einen effizienteren Betrieb aufzubauen und gleichzeitig neue Technologien, Produkte und Dienste einzuführen“, erklärte Rundle.

Ein wachsendes Netzwerk bringt wachsende Schmerzen mit sich

Claranet erlebte aufgrund mehrerer Unternehmensübernahmen eine Phase schnellen Wachstums und konnte seine Mitarbeiterzahl innerhalb weniger Jahre fast verdreifachen. Dieses Wachstum führte zur Einstellung mehrerer neuer IT-Teams bei Claranet sowie zu einem Zustrom neuer Kunden, Anwendungen und Tools zur Unterstützung.

Dieses interne und externe Wachstum sowie die Integration neuer Betriebsmodelle in bestehende IT-Prozesse führten zu einigen neuen Herausforderungen, darunter:

  • Burnout bei Einsatzkräften aufgrund unausgewogener Bereitschaftspläne und Rotationen
  • Aufrechterhaltung von SLAs mit Kunden aufgrund von Kommunikationsproblemen, die durch den Zustrom neuer Teams und Technologien verursacht werden
  • Technologieausbreitung durch die Aufnahme neuer Teams, Tools und Dienste in die Organisation
  • Verzögerungen bei der Bestätigung von Supportanrufen, die sich negativ auf MTTR und Berichtsfunktionen auswirkten
  • Ineffizienzen durch monolithische Überwachungssysteme, manuelle Prozesse und isolierte Arbeitsabläufe

Aufgrund des Wachstums neuer Kunden, Produkte und Dienstleistungen benötigte das Group Engineering-Team von Claranet eine End-to-End-Plattform für das Vorfallmanagement, um Vorfälle richtig zu erkennen, darauf zu reagieren und sie zu lösen, bevor sie sich negativ auf interne und externe Kunden auswirkten. „Unsere Teams erhielten außerhalb der Geschäftszeiten vier- oder fünfmal pro Nacht Anrufe für ein Produkt. Dies führte zu Reaktionsverzögerungen, Ermüdung und Frustration für unser Team. Einige unserer Ingenieure verließen das Unternehmen, weil das bestehende Modell einfach nicht tragfähig war“, erzählte Rundle.

Automatisierung der manuellen Arbeit

Vor PagerDuty nutzten Rundles Teams lokale Ressourcen des Network Operations Center (NOC), um eingehende Warnmeldungen zu bearbeiten. Dies war ein manueller Prozess, der auf mehreren menschlichen Interaktionen beruhte, bevor ein Vorfall den zuständigen Einsatzleiter erreichte. Einige dieser Teams und Regionen hatten zentralisierte NOCs, während andere Regionen einen DevOps- und SRE-Ansatz für technische Abläufe verfolgten, was zu einem HybridOps-Modell innerhalb des Unternehmens führte. Infolgedessen fiel es den Teams schwer, Silos aufzubrechen und ein gewisses Maß an Standardisierung und Technologieakzeptanz in ihrem gesamten Überwachungs-Stack sicherzustellen.

Die Ressourcen waren durch den Anrufansturm erschöpft und die lokalen NOCs leiteten eingehende Alarme nicht richtig an das Group Engineering Team weiter, da sie sich der Schwere der Vorfälle, auf die sich die Alarme bezogen, nicht vollständig bewusst waren. „NOC-Teams erhielten Alarme außerhalb der Arbeitszeiten und benachrichtigten unser Team erst am nächsten Morgen, was problematisch wurde, wenn innerhalb unserer Dienste schwerwiegendere Vorfälle auftraten“, berichtete Rundle. Die Abhängigkeit von manuellen Prozessen und menschlicher Interaktion führte zu einem Engpass im Reaktionsprozess und wirkte sich negativ auf die MTTR aus.

Mit PagerDuty Live-Anrufweiterleitung Rundles Team kann nun ein Self-Service-Modell erstellen, um sicherzustellen, dass eingehende Vorfälle automatisch zur richtigen Zeit an die richtigen Ressourcen gesendet werden, um schnell und effizient reagieren zu können. PagerDuty Live Call Routing wird bei Claranet auf zwei verschiedene Arten eingesetzt:

  • Intern : Wenn Vorfälle oder Ereignisse auftreten, die von Überwachungssystemen zunächst nicht erfasst werden, oder in bestimmten Situationen, in denen Teams für einen plattformspezifischen Vorfall benötigt werden, können die richtigen Teams sofort benachrichtigt werden, um eine angemessene Reaktion zu orchestrieren.
  • Extern : Einige Kunden verfügen über einen direkten Kommunikationskanal zum Bereitschaftsteam von Claranet, sodass sie schwerwiegende Vorfälle bei Bedarf direkt an die richtigen Einsatzkräfte weiterleiten können.

„Mit Live Call Routing sind wir nun im Wesentlichen an einem Punkt angelangt, an dem wir uns nicht mehr auf diese menschliche Interaktion verlassen müssen. Und im Laufe der Zeit haben auch andere Teams im gesamten Unternehmen die Lösung aufgrund ihrer Self-Service-Funktionalität übernommen“, erklärte Rundle.

Vorteile mit PagerDuty

Claranet hat PagerDuty in mehreren global verteilten Teams innerhalb der Organisation eingesetzt, darunter in den Netzwerk-, Sicherheits- und Engineering-Teams. Rundles Team verwendet PagerDutys Integration mit Slack um schnell und reibungslos über die Reaktion und das Management von Vorfällen zu kommunizieren, während sie auftreten, und gleichzeitig sicherzustellen, dass Stakeholder wie das Führungsteam den aktuellen Status eines Vorfalls vollständig einsehen können. „Vor PagerDuty mussten wir die Leute einzeln kontaktieren, um zu fragen, was los war, aber mit der Slack-Integration sehen wir die Warnmeldungen von allen und können tatsächlich Korrelationen über die gesamte Plattform hinweg analysieren“, erzählt er.

Darüber hinaus hat PagerDuty dazu beigetragen, das Datenmanagement und die Berichterstattung des Vorfallmanagementprozesses an wichtige Stakeholder und Führungsteams zu verbessern. „PagerDuty hilft uns aus der Datenperspektive, weil man die Daten tatsächlich sehen, sie dem Management vorlegen und sagen kann: ‚Seht her, das ist es wert, Zeit und Geld zu investieren‘“, erklärte Rundle.

Mit PagerDuty haben Claranets regionale Teams die Autonomie, die Plattform auf eine Weise zu nutzen, die am besten zu den bestehenden Prozessen eines bestimmten Teams passt, und jedes regionale Team kann PagerDuty auf seine eigene, originelle Weise nutzen. „PagerDuty ist eine einfache, raffinierte Anwendung, die es unseren Teams letztendlich ermöglicht, ihre Arbeitsbelastung zu reduzieren und die Auswirkungen anhand der daraus gewonnenen Daten wirklich zu sehen“, erklärte Rundle.

Claranet hat mit PagerDuty noch weitere Vorteile festgestellt, darunter:

  • Verbesserungen der MTTR durch den Wegfall manueller Arbeit und die Automatisierung des Incident-Response-Prozesses
  • Schnellere Reaktion und Lösung eingehender Warnmeldungen mit PagerDuty Live-Anrufweiterleitung
  • Reduzierte Betriebskosten und erhöhte Serviceverfügbarkeit durch neue Prozesseffizienzen
  • Bessere Transparenz für wichtige Stakeholder hinsichtlich Bereitschaftsleistung und Vorfalllösung durch Analyse und Datenberichterstattung
  • Ein zentraler Aufnahmepunkt, der alle Überwachungsdaten aggregiert durch PagerDutys Ökosystem mit über 350 Integrationen

„ PagerDuty als zentrale Aggregationsebene spart uns Zeit, da wir keine Überwachungssystemintegration aufbauen und alles nach Dienst zuschneiden müssen.“

Andrew Rundle , leitender Ingenieur, Claranet

Ein Blick in die Zukunft

Claranet plant, den Einsatz von PagerDuty in verschiedenen Teams der globalen Organisation weiter auszubauen, darunter in den Infrastruktur-, Public Cloud- und Sicherheitsteams der gesamten Gruppe. „Wir möchten viel proaktiver sein und noch mehr Automatisierung nutzen, um vorherzusagen, was wirklich vor sich geht, und so viel Lärm wie möglich zu reduzieren“, teilte Rundle mit. Sein Team erwägt auch die Implementierung PagerDuty Ereignisintelligenz um ihr Verständnis der Entstehung eines Vorfalls zu vertiefen und um zu erfahren, wie sie ihre Reaktionsverfahren im gesamten Unternehmen verbessern können.

Um mehr darüber zu erfahren, wie PagerDuty globale Unternehmen beim digitalen Betriebsmanagement unterstützt, probieren Sie PagerDuty heute .