Quartet konnte mithilfe von PagerDuty die Anzahl der Vorfälle um 25 % senken

PagerDuty image

Größe: 100 Mitarbeiter

Industrie: Informationstechnologie und Dienstleistungen

Standort: New York, NY

Kunde seit: 2016

Quartet entwickelt und liefert eine Cloud-basierte Plattform, die die Kommunikation und Zusammenarbeit von medizinischen und psychiatrischen Dienstleistern bei der Patientenversorgung erleichtert. Die Plattform basiert auf fortschrittlichen Analysen, bewährten Behandlungsprogrammen und moderner Technologie, damit die Gesundheitsversorgung für Dienstleister, Patienten und Versicherer funktioniert. Da der Schwerpunkt darauf liegt, Gesundheitsdienstleister rund um die Uhr zu bedienen und höchste Datensicherheit und Privatsphäre zu gewährleisten, ist es wichtig, ihre internen Systeme genau im Auge zu behalten und sicherzustellen, dass alles effizient und sicher funktioniert. Mustafa Shabib, Leiter der technischen Abteilung, ist für den Aufbau der Technologiedienste und -systeme bei Quartet verantwortlich. Mit zunehmendem Unternehmenswachstum, einschließlich der Erweiterung von Shabibs Team, wurde die Einführung einer Vorfallmanagementlösung zur obersten Priorität, um sicherzustellen, dass die Plattform die Bedürfnisse und Erwartungen der Kunden erfüllt.

Die Herausforderung meistern, Vorfälle schneller zu lösen

Zu Beginn, als Quartet noch ein kleineres Team von sieben Ingenieuren hatte, begannen sie, Sumo Logic und Slack zu verwenden, um IT-Einblicke in Echtzeit zu liefern. Die Ingenieure bekamen ihre Benachrichtigungen über Vorfälle an einen bestimmten Kanal innerhalb von Slack weitergeleitet, über den sie die Benachrichtigungen auf ihren Mobiltelefonen und Desktops empfangen konnten. Es gab keine Bereitschaftspläne, sodass sich bei einem Problem alle gleichzeitig darum kümmerten. Schließlich wurde nach einer Diskussion eine einzelne Person aktiv – dieser Schwarmprozess bedeutete, dass die Dienstunterbrechung anhielt, was zu einer erhöhten mittleren Zeit bis zur Bestätigung (MTTA) und mittleren Zeit bis zur Lösung (MTTR) führte. Die Benachrichtigungen von Sumo Logic und Slack vermittelten im Team kein Gefühl der Dringlichkeit. „Wir haben unsere Sorgfaltspflicht bei der Lösung von Vorfällen nicht so schnell erfüllt, wie wir es mit einer anderen Lösung und einem anderen Prozess hätten tun können“, sagte Shabib. Als das Unternehmen wuchs, forderte das Fehlen einer Vorfallmanagementlösung seinen Tribut von der Bereitstellung der ständig verfügbaren Plattform, die Kunden und Patienten mittlerweile erwarteten.

Implementierung einer Lösung zur Reduzierung von MTTA und MTTR

Als das Engineering-Team bei Quartet wuchs, wurde die Notwendigkeit, eine Lösung zur Unterstützung der Wartung der kritischen Dienste und Systeme bereitzustellen, zu einer dringenden Angelegenheit. PagerDuty wurde sorgfältig ausgewählt, um dem Unternehmen dabei zu helfen, die Herausforderungen bei der schnellen Lösung von Vorfällen zu bewältigen und gleichzeitig sein Ziel zu unterstützen, MTTA, MTTR und die Gesamtzahl der auftretenden Vorfälle zu reduzieren. Quartet sah sich einige andere Lösungen an, fand jedoch, dass PagerDuty ausgereifter war und insgesamt den besseren Ruf in der Branche genoss.

Die gesamte Infrastruktur von Quartet ist in AWS aufgebaut und sie nutzen CloudWatch für die Alarmierung und Überwachung von Ressourcen auf Systemebene. Diese Alarme werden über PagerDuty, den Webhost, und außerhalb über ihren Cloud-basierten Protokollverwaltungs- und Analysedienst eines Drittanbieters, Sumo Logic, ausgelöst. Auf allen ihren Hosts laufen Agenten, die die Protokolle an Sumo Logic senden und jede Minute geplante Abfragen erstellen, die PagerDuty für Vorfallwarnungen auslösen.

Shabib merkte an, dass eine Lösung, die Warnmeldungen und Erinnerungen ausgibt, bis das Problem gelöst ist, dabei half, ein Verantwortungsbewusstsein im Team zu schaffen. Dies trug letztendlich dazu bei, die Erstellung qualitativ hochwertiger Protokolle durchzusetzen und es den Mitarbeitern zu ermöglichen, diese Probleme schneller zu beheben, wenn sie auftraten. Das Team verfügt außerdem über eine Eskalationsrichtlinie, die in Kraft tritt, wenn der primäre Kontakt die Vorfälle nicht bestätigen kann, sodass der sekundäre Bereitschaftskontakt Maßnahmen ergreifen kann.

„Ich denke, PagerDuty hilft dabei, die Verantwortung in die Hände der Ingenieure zu legen. Sie sind näher an den Vorfällen dran, sodass bei einem Vorfall die richtigen Leute, die die Software tatsächlich entwickelt haben, benachrichtigt werden und das Problem lösen und verbessern können“, erklärte Shabib. Dies sei viel besser als die „Schwarmtechnik“, die möglicherweise Vorfälle in die Hände von Personen ohne den richtigen Kontext oder das nötige Wissen zur Lösung legen könnte, ganz zu schweigen von dem ineffizienten Prozess, an dem das gesamte Team beteiligt war, obwohl das Problem auch von einer einzigen Person hätte gelöst werden können.

Das Ziel des Unternehmens besteht darin, seine Betriebskennzahlen zu verbessern und die mittlere Zeit bis zur Bestätigung (MTTA) und Lösung (MTTR) zu verkürzen. „Diese Kennzahlen haben sich mithilfe von PagerDuty erheblich verbessert, was zu einem Rückgang der Vorfälle um 25 % geführt hat“, so Shabib. Durch das Erfassen von Kennzahlen mithilfe der Analysefunktion von PagerDuty kann das Team vergangene Vorfälle nachverfolgen und die betriebliche Effizienz des Vorfallmanagementprozesses messen.

„PagerDuty ist robust und garantiert, dass Sie informiert werden, wenn mit Ihren Apps Probleme auftreten. Es gibt nicht viele Dienste auf dem Markt, die diese Garantien bieten können.“

– Mustafa Shabib , Technischer Leiter, Quartett

Gewährleistung von Belastbarkeit und garantierter Lieferung

PagerDuty hat es Quartet ermöglicht, Vorfälle schnell und effizient zu lösen und die Anzahl der Vorfälle um 25 % zu senken, während gleichzeitig MTTA und MTTR reduziert wurden. „Ohne PagerDuty würden wir Menschen auf eine Weise enttäuschen, die über die bloßen Kunden hinausgeht. Es würde sich negativ auf das Leben der Menschen auswirken, wenn wir zulassen würden, dass diese Vorfälle passieren, ohne sie zu lösen oder die Dringlichkeit zu haben, sie zu lösen. Das ist nicht nur ein geschäftliches Versagen, sondern vielmehr ein ethisches Versagen gegenüber den Patienten“, sagte Shabib.