Nelnet erhöht die Betriebszeit, steigert die Mitarbeiterproduktivität und senkt die Kosten mit PagerDuty
Größe: Über 3.000
Industrie: Finanzdienstleistungen
Standort: Lincoln, Nebraska
Kunde seit: 2014
Nelnet legt großen Wert auf die Kundenorientierung und bietet innovative Bildungsdienstleistungen in den Bereichen Kreditverwaltung, Zahlungsabwicklung, Bildungsplanung und Vermögensverwaltung. Diese Produkte und Dienstleistungen helfen Schülern und Familien bei der Planung, Vorbereitung und Finanzierung ihrer Ausbildung und machen gleichzeitig die Verwaltungs- und Finanzprozesse für Schulen und Finanzorganisationen effizienter. Der Hauptsitz des Unternehmens befindet sich in Lincoln, Nebraska, und über 3.400 Mitarbeiter betreuen Kunden während des gesamten Bildungszyklus.
Die IT-Abteilung von Nelnet verfügt über mehrere Serviceebenen: Aufnahme, Bereitschaftsdienst, Eskalation sowie Produktbesitzer und -architekten. Ryan Regnier ist IT-Manager bei Nelnet und verantwortlich für das Team der zweiten Ebene, das Bereitschaftsdienst hat, Probleme eskaliert und auf auftretende Ausfälle reagiert. Die Leitung eines Teams dieser Art umfasst eine große Anzahl kritischer Vorfallwarnungen und das Herausfinden, wie Vorfälle an andere Serviceebenen eskaliert werden. Aus diesen Gründen suchten sowohl Ryan als auch das Unternehmen nach einer Lösung, die diese Prozesse vereinfachen könnte.
Überwindung manueller Prozesse zur Verwaltung der Bereitschaftsplanung und Vorfalleskalation
Nelnet überwacht alles, von Webservern, die Kreditkartenzahlungen verarbeiten, bis zu Netzwerkgeräten, die Datenverkehr an Web- und Datenbankserver übertragen. Das Unternehmen überwacht zu einem bestimmten Zeitpunkt 35.000 Ereignisse, was dazu führt, dass zu jeder Tageszeit Warnungen ausgelöst werden. Bevor Nelnet PagerDuty implementierte, war die Verwaltung von Bereitschaftsplänen und Eskalationen aufgrund der vorhandenen manuellen Prozesse eine Herausforderung. Wenn eine App ausfiel, mussten die Mitglieder des Network Operations (NOC)-Teams manuell Seiten von Tabellenkalkulationen durchforsten, um herauszufinden, wen sie kontaktieren mussten. In den Tabellenkalkulationen wurde dargelegt, was bei einer Vorfallwarnung zu tun ist, an wen das Problem eskaliert werden sollte und wie auf jeden einzelnen Vorfall zu reagieren ist. Dieser manuelle Prozess ließ sich nicht leicht skalieren, was es den Teams erschwerte, effizient zu arbeiten, und die Ausfallzeit verlängerte. Dies hatte nicht nur auf Nelnet, sondern auch auf die Kunden negative Auswirkungen; wenn die zentrale Site zur Zahlungsabwicklung ausfiel, konnten die Kunden keine Zahlungen leisten, was zu Umsatzeinbußen und Kundenunzufriedenheit führte.
Auch die Frage, wen man im Falle eines Vorfalls kontaktieren sollte, war ein Problem. Selbst mit einem rund um die Uhr verfügbaren NOC-Team wurden die falschen Personen zur falschen Zeit kontaktiert. Das war nicht nur frustrierend, es gab auch keine Möglichkeit, die Übermittlung von Warnmeldungen zu automatisieren oder anzupassen. All diese Hindernisse führten zu Verzögerungen bei der Lösung von Vorfällen, dazu, dass Kunden keine Zahlungen leisten konnten, und zu einem Produktivitätsverlust aufgrund des langwierigen und komplexen manuellen Prozesses.
Steigerung der Betriebseffizienz und Senkung der Kosten
Nelnet hat PagerDuty eingeführt, um die Herausforderungen rund um Planung, Alarmierung und Bereitschaftseskalation zu minimieren und die Kosten zu senken. Ein Bereich, in dem sie Kosten senken konnten, war das NOC-Team. Mit der automatisierten und zuverlässigen Vorfallmanagementplattform von PagerDuty musste Nelnet nicht mehr für eine rund um die Uhr besetzte NOC-Umgebung bezahlen. „Bevor wir PagerDuty eingeführt haben, suchten wir nach Möglichkeiten, Kosten zu senken und unser Vorfallreaktionsmanagement zu verbessern. Die PagerDuty Lösung hat sich für Nelnet als die richtige erwiesen. PagerDuty macht das Leben einfacher“, sagte Regnier.
Schätzungsweise 35.000 Vorfälle werden durch die Überwachungstools von Nelnet generiert. Diese Vorfälle, die durch Dateiübertragungen und externe Websites, einschließlich der auf Amazon Web Services gehosteten, generiert werden, werden direkt an PagerDuty gesendet. Der typische Anwendungsfall für das Bereitschafts- und Eskalationsteam besteht aus Problemen, die von einem ihrer Server oder Dienste ausgehen. PagerDuty benachrichtigt die Bereitschaftsmitarbeiter innerhalb von Sekunden über das Problem. Auf diese Weise können die Bereitschaftskontakte das Problem herausfinden, es bei Bedarf eskalieren und lösen.
Derzeit verfügt Nelnet über 80 Eskalationsrichtlinien, die mehrmals täglich angewendet werden. Ein Beispiel für die Anwendung dieser Richtlinien war ein großer Vorfall, bei dem die Hilfe mehrerer Teams erforderlich war. Das Vorfallmanagementteam meldete sich bei PagerDuty an, um eine E-Mail zu senden, die die entsprechenden Personen über das Problem informierte. Die Lösung ermöglichte es dann den Bereitschaftsmitarbeitern, diese Personen zu kontaktieren, anstatt die Benachrichtigung an alle in diesen Teams zu senden. Alle Beteiligten nahmen letztendlich an dem Vorfallanruf teil, mit Ausnahme einer Person, die alle 5 Minuten angerufen wurde, bis die Eskalationsrichtlinie nach 20 Minuten in Kraft trat. Dank der Eskalationsfunktion konnte der Ersatzhelfer die Warnung bestätigen und bei der Lösung des Problems helfen.
„Ich würde jedem empfehlen, PagerDuty in Betracht zu ziehen. Die Kosteneinsparungen sind nicht zu übersehen. Mit PagerDuty wird die diensthabende Person bei jedem Vorfall bequem benachrichtigt. Es gibt so viel Flexibilität bei der Planung und Benachrichtigung der richtigen Personen, dass die Entscheidung für PagerDuty ganz einfach ist.“
– Ryan Regnier, IT-Manager, Nelnet
PagerDuty bietet Nelnet die Flexibilität, Benutzer auf verschiedene Arten zu kontaktieren, einschließlich der Option, Benachrichtigungen per SMS oder E-Mail zu erhalten. „PagerDuty macht das Leben meines Teams einfacher und gibt uns mehr Struktur. Wenn wir einen Ersatz für jemanden suchen, der Bereitschaftsdienst hat, bietet die Lösung dieser Person die Möglichkeit, auf verschiedene Arten kontaktiert zu werden“, sagte Regnier. Nelnet kann Dienste schneller wieder zum Laufen bringen, sodass seine Kunden die Dienste nutzen und das Geschäft am Laufen halten können. „Tagsüber haben wir Leute auf Abruf, die innerhalb weniger Minuten auf einen ausgefallenen Server reagieren können. Je nach Komplexität oder Art des Problems können wir es in 10 Minuten oder weniger wieder zum Laufen bringen. Wir erfahren innerhalb von Sekunden von diesen Benachrichtigungen und können innerhalb von Minuten darauf reagieren“, erklärte Regnier. Durch die erhöhte Betriebszeit und Mitarbeiterproduktivität hat PagerDuty Nelnet jährlich 650.000 US-Dollar gespart.
Verbesserung von Betriebszeit, Agilität und Mitarbeiterzufriedenheit
Vor PagerDuty gab es kaum eine Möglichkeit, Ausfälle zu verfolgen. Jetzt haben sie kritische Daten zur Hand. Jeder Vorfall oder jedes ausgelöste Element von bis zu einem Jahr kann überprüft werden. „Als wir PagerDuty evaluierten, stellten wir fest, dass es keine anderen Organisationen gab, die ein so umfassendes Produktangebot oder einen so umfassenden Funktionsumfang hatten, und sie waren nicht so einfach zu verwenden“, sagte Regnier. PagerDuty hilft Nelnet, die Betriebszeit und die Produktivität der Mitarbeiter zu erhöhen, Teams Flexibilität zu bieten und sicherzustellen, dass Vorfälle immer behoben werden.