Nelnet augmente la disponibilité, augmente la productivité des employés et réduit les coûts avec PagerDuty
Taille: 3 000 +
Industrie: Services financiers
Emplacement: Lincoln, Nebraska
Client depuis : 2014
Avec pour valeur fondamentale de se concentrer sur le client, Nelnet fournit des services éducatifs innovants dans le domaine du service des prêts, du traitement des paiements, de la planification de l'éducation et de la gestion des actifs. Ces produits et services aident les étudiants et les familles à planifier, préparer et payer leurs études tout en rendant les processus administratifs et financiers plus efficaces pour les écoles et les organisations financières. Leur siège social est situé à Lincoln, dans le Nebraska, et compte plus de 3 400 associés qui servent les clients tout au long du cycle de vie de l'éducation.
Le service informatique de Nelnet comporte plusieurs niveaux de service : réception, astreinte, escalade, propriétaires et architectes de produits. Ryan Regnier est responsable informatique chez Nelnet et est responsable de l'équipe de niveau 2 qui est d'astreinte, qui escalade les problèmes et qui répond aux pannes dès qu'elles surviennent. La gestion d'une équipe de cette nature implique un grand nombre d'alertes d'incidents critiques et la détermination de la manière dont les incidents sont escaladés vers d'autres niveaux de service. Pour ces raisons, Ryan et l'entreprise étaient à la recherche d'une solution qui pourrait aider à simplifier ces processus.
Surmonter les processus manuels pour gérer la planification des astreintes et l'escalade des incidents
Nelnet surveille tout, des serveurs Web qui traitent les paiements par carte de crédit aux périphériques réseau qui transmettent le trafic aux serveurs Web et de base de données. L'organisation surveille 35 000 événements à un moment donné, ce qui entraîne le déclenchement d'alertes à toute heure de la journée. Avant que Nelnet ne mette en œuvre PagerDuty, la gestion de la planification et des escalades des astreintes était un défi en raison des processus manuels existants. Si une application tombait en panne, les membres de l'équipe des opérations réseau (NOC) devaient parcourir manuellement des pages de feuilles de calcul pour identifier la personne à contacter. Les feuilles de calcul décrivaient ce qu'il fallait faire en cas d'alerte d'incident, à qui faire remonter le problème et comment réagir à chaque incident individuel. Ce processus manuel n'était pas facilement évolutif, ce qui rendait difficile le travail efficace des équipes et prolongeait la panne. Cela avait un impact négatif sur les clients en plus de Nelnet ; si le site de traitement des paiements principal était en panne, les clients ne pouvaient pas effectuer de paiements, ce qui entraînait une perte de revenus et l'insatisfaction des clients.
Il était également difficile de savoir qui contacter en cas d’incident. Même avec une équipe NOC disponible 24h/24 et 7j/7, les mauvaises personnes étaient contactées au mauvais moment. Non seulement cela créait de la frustration, mais il n’y avait aucun moyen d’automatiser ou de personnaliser la manière dont les alertes étaient transmises. Tous ces obstacles ont entraîné un retard dans la résolution des incidents, des clients incapables d’effectuer des paiements et une baisse de productivité en raison du processus manuel long et complexe.
Augmenter l'efficacité opérationnelle et réduire les coûts
Nelnet a adopté PagerDuty pour minimiser les défis liés à la planification, aux alertes, aux escalades d'astreinte et pour réduire les coûts. Un domaine dans lequel ils ont pu réduire les coûts est celui de l'équipe NOC. Grâce à la plateforme de gestion des incidents automatisée et fiable de PagerDuty, Nelnet n'a plus eu besoin de payer pour un environnement NOC 24h/24 et 7j/7. « Avant d'utiliser PagerDuty, nous cherchions des moyens de réduire les coûts et d'améliorer notre gestion des réponses aux incidents. La solution PagerDuty s'est avérée être la bonne solution pour Nelnet. PagerDuty simplifie la vie », a déclaré Regnier.
On estime que 35 000 incidents sont générés par les outils de surveillance de Nelnet. Ces incidents, générés par des transferts de fichiers et des sites Web externes, y compris ceux hébergés sur Amazon Web Services, sont envoyés directement à PagerDuty. Le cas d'utilisation typique pour l'équipe d'astreinte et d'escalade consiste en des problèmes provenant de l'un de leurs serveurs ou services. PagerDuty alerte les personnes d'astreinte du problème en quelques secondes. Cela permet aux contacts d'astreinte de déterminer quel est le problème, de faire remonter le problème si nécessaire et de le résoudre.
Actuellement, Nelnet dispose de 80 politiques d’escalade, qui sont utilisées plusieurs fois par jour. Par exemple, lorsqu’un incident majeur est survenu et a nécessité l’aide de plusieurs équipes, l’équipe de gestion des incidents s’est connectée à PagerDuty pour envoyer un e-mail alertant les personnes concernées du problème. La solution a ensuite permis aux personnes de garde de contacter ces personnes plutôt que de diffuser l’avis à tous les membres de ces équipes. Les personnes concernées ont fini par se joindre à l’appel relatif à l’incident, à l’exception d’une personne qui a été appelée toutes les 5 minutes jusqu’à ce que la politique d’escalade soit activée au bout de 20 minutes. Grâce à la fonction d’escalade, l’intervenant de secours a pu accuser réception de l’alerte et aider à résoudre le problème.
« J'encourage tout le monde à envisager PagerDuty. Les économies de coûts ne peuvent pas être négligées. Avec PagerDuty, la personne d'astreinte est avertie de manière pratique à chaque incident. La flexibilité de planification et d'alerte des bonnes personnes est telle qu'il est facile de décider d'utiliser PagerDuty. »
– Ryan Régnier, Responsable informatique, Nelnet
PagerDuty offre à Nelnet la flexibilité de contacter les utilisateurs de plusieurs façons, notamment la possibilité de recevoir des alertes par SMS ou par e-mail. «PagerDuty facilite la vie de mon équipe et nous offre plus de structure. Lorsque nous recherchons un remplaçant pour une personne de garde, la solution offre à cette personne la possibilité d'être contactée de plusieurs façons », a déclaré Regnier. Nelnet est en mesure de remettre les services en marche plus rapidement, ce qui permet à ses clients d'utiliser les services et de faire fonctionner l'entreprise. « Pendant la journée, nous avons des personnes de garde qui peuvent intervenir sur un serveur qui est tombé en panne quelques minutes après l'incident. Selon la complexité ou la nature du problème, nous pouvons le remettre en marche en 10 minutes ou moins. Nous sommes informés de ces alertes en quelques secondes et pouvons y répondre en quelques minutes », a déclaré Regnier. Grâce à une disponibilité et une productivité des employés accrues, PagerDuty a permis à Nelnet d'économiser 650 000 $ par an.
Améliorer la disponibilité, l'agilité et la satisfaction des employés
Avant PagerDuty , il n'y avait que peu de moyens de suivre les pannes. Désormais, les entreprises disposent de données critiques à portée de main. Tout incident ou élément déclenché sur une période allant jusqu'à un an peut être examiné. « Lorsque nous avons évalué PagerDuty, nous avons constaté qu'aucune autre entreprise ne proposait une offre de produits ou un ensemble de fonctionnalités aussi complets, et qu'ils n'étaient pas aussi faciles à utiliser », a déclaré Regnier. PagerDuty permet à Nelnet d'augmenter la disponibilité et la productivité des employés, d'offrir aux équipes une certaine flexibilité et de garantir que les incidents sont toujours traités.