SendGrid améliore la productivité des employés et réduit les temps d'arrêt avec PagerDuty
Taille: 331 employés
Industrie: Technologies de l'information et services
Emplacement: Boulder, Colorado
Client depuis : 2016
SendGrid est une plateforme de communication client basée sur le cloud qui a fait ses preuves et qui distribue avec succès plus de 25 milliards d'e-mails chaque mois à des clients Internet et mobiles. La société a son siège social dans le Colorado et compte plus de 300 employés, dont 23 au sein de l'équipe d'exploitation et environ 84 dans le groupe de développement. Mary Moore-Simmons, responsable des opérations d'ingénierie, est en charge de la gestion de l'infrastructure de SendGrid, qui comprend les serveurs et les centres de données, le réseau sous-jacent, les piles de virtualisation et les systèmes back-end. Avec le taux élevé d'e-mails envoyés par SendGrid, une multitude d'alertes d'incident sont générées quotidiennement. Trouver une solution évolutive de niveau entreprise pour aider à rationaliser et à simplifier le processus manuel d'alerte d'incident était une initiative majeure pour l'entreprise.
Remplacement de l'outil d'alerte précédent et résolution des problèmes d'évolutivité
SendGrid reçoit jusqu'à deux mille alertes d'incidents par jour et des dizaines de milliers par minute en cas d'incidents techniques ou de pannes. Avec un tel nombre, il est important pour l'entreprise de traiter les alertes rapidement et efficacement. Avant de passer à PagerDuty, SendGrid faisait appel à un autre fournisseur pour les alertes, mais s'est rendu compte qu'il lui fallait une solution de gestion des incidents à grande échelle pour prendre en charge son volume élevé d'incidents. « Lorsque vous avez un outil en place, vous voulez qu'il fonctionne, surtout en cas de panne ; c'est à ce moment-là que vous vous attendez à ce qu'il fonctionne », a déclaré Moore-Simmons. Confronté à des problèmes d'évolutivité, SendGrid a décidé de passer à une solution de gestion des incidents fiable et évolutive.
«PagerDuty nous aide à répondre plus rapidement aux alertes que nous recevons. Nous sommes en mesure de diagnostiquer les pannes plus rapidement, ce qui améliore l'expérience de nos clients et réduit les temps d'arrêt ainsi que les coûts associés. »
– Mary Moore-Simmons, Responsable des opérations d'ingénierie, Sendgrid
Accélérer le MTTA et le MTTR en passant à une nouvelle plateforme de gestion des incidents
SendGrid a mis en œuvre PagerDuty comme nouvelle solution de gestion des incidents et utilise la plateforme pour la collaboration, la planification, l'escalade et la création de rapports. Lorsqu'il est en service, un utilisateur peut accuser réception d'une alerte d'incident, faire remonter l'alerte si nécessaire ou résoudre le problème en cours, ce qui lui permet de passer directement à l'incident suivant sans délai. Le tableau de bord principal qui signale tous les incidents est un autre avantage essentiel pour SendGrid. « La façon dont l'interface utilisateur du tableau de bord de gestion des incidents de PagerDuty est conçue vous permet de voir ce qui se passe et quel type d'alertes vous recevez. C'est très utile pour nous : plus besoin d'avoir une liste d'alertes qui se déplacent à tout moment et de perdre de vue celles-ci », a déclaré Moore-Simmons.
Moore-Simmons estime que la fonction de création de rapports de PagerDuty est l'atout le plus important pour son poste. Les rapports sur les indicateurs lui permettent de recueillir des informations sur le nombre d'alertes par jour, par semaine, par mois et par an. « Nous avions estimé que 78 000 alertes se produisaient cette année et l'objectif de l'entreprise était de réduire le nombre d'alertes de 50 % par rapport à 2015. Jusqu'à présent, nous sommes sur la bonne voie avec cet indicateur, grâce au soutien de PagerDuty», a déclaré Moore-Simmons. Elle a également pu déterminer que le temps moyen de réparation (MTTR) moyen de l'équipe est de 19 minutes, tandis que le temps moyen de confirmation (MTTA) moyen est de seulement 2 minutes. La collecte de ce type d'informations aide Moore-Simmons et les autres responsables de l'ingénierie à identifier ce qui fonctionne, ce qui ne fonctionne pas et comment résoudre le problème.
Le principal avantage pour SendGrid a été que ses équipes d'exploitation et de développement pouvaient désormais résoudre rapidement les pannes et éviter qu'elles ne se reproduisent, grâce à des notifications d'incident fiables et rapides. Chaque minute de panne coûte à l'entreprise des milliers de dollars et entraîne une mauvaise expérience client et une perte de clientèle. Or, avec moins de pannes, il y a eu moins de perte de clientèle. De plus, l'équipe est désormais plus satisfaite et productive après avoir adopté PagerDuty.
« Nous avons confiance en PagerDuty et n'avons plus à nous soucier des pannes inutilement longues et des pertes de revenus. »
– Mary Moore-Simmons, Responsable des opérations d'ingénierie, Sendgrid
Améliorer la productivité des employés et améliorer l'évolutivité
SendGrid peut compter sur PagerDuty comme solution fiable pour prendre en charge ses cas d'utilisation, ses alertes critiques et sa planification. « Nous avons confiance en PagerDuty et n'avons plus à nous soucier des pannes inutilement longues et des pertes de revenus. Tous les employés de SendGrid utilisent PagerDuty et connaissent la solution en tant que fournisseur établi », a déclaré Moore-Simmons. Les employés sont heureux et productifs, ce qui est important pour l'entreprise. Dans l'ensemble, l'entreprise a constaté de nombreux avantages après avoir adopté PagerDuty, notamment des délais de résolution plus rapides pour les pannes, une productivité et un bonheur accrus des employés, ainsi que des indicateurs de résultat nets impressionnants qui témoignent de l'efficacité opérationnelle de l'entreprise.