Point de vue du client : mise en place d'un logiciel d'exploitation informatique pour les startups
Il s'agit d'un article de blog invité sur la mise en place de logiciels d'exploitation informatique pour les startups, écrit par Anthony Gibbons, responsable des opérations chez Airhead Education. Airhead Education est une entreprise basée au Royaume-Uni qui aide les écoles à exploiter la puissance de l'apprentissage basé sur le cloud.
Le consommateur
J'ai rejoint une petite mais ambitieuse startup appelée Éducation Airhead en février 2014 en tant que responsable des opérations. Airhead fournit un environnement d'apprentissage abordable, basé sur le cloud, qui « fonctionne bien avec les autres », c'est-à-dire que nous nous intégrons aux technologies que nos clients souhaitent utiliser.
J'avais passé les deux années précédentes à travailler comme spécialiste du support applicatif pour l'une des plus grandes entreprises du secteur financier. Même si le travail était agréable et les gens brillants, j'avais envie de revenir à un rôle opérationnel, car je sentais que c'était là que résidaient mes véritables points forts et où je excellais le mieux.
Au début de l’année 2014, Airhead était à un point où il fallait sérieusement surveiller et prendre en charge son infrastructure en pleine croissance dans Microsoft Azure. J’étais toujours en contact avec un ancien collègue qui était l’un des employés fondateurs de l’entreprise. Une première conversation autour de quelques bières a finalement abouti à une offre d’emploi que j’ai acceptée avec plaisir.
Le défi
Et ensuite ? Je dois avouer que j'ai trouvé la perspective de mettre en place notre système de surveillance et de notification de l'infrastructure à partir de zéro un peu intimidante. En raison de la position de l'entreprise en tant que start-up, je disposais également d'un budget relativement restreint pour le faire. Dans le passé, j'avais principalement ajusté et peaufiné les outils de surveillance de l'infrastructure existants. Mon instinct initial était de ne pas perdre de temps à réinventer la roue. Chez Airhead, nous avons une attitude « cloud first », cherchant toujours à intégrer les meilleures technologies de pointe pour nos clients. J'ai décidé d'appliquer cette philosophie aux opérations et au support back-end. Je pensais que les contraintes budgétaires pourraient avoir un impact sur la qualité des outils et des services que je pourrais utiliser. J'avais complètement tort ! Avec l'avènement des services cloud et des entreprises désireuses de s'intégrer les unes aux autres, il est désormais tout à fait possible pour une petite start-up d'utiliser les mêmes outils de surveillance que les stars du secteur telles qu'Airbnb, Pinterest et Path.
« Il est désormais tout à fait possible pour une petite startup d’utiliser les mêmes outils de veille que les stars du secteur telles qu’Airbnb, Pinterest et Path. »
En une semaine environ, j'étais opérationnel avec Microsoft SCOM, Site 24×7 pour la surveillance externe et New Relic pour la surveillance des applications. Nous avons également mis en place une page d'état sur StatusPage.io . Au début, des alertes étaient générées et envoyées à nos adresses e-mail. Les mises à jour de statut étaient définies manuellement sur notre page de statut si quelque chose se passait mal. Cela a fonctionné pendant un certain temps, mais au fil du temps, des e-mails ont été manqués, notre page de statut n'était pas toujours mise à jour assez rapidement, etc. Nous avions une assez bonne surveillance, mais nous étions très à court de solution de notification. Je n'étais pas très enthousiaste à l'idée de trimballer un téléavertisseur encore une fois et j'étais encore moins enthousiasmé par les coûts associés. Ensuite, j'ai découvert PagerDuty via une promotion partenaire New Relic. Je me suis inscrit pour un essai et toutes mes prières ont été exaucées ! PagerDuty s'intégrerait à toutes mes solutions de surveillance et alerterait les bonnes personnes en cas de problème.
Premiers pas avec PagerDuty
Il m'a probablement fallu une heure pour intégrer tous mes services avec PagerDuty. Très rapidement, j'ai pu générer des alertes significatives vers l'application iOS que mon collègue et moi avions installée sur nos téléphones existants. Les politiques d’escalade étaient flexibles et faciles à visualiser. Nous avons opté pour quelque chose d'assez simple et efficace : des alertes générales seraient envoyées aux responsables DevOps tandis qu'une panne complète serait transmise à tout le personnel. Les rotations de garde étaient faciles à configurer afin que nous puissions partager la douleur des réveils tard dans la nuit. En parlant de réveil, quelle meilleure façon d'être alerté qu'avec un trombone triste ou une interprétation de style quatuor de barbier de « Le serveur est en feu » ? Les sons de poussée pour l'application iOS ne cessent de s'améliorer !
Exploiter la puissance de PagerDuty
Après quelques semaines d'utilisation, il était temps d'examiner certaines des fonctionnalités les plus avancées. Si un incident ou une panne se produisait dans notre application, j'étais désormais sûr que les bonnes personnes seraient averties. Mais qu'en est-il de nos clients ? Comme je l'ai mentionné précédemment, nous utilisons StatusPage.io pour notre page de statut personnalisée. En intégrant StatusPage.io Grâce à l'API Pager Duty, nous avons pu créer des règles qui modifieront le statut public de notre service si certains événements sont déclenchés par Pager Duty. Cela permet à nos clients de savoir dès que nous sommes informés si un problème majeur affecte notre plateforme. En plus de cela, nous avons intégré PD à HipChat afin de pouvoir consulter rapidement et facilement un résumé de toutes les alertes. Cela peut être extrêmement utile lorsque l'on essaie de comprendre la chronologie d'un incident.
« Il m'a probablement fallu une heure pour intégrer tous mes services à PagerDuty. »
Et après?
L'une des meilleures choses à propos de PagerDuty est la vitesse à laquelle le service continue de s'améliorer et d'évoluer. L'une des nouveautés que je vais examiner ce mois-ci est ' Incidents riches ', ce qui me donne plus de contexte dans les alertes en intégrant des liens et des images dans les alertes. Oh, et j'espère que nous aurons encore plus de sons d'alerte push pour l'application. Continuez à les envoyer !
En résumé
La meilleure chose à propos de PagerDuty est que, comme Airhead, « joue bien avec les autres ». Ils occupent un rôle important dans les opérations et sont heureux de s'intégrer à d'autres services cloud fantastiques. Avec des services abordables, flexibles et en constante amélioration comme ceux-ci, c’est le moment idéal pour s’impliquer dans les opérations informatiques. De quoi étais-je inquiet ?