L'avenir du CNO

par David Hayes 21 novembre 2017 | 5 minutes de lecture

L'une des meilleures choses à propos de travailler chez PagerDuty est que notre clients , nos utilisateurs, nos champions et nos acheteurs sont tous les mêmes personnes. Avec l'avancée de cette année dans réponse aux incidents majeurs , nous avons passé beaucoup de temps à discuter avec les centres d'exploitation du réseau (NOC) de ce que l'avenir leur réserve.

Chaque travail évolue avec les nouvelles technologies — certains, comme le transport routier longue distance, seront complètement perturbés par camions autonomes — mais après toutes les discussions que nous avons eues avec le meilleurs CNO du coin , il semble que leur évolution sera significative mais gérable.

J'ai toujours pensé que PagerDuty aidait votre temps moyen de promotion, dans cette optique, voici quelques-uns des futurs possibles que nous envisageons pour les CNO.

Ingénieur en fiabilité de site

L’un des chemins les plus simples est de devenir ingénieur en fiabilité de site (SRE).

Si vous souhaitez occuper ce poste, vous avez besoin de toutes les compétences de dépannage d'un administrateur système, associées à une compréhension approfondie de la surveillance . L'objectif d'un SRE est de détecter les problèmes avant qu'ils ne se transforment en problèmes que les utilisateurs peuvent remarquer. Et si cela ne fonctionne pas, les SRE remue ciel et terre pour tout remettre en ligne. Vous verrez souvent des postes de SRE dans de grandes entreprises de cloud ou en ligne, comme Amazon, Google, Heroku et même Etsy. Les gens deviennent vraiment grincheux s'ils ne peuvent pas acheter des choses immédiatement, et les SRE sont là pour s'assurer qu'ils le peuvent.

Les SRE maintiennent le monde en ligne (ok, c'est une tâche assez importante). En tant que SRE, vous travailleriez avec une équipe pour prévoir les besoins et construire l'échelle d'une manière fluide et invisible depuis le front-end. L'ingénierie de fiabilité du site est l'art de ne jamais laisser l'utilisateur vous voir transpirer, en tant qu'entreprise. Vous travaillez pour vous assurer qu'il y a toujours suffisamment de capacité, suffisamment de disponibilité, suffisamment de canalisations et suffisamment de surveillance pour vous assurer que quelque chose ne s'effondre pas de manière invisible.

Au lieu de lutter contre les incendies, vous préférez être un inspecteur en bâtiment, concevoir des couloirs plus larges, des portes qui s'ouvrent toujours vers l'extérieur et plusieurs escaliers (métaphoriquement). Il peut sembler héroïque de se précipiter avec une hache à incendie et un tuyau d'incendie pour abattre les portes et lutter contre les embrasements soudains, mais il est préférable de ne jamais avoir besoin d'actes héroïques si vous avez des politiques intelligentes concernant les matériaux de construction et les gicleurs.

Les opérations deviennent l'assurance qualité

Historiquement, l'assurance qualité (AQ) dans les sociétés de logiciels a eu une réputation injuste. En fait, il existe de nombreuses grandes entreprises comme Microsoft qui proposent une filière parallèle pour les ingénieurs en développement de logiciels dans le domaine des tests ( SDET ). Les tests de clic sont depuis longtemps devenus des tests unitaires automatisés qui sont désormais des tests de clic et d'API automatisés sur le serveur de préparation.

Les opérations et l'assurance qualité sont les formalisations de « Aïe ! Les choses sont cassées. » Si vous avez une équipe d'assurance qualité solide qui vérifie les choses en test avant le déploiement, il y a beaucoup plus de possibilités. moins de pannes surprises . Si vous avez un Équipe d'exploitation ils conçoivent et construisent des choses de manière réfléchie, en tenant compte des risques et des performances, plutôt que de simplement les installer et d'espérer que tout fonctionne correctement.

En son coeur, DevOps et les opérations consistent à faire en sorte que les serveurs ou les conteneurs répondent aux « exigences des trois R » :

  • Fiable: reste debout ou bascule vers autre chose avec grâce
  • Remplaçable: vous pouvez démarrer une nouvelle instance du serveur sans étapes particulières
  • Routine: le provisionnement et le déclassement du serveur devraient être si simples que vous pouvez créer un formulaire Web pour le faire

Pour moi, cela ressemble aussi beaucoup à du QA.

DevOps signifie que si quelque chose se brise et vous réveille, vous êtes habilité à écrire le test qui garantit qu'il ne revienne jamais en production - vous êtes déjà la meilleure partie de l'assurance qualité.

Au fur et à mesure que vous vous améliorez Prévenir les temps d'arrêt En cas de pannes ou de demandes de rationalisation, vous pouvez augmenter le volume plus facilement, car vous ne répondez pas à des demandes ponctuelles. Pensez à la différence entre réinitialiser manuellement les identifiants des utilisateurs et proposer un système automatisé pour le faire. Vous pouvez passer le même temps à résoudre les problèmes de connexion des utilisateurs, mais pour dix à vingt fois plus d'utilisateurs.

Le NOC comme point d'accès à toutes les technologies

L'un de mes centres d'appels préférés que j'ai visités est une entreprise de télécommunications à Los Angeles. C'est un centre d'appels classique avec une atmosphère non conventionnelle. À partir de l'immense mur de tableaux de bord, la salle est organisée en rangées, chaque rangée représentant une promotion dans leur organisation opérationnelle. Les promotions ont lieu en moyenne tous les 6 à 12 mois, avec des étapes claires et peuvent s'arrêter à la dernière rangée (en tant que SRE de facto) ou dans d'autres parties de l'organisation. Avec autant d'entreprises qui se plaignent de la difficulté de trouver des talents de nos jours, je m'attends à ce que cela devienne plus courant.

Chez PagerDuty, nous traitons notre équipe d'assistance de la même manière : les employés de notre organisation d'assistance sont devenus non seulement des managers ou des rôles plus techniques au sein de cette organisation, mais également des équipes d'ingénierie, de marketing et de vente et je ne le fais pas. voir le moindre signe d'arrêt (sans surprise, cela nous facilite la tâche) pour embaucher des gens formidables )

Le changement n'est pas toujours mauvais, mais il arrive toujours

Il est difficile de faire des prévisions, surtout en ce qui concerne l'avenir. Mais il est clair que l'avenir du NOC ne se résumera pas à des humains qui regardent des écrans en attendant d'appuyer sur des boutons. Pour de nombreuses catégories d'applications toujours actives, il sera toujours judicieux de garder les gens prêts à passer à l'action. La question est de savoir quoi faire des 99 % restants.

Le NOC a connu de nombreux changements ces dernières années et continuera de le faire. Ceux qui s'adapteront à l'évolution du paysage numérique se positionneront pour réussir, et nous sommes impatients de mener à bien cette transition avec vous.