Die Zukunft des NOC

von David Hayes 21. November 2017 | 5 Minuten Lesezeit

Eines der besten Dinge an der Arbeit bei PagerDuty ist, dass unsere Kunden , unsere Nutzer, unsere Champions und unsere Käufer sind alle dieselben Menschen. Mit dem diesjährigen Vorstoß in Reaktion auf größere Vorfälle haben wir viel Zeit damit verbracht, mit Network Operation Centers (NOCs) darüber zu sprechen, was die Zukunft für sie bereithält.

Jeder Beruf verändert sich mit der neuen Technologie – einige, wie der Fernverkehr, werden völlig umgekrempelt durch selbstfahrende LKW — aber nach all den Diskussionen, die wir mit den die besten NOCs überhaupt , es sieht so aus, als ob ihre Entwicklung bedeutend, aber beherrschbar sein wird.

Ich war immer der Meinung, dass PagerDuty Ihre durchschnittliche Beförderungszeit verkürzt. In diesem Sinne sehen wir hier einige Zukunftsaussichten für NOCs.

Site-Reliability-Ingenieur

Einer der direktesten Wege führt zum Site Reliability Engineer (SRE).

Wenn Sie einen Job in diesem Bereich suchen, benötigen Sie alle Fähigkeiten eines Systemadministrators zur Fehlerbehebung, ergänzt durch tiefes Verständnis der Überwachung . Das Ziel eines SRE ist es, Störungen zu erkennen, bevor sie sich zu Problemen entwickeln, die den Benutzern auffallen. Und wenn das nicht funktioniert, setzen SREs Himmel und Hölle in Bewegung, um alles wieder online zu bringen. SRE-Stellen findet man häufig bei großen Cloud- oder Online-Unternehmen wie Amazon, Google, Heroku und sogar Etsy. Die Leute werden richtig sauer, wenn sie Dinge nicht sofort kaufen können, und SREs sind da, um sicherzustellen, dass sie es können.

SREs halten die Welt online (ok, das ist eine ziemlich große Herausforderung). Als SRE arbeiten Sie mit einem Team zusammen, um Bedarf vorherzusagen und skalieren auf eine Weise, die vom Frontend aus fließend und unsichtbar ist. Site Reliability Engineering ist die Kunst, den Benutzer nie sehen zu lassen, dass Sie als Unternehmen ins Schwitzen kommen. Sie arbeiten daran, sicherzustellen, dass immer genügend Kapazität, genügend Betriebszeit, genügend Leitung und genügend Überwachung vorhanden sind, um sicherzustellen, dass nichts unbemerkt auseinanderfällt.

Anstatt Feuerwehr zu belästigen, möchten Sie lieber Bauinspektor werden und breitere Flure, Türen, die immer nach außen aufschwingen, und mehrere Treppen (metaphorisch) entwerfen. Es mag heroisch erscheinen, mit einer Feuerwehraxt und einem Schlauch loszurennen, Türen aufzureißen und Flashovers zu bekämpfen, aber es ist besser, diese Heldentaten nie zu brauchen, wenn Sie kluge Richtlinien für Baumaterialien und Gebäudesprinkler haben.

Aus Ops wird QA

In der Vergangenheit hatte die Qualitätssicherung (QA) bei Softwareunternehmen einen unfairen Ruf. Tatsächlich gibt es viele großartige Unternehmen wie Microsoft, bei denen es einen parallelen Weg für Softwareentwicklungsingenieure im Test gibt ( SDET ). Aus Klicktests sind seit langem automatisierte Unittests geworden, die mittlerweile zu automatisierten Klick- und API-Tests für den Staging-Server geworden sind.

Betrieb und QA sind die Formalisierungen von „Iiih! Die Dinge sind kaputt.“ Wenn Sie ein solides QA-Team haben, das die Dinge vor dem Einsatz testet, gibt es weitaus weniger überraschende Ausfälle Wenn Sie ein Einsatzteam , sie entwerfen und bauen Dinge sorgfältig und berücksichtigen dabei Risiken und Leistung, anstatt sie einfach zu installieren und zu hoffen, dass alles richtig funktioniert.

Im Kern, DevOps und bei „Operations“ geht es darum, Server oder Container dazu zu bringen, die „drei R-Anforderungen“ zu erfüllen:

  • Zuverlässig: bleibt aktiv oder wechselt problemlos zu etwas anderem
  • Austauschbar: Sie können eine neue Instanz des Servers ohne besondere Schritte starten
  • Routine: Die Bereitstellung und Außerbetriebnahme von Servern sollte so einfach sein, dass Sie hierfür ein Webformular erstellen können.

Für mich klingt das auch sehr nach Qualitätssicherung.

DevOps bedeutet, dass Sie, wenn etwas kaputt geht und Sie aufweckt, die Möglichkeit haben, den Test zu schreiben, der sicherstellt, dass das Problem nie wieder in die Produktion gelangt – Sie sind bereits der beste Teil der Qualitätssicherung.

Wenn Sie besser werden in Ausfallzeiten verhindern oder Ausfälle und die Rationalisierung von Anfragen können Sie das Volumen einfacher skalieren, da Sie nicht auf einmalige Anfragen reagieren müssen. Denken Sie an den Unterschied zwischen dem manuellen Zurücksetzen von Benutzeranmeldungen und dem Anbieten eines automatisierten Systems, das dies tut. Sie verbringen möglicherweise genauso viel Zeit mit der Behebung von Benutzeranmeldeproblemen, aber für zehn- bis zwanzigmal so viele Benutzer.

NOC als Bezugspunkt für die gesamte Technologie

Eines meiner liebsten NOCs, die ich besucht habe, ist ein Telekommunikationsunternehmen in Los Angeles – es ist ein klassisches NOC mit unkonventionellem Flair. Ausgehend von der riesigen Wand mit Dashboards ist der Raum in Reihen angeordnet, wobei jede Reihe eine Beförderung in der Betriebsorganisation darstellt. Beförderungen liegen im Durchschnitt 6-12 Monate auseinander, mit klaren Meilensteinen und können damit enden, in der hinteren Reihe (als de facto SRE) oder in anderen Teilen der Organisation zu sein. Da so viele Unternehmen darüber klagen, wie schwer es heutzutage ist, Talente zu finden, gehe ich davon aus, dass dies häufiger vorkommen wird.

Bei PagerDuty behandeln wir unser Support-Team auf die gleiche Weise: Mitarbeiter unserer Support-Organisation haben nicht nur Manager oder technischere Rollen innerhalb dieser Organisation übernommen, sondern auch die Entwicklungs-, Marketing- und Vertriebsteams, und ich sehe keine Anzeichen dafür, dass dies aufhören wird (was nicht überraschend ist, denn dies macht es für uns einfacher großartige Leute einzustellen )

Veränderungen sind nicht immer schlecht, aber sie kommen immer

Vorhersagen sind schwierig, vor allem wenn sie die Zukunft betreffen. Aber es ist klar, dass die Zukunft des NOC nicht aus Menschen bestehen wird, die auf Bildschirme starren und darauf warten, Knöpfe zu drücken. Für viele Arten von Always-On-Anwendungen wird es immer noch sinnvoll sein, die Leute einsatzbereit zu halten – die Frage ist nur, was man mit den anderen 99 % ihrer Zeit macht.

Das NOC hat in den letzten Jahren viele Veränderungen durchgemacht und wird dies auch weiterhin tun. Wer sich an die sich verändernde digitale Landschaft anpasst, wird erfolgreich sein, und wir freuen uns darauf, diesen Übergang mit Ihnen zu meistern.