Blog

Qu'est-ce que la maturité opérationnelle ?

par Sam Lewis 26 juin 2015 | 4 minutes de lecture

DSC_5897

Les leaders d'opinion de PagerDuty et DevOps se réunissent pour répondre aux questions sur la maturité opérationnelle

Mercredi soir, PagerDuty a organisé un événement au cours duquel Dropbox, Flipboard et Splunk, clients de longue date de PagerDuty, ont parlé de leur expérience durement gagnée, ont partagé des histoires de guerre et ont discuté de ce qu'ils ont appris sur les opérations à grande échelle. Ils ont également reçu des conseils sur la manière dont ce qu'ils ont appris peut être appliqué à d'autres équipes. Nous avons été ravis de discuter avec nos clients, nos partenaires et la communauté élargie de ce que signifie être mature sur le plan opérationnel. Voici ce qui a été dit à propos de la Maturité Opérationnelle :

Qu'est-ce que la maturité opérationnelle ?

Andrew Fong, responsable des infrastructures chez Dropbox :

Les cultures opérationnellement matures sont celles qui sont capables de comprendre les compromis qu’elles font dans un environnement de production et l’impact que cela a sur l’entreprise.

Joey Parsons, responsable de la plateforme et des opérations chez Flipboard :

De notre point de vue, la maturité opérationnelle consiste à comprendre les ramifications des incidents, tant du point de vue de l'impact sur l'entreprise que du point de vue du bien-être des employés. Être de garde peut être une expérience à la fois enrichissante et négative pour la personne qui intervient. Il est essentiel de disposer des outils et des processus opérationnels nécessaires pour pouvoir prendre des décisions intelligentes et éclairées pour votre entreprise.

Sean Jacobs, responsable des opérations d'infrastructure et de centre de données chez Splunk :

Chez Splunk, la maturité opérationnelle est souvent mesurée par l'efficacité de notre réponse en cas de crise. En tant qu'entreprise de Big Data, nous collectons des informations sur presque toutes les facettes de notre infrastructure, mais disposer de données pertinentes et disposer de données pertinentes sont des défis très différents.

Tim Armandpour, vice-président de l'ingénierie chez PagerDuty :

La maturité opérationnelle signifie faire partie d'un environnement piloté par les tests, où les incidents de haute gravité résultant de bugs sont très rares et mesurés. Cela signifie également faire partie d'une organisation où chaque équipe fait partie d'une rotation d'astreinte et utilise le même système et la même méthodologie de gestion des incidents pour une transparence et une collaboration maximales. Dans une entreprise opérationnellement mature, la fiabilité et la responsabilité sont considérées comme des facteurs clés pour une entreprise prospère. Plus vous êtes mature, plus il est facile pour votre entreprise d'être agile, de s'adapter rapidement et d'évoluer avec le marché.

Quelle est la chose que vous faites qui vous rend mature sur le plan opérationnel ?

Andrew Fong, responsable des infrastructures chez Dropbox :

Chez Dropbox, notre processus SEV (réponse aux incidents) était auparavant ponctuel et n'avait pas de responsables clairs autres que les ingénieurs seniors. Au cours de l'année dernière, nous avons élaboré un processus qui identifie un responsable clair pour la coordination et la résolution. Nous avons élaboré des critères et des outils bien définis afin de pouvoir prendre en charge plus de 350 ingénieurs, ainsi que la gestion des produits, les communications et le service juridique. De plus, chez Dropbox, les incidents peuvent être à la fois des problèmes de serveur back-end ou des problèmes de client. (Nous avons un logiciel de bureau !) Nous devions donc créer un processus qui fonctionne pour tous.

Joey Parsons, responsable de la plateforme et des opérations chez Flipboard :

Le fait de devenir mature a beaucoup à voir avec l'évolution de nos politiques d'astreinte et d'escalade. La surveillance n'est jamais effectuée et doit être continuellement réorganisée pour la qualité des affaires et la qualité de vie. Une mauvaise alerte conduit très rapidement à l'insatisfaction des employés.

Sean Jacobs, responsable des opérations d'infrastructure et de centre de données chez Splunk :

Nous mettons tout en œuvre pour rendre nos alertes et notre surveillance utiles, et non pas seulement pour adopter une approche globale de la surveillance. De plus, nous accordons une grande importance aux analyses rétroactives afin de pouvoir itérer et nous améliorer, plutôt que de devoir réagir aux mêmes problèmes chaque semaine.

Tim Armandpour, vice-président de l'ingénierie chez PagerDuty :

Chaque vendredi chez PagerDuty , c'est Vendredi d'échec , où nos ingénieurs mettent intentionnellement des services hors ligne et tentent de casser notre système, pour garantir que tous nos dispositifs de sécurité fonctionnent. Nous prenons la fiabilité très au sérieux ici, et nous disposons de trois centres de données actifs, ce qui nous permet de rester en ligne même si l'un d'entre eux est en panne. Nous avons également une politique de gestion des incidents robuste et avons éliminé les alertes non exploitables au point que nos ingénieurs d'astreinte reçoivent quelques alertes par mois au maximum.

Outage communication best practices eBook