- PagerDuty /
- Blog /
- Surveillance /
- Données rapides, surveillance rapide
Blog
Données rapides, surveillance rapide
Le Big Data n'est plus une nouveauté. Aujourd'hui, la clé pour exploiter efficacement les données est de les traiter rapidement.
De la même manière, la gestion traditionnelle des incidents, qui implique la collecte et l’analyse de volumes importants d’informations de surveillance, ne suffit plus. Les organisations doivent désormais également effectuer une « surveillance rapide », ce qui signifie non seulement collecter des données de surveillance, mais aussi les rendre exploitables en temps réel.
Cet article examine ce que signifie la surveillance rapide et explique comment les équipes de gestion des incidents peuvent mettre en œuvre cette approche pour obtenir de grands avantages.
Définition des données rapides
Pour comprendre le concept de surveillance rapide, vous devez comprendre données rapides - l'un des dernières innovations dans le monde du big data.
En termes simples, les données rapides sont des données volumineuses traitées rapidement. Alors que les données volumineuses consistaient traditionnellement à stocker de grandes quantités d’informations et à les analyser ultérieurement, les données rapides consistent à effectuer des analyses de données sur de grandes quantités d’informations le plus rapidement possible, idéalement en temps réel. L’objectif est d’analyser les données lorsqu’elles sont aussi exploitables et pertinentes que possible.
La possibilité de diffuser des données depuis leur source vers une plateforme d'analyse est un élément important de l'exploitation rapide des données. C'est pourquoi des outils de Big Data comme Apache Spark sont devenus populaires ces dernières années. En prenant en charge la collecte de données en streaming, ainsi que le traitement en mémoire, Spark peut ingérer et analyser de grandes quantités d'informations à des vitesses bien plus rapides que les plates-formes d'analyse de données sur disque non en streaming.
Gestion rapide des données et des incidents
La gestion des incidents est un domaine différent de l'analyse des données, mais les administrateurs de la gestion des incidents peuvent apprendre beaucoup de la tendance rapide des données. Dans le monde de la surveillance des infrastructures et de la gestion des incidents, il est désormais plus important que jamais de pouvoir analyser de grandes quantités de données de surveillance et d'alerte en temps réel pour améliorer la réponse.
De la gestion traditionnelle des incidents à la gestion rapide des incidents
Le lien entre données rapides et surveillance rapide n’est pas une coïncidence. À bien des égards, l’évolution de la gestion des incidents reflète l’évolution de l’analyse des données.
Jusqu'à il y a une dizaine d'années, les données, comme les infrastructures, étaient relativement petites. La plupart des organisations n'avaient pas besoin d'analyser des pétaoctets de données, car elles n'en généraient pas autant. De même, la plupart des organisations n'avaient pas besoin de solutions de surveillance capables de prendre en charge des infrastructures vastes et diverses. Elles pouvaient se contenter de systèmes de surveillance de base pour suivre des réseaux relativement petits et simples de serveurs et de postes de travail.
Au milieu des années 2000, les données et les infrastructures ont commencé à prendre de l’ampleur. La numérisation de tous les aspects a poussé les entreprises à collecter des volumes d’informations considérables, donnant naissance au big data. Parallèlement, la prolifération des appareils mobiles, l’essor de la virtualisation et le besoin de puissance de calcul toujours plus importante ont rendu les infrastructures beaucoup plus volumineuses et complexes. Ce nouveau paysage a nécessité une surveillance importante.
Au cours des dernières années, une nouvelle vague de changements a eu lieu. À une époque où les informations évoluent en permanence, l’analyse de données datant de quelques heures seulement réduit la valeur de l’analyse. De même, la gestion des incidents sur la base d’informations de surveillance qui ne sont pas à jour empêche les administrateurs de trier et de répondre efficacement aux incidents.
Ainsi, même si la rapidité des données et la surveillance peuvent nécessiter des outils différents, les principes et les motivations qui sous-tendent ces deux tendances sont les mêmes. Les équipes de gestion des incidents qui cherchent à assurer le bon fonctionnement de l’infrastructure et des applications feraient bien d’imiter leurs collègues analystes de données en se concentrant sur la surveillance rapide.
Faciliter une surveillance rapide
La collecte et la réaction rapides aux informations de surveillance peuvent sembler assez simples, mais comment faire fonctionner une surveillance rapide dans la pratique ? Les principales directives à suivre sont les suivantes :
- Centraliser la collecte de données Pour donner un sens aux informations de surveillance le plus rapidement possible, vous devez transmettre toutes les données de surveillance à un interface centrale Cela évitera d’avoir à basculer entre différents tableaux de bord ou systèmes de surveillance, ce qui fait perdre du temps et de l’énergie mentale et rend très difficile la compréhension de la cause profonde.
- Collecter toutes les informations disponibles . La gestion traditionnelle des incidents a tendance à se concentrer uniquement sur la collecte de données et d'alertes sur les machines. Ces informations fournissent une partie de ce dont vous avez besoin pour effectuer une surveillance rapide, mais pour réagir le plus rapidement possible aux incidents, vous devez disposer d'un champ de visibilité et d'analyse aussi large que possible. Par exemple, la collecte de données générées par l'homme à partir de tickets et d'appels d'assistance ne doit pas être ignorée. Cela signifie également tirer parti de fonctionnalités telles que Transformateur d'événements personnalisé de PagerDuty afin de collecter des données à partir de sources telles que réseaux sociaux , qui ne font pas traditionnellement partie des flux de travail de gestion des incidents.
- Réduire le bruit . Vous allez recevoir un grand nombre d'alertes, mais seules certaines d'entre elles nécessitent une action. Il est donc absolument crucial de supprimer le bruit et tout ce qui n'est pas exploitable, afin que le nombre d'alertes auxquelles vous devez prêter attention soit minimal. Les alertes doivent être automatiquement dédupliquées et il doit être facile de regrouper les symptômes liés en un seul problème qui nécessite une résolution. Cela facilitera l'identification instantanée des alertes qui nécessitent une attention et déclenchera le flux de travail de réponse approprié en temps réel.
- Rendre les données faciles à interpréter . La collecte de grandes quantités de données de surveillance et leur stockage dans un emplacement central vous aideront à transformer rapidement ces données en valeur. Cependant, pour rationaliser pleinement le processus, vous devez également vous assurer que les données provenant de diverses sources sont normalisées dans un format cohérent afin de faciliter l'analyse de toutes les informations du tableau de bord et de réduire la charge cognitive. De cette façon, vous n'avez pas besoin de mémoriser ou de contextualiser tous les schémas de différents fournisseurs. Pour ce faire, vous avez besoin de solutions de gestion des incidents capables de prendre des informations sous diverses formes et de normaliser les champs de manière universelle, afin de générer des informations immédiatement exploitables et faciles à comprendre.
Toutes ces pratiques réduisent la quantité d'analyses manuelles requises par les administrateurs de gestion des incidents lors d'un incident crucial. Elles réduisent également le temps entre la collecte des alertes et l'action, ce qui permet au personnel de gestion des incidents de réagir aux incidents aussi rapidement qu'ils se produisent et de transformer véritablement la surveillance rapide en réponse en temps réel pour une disponibilité améliorée.
Delaney, Ozzy. « Speeding », 20 janvier 2015. Image en ligne.<https://www.flickr.com/photos/24931020@N02/15854782234/>