Blog

Prévenir les pannes en 2014 – Données historiques, tendances et processus d’alerte

par Tony Albanese 4 février 2014 | 5 minutes de lecture

Il s'agit d'un article de blog invité de CopperEgg, l'un de nos partenaires de surveillance, sur la façon d'analyser les données historiques pour créer un processus d'alerte approfondi. CopperEgg fournit une solution simple et légère pour surveiller les performances des applications et services cloud. Pour en savoir plus sur CopperEgg, visitez leur site Web (www.copperegg.com ).

L'année dernière, votre organisation a-t-elle connu des pannes majeures ou des problèmes de performances qui ont affecté les utilisateurs finaux ? Avez-vous mis en place un processus pour garantir que ces mêmes problèmes ne se reproduisent pas cette année ? Ce blog détaille les meilleures pratiques et astuces pour créer un processus d'optimisation en exploitant les données de performances historiques, en analysant la cause profonde des problèmes et en mettant en place un système d'alerte et de réponse.

Étape 1 : Examiner les tendances

La première étape pour prévoir et prévenir les problèmes majeurs avec vos serveurs, sites Web et applications consiste à examiner les informations historiques. Les données historiques sont importantes à examiner immédiatement après un problème et sur des périodes plus longues pour évaluer les tendances. CopperEgg est excellent dans ce domaine et fournit des données haute résolution (mises à jour des performances de 5 et 15 secondes) pour les 30 derniers jours et des données basse résolution (mises à jour d'une minute) pour 1 an. Grâce à ces données, les utilisateurs peuvent remonter dans le temps pour visualiser les tendances des performances et également analyser en détail des problèmes spécifiques.

Il est important de visualiser les données historiques en fonction des indicateurs de performance qui sont utiles à votre entreprise. Si la diffusion d'informations à vos clients est un objectif principal, la mesure des performances en termes de disponibilité et de temps de réponse, c'est-à-dire le pourcentage de disponibilité et le temps d'attente de vos clients, sont deux indicateurs de performance clés. Pour cet exemple, vous devez examiner les temps de réponse et la disponibilité pendant les périodes de trafic intense et visualiser les données sur une période plus longue pour rechercher des pics et des tendances irréguliers.

CopperEgg_Issue_Trends

CopperEgg permet aux utilisateurs de voir les deux extrémités de ce spectre avec des aperçus de performances en un coup d'œil et des détails de second niveau. Comme le montre la photo ci-dessus, la capacité de voir et de comprendre rapidement les tendances historiques crée une plate-forme solide pour créer un plan de jeu visant à prévenir les problèmes.

Étape 2 : identifier et identifier la cause profonde des principaux problèmes de performances

Maintenant que vous avez analysé les données historiques de votre solution de surveillance, il est temps de trouver la cause première des problèmes de performances majeurs. Nous espérons que cela peut être fait facilement et avec un outil de surveillance unifié. Si vous utilisez CopperEgg, il est facile de trouver la cause première. En deux clics ou moins, les utilisateurs peuvent trouver des informations détaillées telles que les serveurs associés, les sites Web et les détails au niveau des processus. Aborder ces tendances de performances en recherchant la source première est l'étape la plus importante pour éviter de futurs problèmes de performances.

CopperEgg_Widgets

La solution de surveillance de CopperEgg, comme le montre la photo ci-dessus, suit toutes vos mesures de performance. Chaque widget fournit un aperçu rapide de votre environnement et vous permet d'analyser en détail les performances des serveurs, sites Web et applications individuels.

Étape 3 : Fixez-vous des objectifs

À ce stade, vous devriez avoir une bonne idée des tendances de performance de vos serveurs, sites Web et applications. L'étape suivante consiste à définir des objectifs pour améliorer ou maintenir le niveau de performance de chacun de ces éléments. Les objectifs doivent être basés sur les besoins de votre entreprise, les performances passées et la façon dont ces performances se sont traduites dans l'accessibilité globale de vos opérations commerciales spécifiques.

Les performances des transactions des utilisateurs finaux, comme l'ajout d'un article à un panier d'achat, sont-elles importantes pour votre entreprise ? Si tel est le cas, essayez de vous fixer comme objectif un temps de réponse rapide et un taux de réalisation élevé pour ce type de transaction.

Étape 4 : créer des alertes spécifiques en fonction des objectifs de l’entreprise

Ensuite, vous souhaiterez transformer vos objectifs en alertes. Au lieu d'être averti lorsque vos serveurs, sites Web et applications ne respectent pas les objectifs que vous avez définis, préparez un ensemble d'alertes qui vous avertissent dès que des problèmes surviennent. Avec CopperEgg, vous pouvez définir les seuils pour lesquels vous êtes averti et la manière dont vous êtes averti. Avec les applications de surveillance, il est nécessaire d'augmenter la gravité de votre notification à mesure que le niveau de performance se rapproche de la rupture de vos objectifs définis. De cette façon, vous pouvez mieux gérer les alertes hautement prioritaires.

Étape 5 : Regroupez et faites remonter vos alertes avec PagerDuty

Grâce à PagerDuty, vous pouvez acheminer les alertes de vos solutions de surveillance vers la bonne personne pour le travail. Les politiques d'escalade et les calendriers d'astreinte de PagerDuty vous permettent de garantir que les alertes de vos systèmes ne seront jamais manquées, offrant ainsi le moyen le plus efficace de recevoir des alertes et de gérer vos incidents.

Avec PagerDuty, vous pouvez contrôler les temps d'arrêt grâce à des alertes d'incident efficaces tout en offrant une personnalisation individuelle pour les préférences de notification de chacun des membres de votre équipe.

Étape 6 : Restez calme et surveillez

Après avoir traité les principales causes profondes de toute panne potentielle, restez calme et détendez-vous ! L'utilisation conjointe de CopperEgg et de PagerDuty garantira que vous disposerez d'un délai d'avertissement suffisant la prochaine fois que quelque chose de grave est sur le point de se produire. Nous pensons qu’un système d’alerte et de surveillance approprié est la clé pour rester calme et surveiller !

Vous souhaitez tester CopperEgg ? Nous vous proposons une essai gratuit de 14 jours Pour en savoir plus sur CopperEgg, visitez CopperEgg.com ou explorez l'autoguidé démo en direct .