- PagerDuty /
- Blog /
- Partenariats /
- Alertes de gestion des journaux en temps réel : distinguer le bon du mauvais
Blog
Alertes de gestion des journaux en temps réel : distinguer le bon du mauvais
Article de blog invité de Trevor Parsons, scientifique en chef et cofondateur de Logentries. Trevor a plus de 10 ans d'expérience dans le développement d'outils de surveillance et de performance pour les systèmes logiciels. Il était auparavant scientifique au IBM Center for Advanced Studies et est titulaire d'un doctorat de l'University College Dublin, en Irlande. Discutez avec Trevor @trevparsons.
Les données de journalisation peuvent révéler des activités commerciales importantes et des événements utilisateur à partager au sein de votre organisation. La plupart des solutions de journalisation traditionnelles exécutent des tâches en arrière-plan toutes les 5 ou 10 minutes, mais cela ne suffit pas vraiment. Considérez ceci : en cas d'urgence à la maison, serait-il acceptable d'attendre 5, 10 ou 15 minutes avant de décrocher le téléphone et d'appeler les services d'urgence ? En plus d'identifier les événements au fur et à mesure qu'ils se produisent, il est important de mettre toutes les bonnes personnes au courant. Mais comment différencier ce qui mérite de réveiller quelqu'un au milieu de la nuit et ce qui est bon à noter ? La définition de seuils corrects et l'association de certains événements à un type d'alerte spécifique permettent de tenir tout le monde au courant.
Voici mon top 5 des alertes que nous trouvons très utiles chez Logentries à envoyer via PagerDuty. J'admets que les deux derniers sont un peu peu orthodoxes pour une plateforme de gestion des incidents informatiques, mais pourquoi ne pas partager les bonnes nouvelles avec les mauvaises.
1. Exceptions et erreurs
C'est assez évident, mais vous seriez surpris du nombre de fois où des exceptions ou des erreurs passent inaperçues, surtout si vous n'avez pas mis en place un ensemble de pratiques de journalisation et de surveillance bien pensé. Les alertes contenant des informations contextuelles telles que le composant d'application et l'origine de l'exception vous aideront à découvrir rapidement la cause première.
Ce que vous pouvez faire : corréler ces alertes intégrées avec toutes les notifications liées aux problèmes de performances ou aux informations sur l'utilisation des ressources pour vous aider à identifier la cause exacte du problème. Les exceptions sur lesquelles vous devez émettre une alerte dépendent de votre application et de ce qui est important dans le contexte de votre problème. Cependant, réfléchissez-y à l'avance et configurez des alertes en fonction des exceptions et des erreurs qui sont particulièrement importantes pour votre application. Il peut être utile de regrouper différentes exceptions/erreurs. Utilisation des niveaux de gravité de la journalisation de telle sorte que les alertes ne soient créées que pour celles qui sont particulièrement importantes.
2. Temps de réponse
La définition d'alertes lorsque les seuils de performance sont dépassés est un excellent moyen de vous assurer d'être averti lorsque vos utilisateurs rencontrent une application ou un site Web lent. La plupart des outils de gestion des journaux vous permettent généralement de travailler avec des valeurs de champ, de sorte que vous puissiez être averti lorsque « response_time > 50 ms ». Cela est particulièrement utile lorsque vous pouvez mesurer le temps de réponse du point de vue des utilisateurs. Logentries fournit des intégrations qui vous permettent de vous connecter directement à partir du navigateur ou de l'application mobile des utilisateurs afin que vous puissiez effectuer une surveillance réelle des utilisateurs. Cela permet de déclencher des notifications lorsqu'un utilisateur individuel constate des chargements de page lents sur un appareil, un navigateur ou un système d'exploitation donné.
Ce que vous pouvez faire : Une bonne règle empirique pour alerter sur les délais de réponse est de suivre les 3 délais de réponse Comme l'a souligné Jakob Nielsen dans sa publication sur « l'ingénierie de l'utilisabilité » en 1993, elle est toujours d'actualité. En bref, 0,1 seconde est à peu près la limite pour que l'utilisateur ait l'impression que le système réagit instantanément, 1,0 seconde est à peu près la limite pour que le flux de pensée de l'utilisateur reste ininterrompu et 10 secondes sont à peu près la limite pour que l'attention de l'utilisateur reste concentrée sur le dialogue.
3. Utilisation des ressources
De la même manière que pour définir des seuils autour du temps de réponse, il peut également être utile d'être averti si un serveur donné rencontre des problèmes et commence à utiliser au maximum une ressource particulière (par exemple, CPU, réseau, disque, mémoire). La surveillance proactive de l'utilisation des ressources (lorsqu'une instance de serveur commence soudainement à mal se comporter et que le processeur est au maximum) est également devenue particulièrement importante pour l'exécution permanente de services cloud, pour lesquels vous souhaiterez peut-être le redémarrer ou lancer automatiquement une autre instance pour la remplacer ou pour aider à partager la charge.
Ce que vous pouvez faire : L'un des avantages de l'utilisation d'une solution de gestion des journaux pour analyser les tendances d'utilisation des ressources est que vous pouvez regrouper les entrées de journal individuelles dans un tableau de bord d'utilisation des ressources pour visualiser les tendances en matière de CPU, de réseau, de mémoire, etc. Vous pouvez également explorer en profondeur les événements de journal individuels et corréler les événements liés aux pics de CPU. Par exemple, avec les événements liés aux erreurs ou aux exceptions, vous pouvez très rapidement identifier les causes profondes et corriger les problèmes. Cela n'est généralement pas possible avec les outils de surveillance des serveurs, qui ne permettent pas une vue aussi précise ou une corrélation avec d'autres événements de journal liés aux temps de réponse, aux erreurs ou aux exceptions.
Et maintenant les bonnes nouvelles…
4. Événements qui affectent votre chiffre d'affaires
Soyons honnêtes : voir ces nouveaux clients s'intéresser à un nouveau service fait sourire tout le monde. Les alertes ne sont pas forcément synonymes de mauvaises nouvelles. Pour une fois, ne serait-il pas agréable d'être dérangé pendant votre soirée par une bonne nouvelle ?
Ce que vous pouvez faire : Chez Logentries, nous n'aimons pas faire de discrimination en matière d'alertes. Nous aimons le bon, le mauvais et le laid. Nous envoyons en fait des alertes à notre propre équipe sur toutes sortes d'événements importants afin que tous les membres de l'équipe sachent ce qui se passe dans le service et l'entreprise, que ce soit bon ou mauvais. Configurez un balisage et un suivi personnalisés des événements commerciaux tels que les « inscriptions à l'essai » ou les « visites de pages Web » afin de pouvoir surveiller en temps réel la santé de votre entreprise au-delà des simples exceptions et erreurs.
5. Événements d'adoption des fonctionnalités
De la même manière que pour le point précédent, il peut également être utile, lorsque vous lancez une nouvelle fonctionnalité, d’être averti lorsque vos 100 ou 1 000 premiers clients ont eu l’occasion de l’utiliser. Vous ne souhaitez peut-être pas être réveillé au milieu de la nuit pour cela, mais vous pouvez partager cette étape importante avec votre entreprise via une méthode d’alerte plus discrète comme l’e-mail.
Ce que vous pouvez faire : Tirez parti des seuils d'alerte dans Logentries pour être averti uniquement si un événement correspond à un modèle particulier plus d'un nombre de fois donné (par exemple, lorsque la fonctionnalité X a été utilisée plus de 100 fois). Cela peut être utile pour plusieurs raisons :
- C’est tout simplement bon pour le moral de l’équipe lorsque vous avez tous travaillé d’arrache-pied sur une nouvelle fonctionnalité, que vous la publiez et… oui… que les gens l’utilisent réellement et l’apprécient.
- Vous aimeriez peut-être savoir ce que les gens pensent de cette nouvelle fonctionnalité et leur demander leur avis. Si vous configurez votre système pour qu'il enregistre également un identifiant de compte ou un identifiant d'utilisateur, vous pouvez toujours revenir en arrière et leur demander ce qu'ils en pensent, l'utiliser de nouveau et l'améliorer, puis répéter l'opération pour les 100 prochaines personnes qui l'utiliseront.
Grâce à ces alertes de gestion des journaux en temps réel, vous pouvez augmenter la visibilité au sein de vos équipes et de votre organisation. Découvrez la nouvelle Intégration de Logentries et PagerDuty dans votre propre environnement aujourd'hui !