Blog

La réponse aux incidents est importante : lorsque la surveillance ne suffit pas

par Julie Arsenault 24 novembre 2015 | 3 minutes de lecture

La prolifération des systèmes de surveillance

Les systèmes de surveillance ont été une véritable aubaine pour les entreprises numériques. Si vous êtes comme la plupart des équipes d'exploitation informatique, vous avez investi dans plusieurs d'entre eux pour détecter les requêtes API lentes, les problèmes de réseau, les serveurs surchargés, etc. Mais… comme la plupart des équipes d'exploitation informatique, vous pourriez toujours être confronté à des défis en matière de réponse aux incidents. En fait, selon une enquête menée par Dimensional Research et commandée par PagerDuty, 85 % des équipes déclarent avoir manqué un incident critique , et 99 % déclarent que l'absence d'alertes peut nuire à leur activité. Après tout, dans un monde où la lenteur est le nouveau temps d'arrêt, et les temps d'arrêt impacte votre expérience client , les alertes manquées sont un sujet sérieux .

Mais tout ne se résume pas à la surveillance. En réalité, il existe un monde où la surveillance s'arrête et où la réponse aux incidents prend le relais.

Les alertes atteignent des niveaux épidémiques

Avec la prolifération de logiciels de surveillance de plus en plus spécialisés, il existe désormais un nombre toujours croissant d'outils vraiment efficaces pour détecter les anomalies. 91 % des équipes opérationnelles utilisent plus d'un outil. Ces outils génèrent des centaines, voire des milliers d'événements par jour, et malheureusement, seulement 27 % des équipes font quelque chose pour regrouper et filtrer ces données avant qu'elles n'atteignent les personnes. Les conséquences ? 43 % des équipes déclarent recevoir trop d'alertes. Cela signifie que les membres de l'équipe sont surchargés et risquent de perdre leur temps. Burnout et sérieux alerte fatigue Dans le pire des cas, votre équipe est tellement submergée qu'elle ne peut pas distinguer les informations essentielles de celles qui sont informatives, et elle rate la seule notification qui compte vraiment. Le résultat pourrait être un incendie proverbial qui s'enflamme soudainement et qui consume rapidement tout sur son passage.

Le monde de la réponse aux incidents…

… est malheureusement manuel et inefficace. Le courrier électronique est encore utilisé par 79 % des équipes pour les notifications, même s'il peut souvent être trop lent pour répondre aux incidents à enjeux élevés. De plus, le courrier électronique offre peu ou pas de responsabilité ou de visibilité, et ne permet pas aux utilisateurs de suivre automatiquement les alertes entrantes. Il n'existe aucun moyen simple d'attribuer une alerte à quelqu'un d'autre à partir d'un courrier électronique, de sorte que les escalades se font manuellement, voire pas du tout. Il n'y a pas non plus d'analyses à recueillir à partir des alertes par courrier électronique, ce qui vous empêche de vraiment visualiser l'état de votre système, ni d'avoir une idée de l'endroit où un gros problème pourrait se cacher à l'avenir. Nous avons déjà blogué à ce sujet . Trop d'équipes informatiques s'appuient sur la gestion des plannings d'astreinte dans des feuilles Excel, ce qui fait perdre de précieuses minutes de prise de contact. Il n'est pas étonnant que 54 % des équipes informatiques ne soient pas satisfaites de leur réponse aux incidents.

Ne vous arrêtez pas à la détection

Alors, que pouvez-vous faire à ce sujet ? Les systèmes de surveillance sont très utiles pour détecter les problèmes, mais ce n'est que le début du processus. Planifiez votre réponse aux incidents. Évitez les pièges courants en mettant en place les meilleures pratiques. Ajustez continuellement votre processus de gestion des incidents pour vous assurer qu'il fonctionne pour votre équipe. Et ne sous-estimez pas l'importance des analyses : souvent, la première étape pour comprendre où vous pouvez améliorer votre réponse aux incidents consiste à utiliser les données pour identifier les points sensibles et élaborer une stratégie pour les prochaines étapes.

Vous voulez en savoir plus ? Télécharger notre eBook pour voir comment faire en sorte que vos systèmes de surveillance tiennent réellement leur promesse de protéger votre disponibilité

Monitoring_Ebook_728_90