- PagerDuty /
- Blog /
- Gestion et réponse aux incidents /
- Améliorez la réponse aux incidents en prenant le contrôle de votre essaim (inintelligent)
Blog
Améliorez la réponse aux incidents en prenant le contrôle de votre essaim (inintelligent)
Des incidents surviennent. Les choses tournent mal. Les systèmes échouent. Parfois, ils échouent de manière inattendue et dramatique, ce qui crée des incidents majeurs. PagerDuty fait une distinction très spécifique entre un incident Et un Incident Votre organisation peut également faire une telle distinction.
Déterminer si un incident est majeur ou non peut dépendre d’un certain nombre de facteurs, ou d’une combinaison spécifique de facteurs, comme le nombre de services affectés, l’impact sur le client et la durée de l’incident.
Ces facteurs nécessitent que votre organisation dispose d'au moins une télémétrie de base et d'une bonne maîtrise des relations entre les services qui composent votre écosystème technique. Sans cette base de référence, il est difficile de connaître les impacts réels et de savoir par où commencer pour trier un incident.
Que se passe-t-il lorsqu'une organisation ne dispose pas de données clés ? Sans les éléments suivants, une organisation aura du mal à réagir aux incidents :
- Quels services sont impactés ?
- Dans quelle mesure sont-ils impactés ?
- À qui appartiennent ces services ?
En l’absence de ces données, certaines organisations choisissent d’utiliser une essaim approche de leur réponse aux incidents.
Essaimage contre essaimage intelligent
L'essaimage est une approche de réponse aux incidents qui alerte tous les membres de l'organisation de l'existence d'un problème et ouvre une grande salle de crise ou une conférence téléphonique à laquelle tout le monde peut se joindre, quel que soit son potentiel à contribuer à la résolution du problème. Pour réduire l'impact d'un incident, il est essentiel que les bonnes personnes soient mobilisées au bon moment. L'essaimage est l'opposé de la nécessité de réunir les bonnes personnes au bon endroit et au bon moment : il s'agit simplement de tout le monde, pendant toute la durée de l'incident.
Le terme intelligent fourmillement est utilisé pour désigner un flux de travail permettant de traiter les problèmes de service client, en particulier pour les VIP, dont nous avons parlé plus tôt ce mois-ci . Il s'agit d'une approche quelque peu différente, qui stipule que le membre de l'équipe qui a pris en charge le dossier en premier doit le mener à bien jusqu'à sa résolution et a la capacité de mobiliser des ressources de toute l'organisation pour aider à résoudre le problème. Bien qu'il soit lié à un essaim de réponse générale, l'objectif d'un essaim intelligent est généralement un client unique et centré sur son expérience.
La mobilisation en masse pour répondre à un incident technique général ressemble davantage à l'alarme incendie déclenchée dans un bâtiment : tout le monde est en état d'alerte et doit intervenir. En gros, une alerte est envoyée à toute personne susceptible d'avoir connaissance d'un incident, en lui demandant de se joindre à l'incident, puis le processus laborieux consistant à déterminer qui peut procéder au tri et à la résolution du problème commence.
Les organisations ont souvent recours à la multiplication des appels parce qu’elles ne disposent pas de suffisamment d’informations sur leurs services et leur écosystème ou parce qu’elles n’ont pas de bonnes pratiques de communication pour tenir les parties prenantes informées. Lorsqu’un incident survient, personne ne sait exactement quel est le problème, où il se produit ou qui peut savoir comment le résoudre. Tout le monde est donc mobilisé au cas où il aurait des connaissances vitales à apporter. Cela rend la multiplication des appels extrêmement coûteuse. Le travail est perturbé, les tâches et les réunions sont déraillées et les ressources sont bloquées dans un endroit où elles ne sont pas efficaces. Des centaines de personnes peuvent être mobilisées pour répondre à un incident que seule une poignée d’entre elles peut réellement gérer plutôt que de continuer à travailler sans interruption et de recevoir des mises à jour appropriées.
L'essaimage est également difficile. Les appels volumineux avec de nombreux intervenants peuvent être bruyants et déroutants. L'essaimage ralentit le processus de récupération des incidents car il n'y a pas de coordination claire ni de chemin de responsabilité. Les informations proviennent de toutes sortes de directions sans organisation centrale ni autorité décisionnelle. Les équipes peuvent tenter de remédier à leurs propres services sans comprendre pleinement les impacts sur les autres services. L'essaimage est l'une des raisons pour lesquelles nous avons une politique de sécurité explicite. pratique du commandement des interventions – pour réduire la confusion et faciliter la résolution de l’incident le plus rapidement possible sans aggraver la situation.
Le regroupement peut être rassurant, dans la mesure où l'équipe pense qu'elle aura toujours toutes les personnes dont elle pourrait avoir besoin pour intervenir en cas d'incident dès la première alerte, au lieu de faire appel à des personnes lorsqu'il est déterminé que leurs systèmes sont impactés ou impliqués. Améliorer vos comportements d'astreinte atténuera les craintes que les personnes ne soient pas disponibles pour remédier à la situation. Avoir une rotation d'astreinte explicite avec des responsabilités convenues est moins stressant pour les intervenants que de s'inquiéter de l'arrivée d'un appel général à tout moment. Si les intervenants savent qu'ils auront un service d'astreinte à certains jours et à certaines heures, ils peuvent planifier à l'avance. Dans un scénario d'astreinte, il existe toujours un risque que la personne dont vous aurez besoin ne soit pas disponible : elle ne peut pas être d'astreinte 24h/24, 7j/7 et 365j/an.
Passer à autre chose que l'essaim
Pour améliorer votre processus contre l'essaimage, vous devez changer la façon dont votre équipe perçoit les services et les équipes qui les possèdent. Chez PagerDuty, nous appelons cette pratique « Propriété de service complet » et vous pouvez en savoir plus à ce sujet dans notre Guide des opérations Dans le contexte d’une réponse coordonnée aux incidents, la propriété d’un service signifie plusieurs choses :
- Une seule équipe a l’entière responsabilité du service, y compris de ses performances dans l’environnement de production.
- Cette équipe dispose d'un processus documenté pour être informée d'un problème sur ce service. En général, il s'agit de votre planning d'astreinte.
- Les dépendances consommées par le service sont documentées.
Votre organisation peut disposer de services qui n'ont pas de propriétaire clairement défini. Il peut s'agir de projets matures ou hérités qui ne nécessitent plus de développement actif ou d'attention. Il peut s'agir de produits commerciaux prêts à l'emploi (COTS) qui sont maintenus en collaboration avec le fournisseur, ou de solutions SaaS, voire de services internes devenus orphelins en raison de changements organisationnels. Si les services font partie de votre écosystème de production, des équipes doivent être chargées de les surveiller, même si cela nécessite simplement d'abonner l'alias de messagerie de l'équipe aux mises à jour du fournisseur pour démarrer. Chaque service exécuté dans votre environnement doit avoir une équipe explicitement responsable. Ces services peuvent toujours être impliqués dans des incidents ou nécessiter des travaux tels que des mises à jour de sécurité. Certaines organisations disposent d'équipes d'ingénierie héritées ou d'équipes d'ingénierie de plateforme qui seront responsables de ces services.
L'attribution de services à une seule équipe réduit la confusion quant à savoir qui possède quoi dans l'environnement. Les équipes peuvent former les nouveaux membres sur les services qu'elles possèdent et les gérer vers les SLO de service qui ont le plus d'impact. La création d'un annuaire de services avec une structure de propriété d'équipe complémentaire qui répertorie les personnes à informer fournit à tous les membres de l'organisation une ressource à consulter lorsqu'ils constatent un problème. Nous accomplissons cela dans PagerDuty avec équipes et politiques d'escalade attaché à prestations de service .
La politique d'escalade définit les lignes directrices concernant les personnes qui doivent être disponibles pour répondre aux incidents sur un service. Dans ce cas, l'intervenant doit être une personne connaissant le service concerné et disposant des moyens appropriés pour trier et résoudre le problème.
Un modèle de dépendance clair établit les relations entre les services afin que les intervenants, le support et les parties prenantes aient une idée claire de la façon dont un incident sur un service pourrait avoir un impact sur d'autres services dans l'environnement. PagerDuty va encore plus loin et propose les services aux entreprises , qui relie les services techniques non seulement entre eux, mais également aux fonctionnalités orientées client auxquelles ils contribuent. Tous les services techniques et commerciaux apparaissent sur la graphique de service , ainsi qu'un lien pratique vers le membre de l'équipe actuellement de garde pour ce service.
La création de ces données d'infrastructure, en particulier le modèle de dépendance, peut représenter beaucoup de travail si elles n'ont pas été mises à jour pour un service. Cependant, il est impossible de connaître l'impact total d'un incident sur un service back-end si l'équipe ne sait pas quels autres services consomment le service concerné par le problème.
Les équipes de support client bénéficieront également de ce travail. Un swarming intelligent nécessite que votre équipe de support dispose de toutes ces informations à portée de main. Lorsque vos clients ont besoin d'une solution, votre équipe doit être en mesure de trouver toutes les informations correctes et de mobiliser les bonnes personnes.
Améliorer la communication sur les incidents
La réponse aux incidents n'est pas vraiment un sport de spectateurs : la résolution d'un incident n'est souvent pas particulièrement passionnante. Il peut y avoir de longues périodes d'attente pour que les contrôles et les processus s'exécutent, pour rechercher les messages d'erreur ou pour attendre le redémarrage. Pendant que ce travail se poursuit, rien ne change vraiment. Cependant, pendant que ces tâches se poursuivent, les personnes qui ne sont pas directement impliquées dans la résolution veulent toujours savoir ce qui se passe. L'absence d'un plan de communication solide sur les incidents est une autre raison pour laquelle les équipes ont recours à l'essaimage. Si quelqu'un veut savoir ce qui se passe, la seule façon de le savoir est de se joindre à l'appel et d'écouter, peu importe le temps que prend la résolution.
Disposer d'un plan de communication solide et prédéterminé pour les incidents majeurs a deux fonctions : aider les utilisateurs internes à se tenir au courant de ce qui se passe et tenir les utilisateurs externes informés. Guide de réponse aux incidents nous spécifions deux rôles pour communiquer lors d'un incident : le agent de liaison avec la clientèle et le liaison interne . Il est prévu que vous ayez des mises à jour différentes pour ces deux groupes. En fonction de votre organisation, ce que vous publiez publiquement à propos d'un incident peut devoir être révisé ou utiliser un langage spécifique. La création de modèles et l'affectation de membres d'équipe spécifiques au rôle de liaison en matière de communication faciliteront cette tâche. Vos communications internes contiendront probablement plus de détails afin que d'autres équipes puissent déterminer si leurs services pourraient être impactés.
Les meilleurs plans reposent sur la communication régulière de toutes les parties prenantes. Une communication précoce et fréquente permet à chacun de savoir que la situation est en cours d'examen et que, lorsque les choses seront réglées, tout le monde sera informé.
Vous n'êtes pas obligé de vous précipiter avec un NOC
Il est possible d'évoluer vers un modèle moderne de réponse aux incidents lorsque votre première ligne d'intervenants est une équipe NOC polyvalente. La propriété explicite du service signifie que le NOC peut transmettre des problèmes complexes aux équipes de service lorsqu'elles ne sont pas en mesure de résoudre un incident. Cela donne au NOC une ligne directe pour savoir qui appeler lorsqu'un problème nécessite une assistance supplémentaire de la part des experts en la matière. Il est beaucoup plus facile d'appeler l'intervenant de garde de l'équipe qui possède le service A que de rassembler une grande variété de personnes de toute l'organisation.
Résumé
La modernisation de vos méthodes de réponse permet à votre organisation d'économiser du temps et des ressources. Les clients de PagerDuty aiment SÈVE récoltent les bénéfices de la mobilisation des seuls intervenants nécessaires, au moment où ils sont nécessaires, pour se concentrer sur la fourniture de la réponse la plus efficace.
Si votre équipe cherche un moyen de réduire le temps de résolution et de limiter le besoin de ces énormes appels en essaim, consultez nos ressources dans notre Guide des opérations de réponse aux incidents . Je ne suis pas sûr de tout ce qui pourrait être nécessaire pour propriété à service complet ? Découvrez notre vidéo et arrêtez-vous chez nous Forums communautaires pour discuter avec des personnes partageant les mêmes idées.