Tout ce qui est critique n'est pas forcément urgent. Apprenez à faire la différence
« Critique » versus « Urgent »
Supposons qu'un environnement de test soit configuré pour refléter fidèlement l'environnement de production en termes de configuration, de données, etc. Il s'agit d'une partie très importante du pipeline de déploiement et d'un élément essentiel de l'activité pendant la journée de travail pour tous les ingénieurs qui en ont besoin. Il est constamment surveillé pour garantir qu'il fonctionne correctement, qu'il reflète au mieux la production et qu'il est disponible pour les déploiements.
Puis quelque chose ne va pas, et vous commencez à voir « CRITIQUE » ou « ERREUR » partout. Oh… j’ai oublié de mentionner qu’il est 3 heures du matin là où vous vivez. Est-ce vraiment « critique » à ce moment-là ? Techniquement, ça l’est. L’environnement est toujours en panne. Mais voulez-vous le réparer maintenant ? Est-ce urgent ?
Que signifie « critique » ?
Le modèle de réponse aux incidents de PagerDuty était à l'origine basé sur l'hypothèse qu'il y avait un problème et que vous aviez besoin de quelqu'un MAINTENANT : nous appellerions le principal de garde à plusieurs reprises, nous ferions remonter l'appel s'il n'était pas disponible ou indisposé, mais quoi qu'il arrive : nous appellerions quelqu'un immédiatement et de manière fiable - garanti . C'est ainsi que nous vous offrons la tranquillité d'esprit nécessaire pour dormir la nuit. Si c'est critique, vous pouvez compter sur nous : nous allons vous aider, vous aider, vous aider.
Mais que signifie « critique » ? Qui le définit ? Certains de nos clients utilisent le référentiel ITIL pour définir priorité des incidents . (En fait, on l'appelait « gravité de l'incident » jusqu'à l'arrivée d'ITIL v3.) Mais la majorité de nos clients se tournent vers leurs outils de surveillance pour définir une gravité/priorité : quel seuil a été dépassé ? Combien de fois l'incident a-t-il échoué au cours des 60 dernières secondes ? presque mort ou tous morts ?
Il s'agissait de se poser une question essentielle : dois-je faire quelque chose à ce sujet immédiatement ? Ou, pour paraphraser : est-ce urgent ?
Cela peut être « critique », mais est-ce « urgent » ?
Avoir une gamme de réponses d'alerte est incroyablement bénéfique, car cela signifie souvent que vous êtes averti à l'avance qu'un événement commence à devenir « mauvais » avant qu'il ne devienne réellement « mauvais ». Ce n'est pas parce que quelque chose n'est pas urgent ça ne veut pas dire que ce n'est pas important , et avoir tous vos incidents, petits et grands, dans PagerDuty vous donne des analyses précieuses sur les problèmes qui pourraient se préparer.
Malheureusement, certains de nos clients ont découvert que transformer chaque avertissement en incident PagerDuty peut être une recette pour des nuits blanches, appels misérables , et l'épuisement professionnel. Alors maintenant, avec Urgences en cas d'incident , vous pouvez éviter d'être réveillé pour des choses dont vous savez qu'elles ne nécessitent pas une attention urgente, et vous pouvez déterminer ce qui est important maintenant et ce qui peut attendre.
Ne vous faites réveiller que si c'est « urgent »
Si vous êtes toujours réveillé pour des choses qui ne sont pas urgentes, utilisez le livre d'exécution suivant :
- Mettez-le en veille jusqu'au matin ! Puis occupez-vous-en le lendemain.
- Commencez à utiliser notre Urgences en cas d'incident fonctionnalités permettant de définir ces événements comme étant de faible urgence ou dépendant de l'heure de la journée.
Et comme toujours, envoyez-nous vos commentaires à support@pagerduty.com ! N'importe quel jour, n'importe quand. Mais ne vous inquiétez pas si cela ne nous réveille pas !