Version préliminaire de la nouvelle version 'multi-incidents' de PagerDuty
Nous avons soigneusement examiné vos demandes de fonctionnalités pour essayer de comprendre la meilleure façon d'améliorer PagerDuty. Une demande de fonctionnalité est revenue beaucoup plus souvent que les autres : faciliter l'intégration de PagerDuty aux outils de surveillance. Nous avons pris cette demande à cœur et avons commencé à retravailler PagerDuty afin de pouvoir bientôt prendre en charge l'intégration d'API avec des systèmes de surveillance comme Nagios.
Avant de pouvoir publier une API pour PagerDuty, nous devons cependant corriger certaines simplifications excessives dans la conception de PagerDuty. Jusqu'à présent, PD vous obligeait à créer une nouvelle alarme pour chaque type de problème que vos systèmes de surveillance sont capables de détecter. Malheureusement, cela ne fonctionne pas très bien si vous utilisez un outil de surveillance comme Nagios, capable de suivre des milliers de conditions à la fois.
Ainsi, au cours des dernières semaines, nous avons travaillé à repenser PD afin qu'il puisse gérer plusieurs incidents ouverts à partir d'un seul service de surveillance. Nous sommes sur le point de déployer cette nouvelle version améliorée de PagerDuty, mais avant de le faire, nous aimerions vous donner la chance de vous familiariser avec le système et nous faire savoir s'il existe un moyen de le faire. rendre le nouveau système encore meilleur avant son lancement.
Comment puis-je l'essayer ?
Heureux que vous ayez demandé ! Pendant au moins la semaine prochaine, nous allons lancer un aperçu du nouveau système PagerDuty . Pour vous connecter, visitez :
http://<your-subdomain> .pd-staging.com
et utilisez votre e-mail et votre mot de passe PagerDuty habituels.
Toutes vos données ont été migrées depuis votre compte PagerDuty , vous pouvez donc voir exactement à quoi ressemblera le système une fois que nous mettrons à jour le logiciel sur nos serveurs de production. La version préliminaire est entièrement fonctionnelle, alors n'hésitez pas à lancer les pneus et à lui demander de vous envoyer quelques alertes. Ne vous inquiétez pas, rien de ce que vous faites dans votre compte de préversion n'aura d'impact sur votre environnement de production. Bien entendu, tous les SMS et appels téléphoniques passés depuis l’environnement de prévisualisation seront gratuits.
Afin de maintenir la compatibilité ascendante, nous avons configuré toutes les alarmes existantes pour qu'elles ne prennent en charge qu'un seul incident actif à la fois. Pour supprimer cette restriction, procédez simplement comme suit :
- Cliquez sur l’onglet « Services »
- Sélectionnez l'une de vos alarmes existantes
- Cliquez sur « Modifier ce service » sur le côté droit de l’écran
- Basculez le mode de création d'incident sur « Ouvrir un nouvel incident pour chaque e-mail déclencheur »
- Cliquez sur « Enregistrer les modifications »
Le grand changement : le support multi-incidents
PagerDuty est désormais capable de suivre plusieurs incidents ouverts simultanément. En d'autres termes, votre système de surveillance peut signaler à PagerDuty environ 100 problèmes simultanés et indépendants sans que vous ayez besoin de créer 100 alarmes PagerDuty , comme c'est le cas actuellement.
PagerDuty utilise désormais les « incidents » plutôt que les « alarmes » comme objet principal. Votre équipe d'assistance reconnaîtra, fera remonter et résoudra les incidents, au lieu des alarmes avec lesquelles elle travaille actuellement. Les incidents dans PagerDuty sont similaires aux tickets dans un système de suivi de bogues : ils sont créés lorsqu'un problème est détecté et sont résolus ou fermés lorsque le problème est résolu.
Étant donné que PagerDuty peut désormais gérer des centaines d'incidents ouverts à la fois, nous avons essayé de concevoir soigneusement l'interface de PagerDuty pour faciliter le travail avec de grandes collections d'incidents. Les nouveaux onglets Incidents et Tableau de bord comportent des tableaux qui vous permettent de voir en un coup d'œil tous les incidents ouverts qui vous sont attribués. Vous pouvez également trier facilement vos incidents directement à partir de ces pages à l'aide des commandes situées en haut du tableau.
L'un des plus grands avantages de la conception existante à incident unique de PagerDuty est qu'elle ne peut pas générer de tempêtes d'alertes. Même si Nagios envoie des centaines d'e-mails à PagerDuty à la fois, vous ne recevrez qu'un seul ensemble d'appels téléphoniques et de SMS. Nous avons pris soin de conserver cette fonctionnalité dans la nouvelle version du produit. PagerDuty regroupera intelligemment plusieurs incidents dans un seul ensemble de notifications afin que vous ne soyez pas submergé d'alertes.
Autres changements
Nous avons apporté quelques autres petits changements pour prendre en charge la nouvelle fonctionnalité multi-incident.
Tout d'abord, nous avons renommé « alarmes » en « services ». Les alarmes/services sont désormais utilisés uniquement pour représenter un point d'intégration entre PagerDuty et vos services de surveillance. Actuellement, PagerDuty ne propose qu'un seul type de service : le simple mécanisme déclenché par courrier électronique que vous avez utilisé dans la version précédente de PagerDuty. Dans les semaines à venir, nous ajouterons la prise en charge des services pilotés par API afin de pouvoir offrir une intégration encore plus étroite avec des produits comme Nagios.
Pour des raisons similaires, nous avons renommé « groupes d'alarmes » en « stratégies d'escalade ». Nous pensons que le nouveau nom reflète mieux l'utilisation de ces objets.
Enfin, nous avons renommé la « suppression » de l'incident en « acquittement ». Comme auparavant, cette fonctionnalité est utilisée pour empêcher temporairement un incident de générer des alertes. Nous avons pensé que le mot « acquittement » reflétait mieux l'objectif de la fonctionnalité : « Arrêtez de m'embêter avec ce problème pour l'instant… J'y travaille ! ».
Et après
La prochaine étape est la prise en charge d'une API PagerDuty . Une fois que nous aurons déployé PagerDuty multi-incident en production et que nous nous serons assurés que tout le monde est à l'aise avec le nouveau système, nous annoncerons nos plans pour l'API. Restez à l'écoute pour plus d'informations !