Der Blog

Zusammenfassung der Serie „Intelligente Alarmgruppierung“

von Quintessenz Anx 7. April 2022 | 4 Minuten Lesezeit

Mitautor: Chris Bonnell, PagerDuty Data Scientist VI

Willkommen zu unserem letzten Beitrag in unserer EI-Architektur-Reihe zum Thema Intelligente Alarmgruppierung. Ich hoffe, Ihnen hat diese Reihe gefallen, und wenn Sie einen Blick auf einen unserer vorherigen Beiträge werfen möchten, verwenden Sie bitte das ei-Architektur-Serie Tag. Lassen Sie uns einen Moment innehalten und alles zusammenfassen, was wir gelernt haben.

Die zentralen Thesen

Die Standardverhaltensweisen für die intelligente Alarmgruppierung basieren auf abstrahierten Mustern im Vorfallmanagement und nutzen Modelle des maschinellen Lernens. Das bedeutet, dass das Tool sozusagen viele fundierte Vermutungen zur Implementierung anstellen kann, aber möglicherweise nicht in jeder einzelnen Umgebung perfekte Übereinstimmungen generiert. Um dies auszugleichen, können Sie die Gruppierungsverhaltensweisen verbessern, indem Sie Zusammenführungen, Titel und Servicedesign nutzen.

Zusammenführungsverhalten

Vorfälle werden über einen Prozess namens Zusammenführung in der PagerDuty -Anwendung. Im Allgemeinen kann jeder Vorfall mit jedem anderen Vorfall zusammengeführt werden. Insbesondere die intelligente Alarmgruppierung analysiert das Feld „Alarmtitel“, wenn versucht wird, zu bestimmen, ob ein einzelner Alarm zusammengeführt oder in einen neuen Vorfall aufgeteilt werden soll, wie wir in dieser Beitrag . Falls Warnungen fälschlicherweise zu einem gemeinsamen Vorfall zusammengeführt werden, können Sie Maßnahmen ergreifen, um sie zu trennen und an ihren Platz zu verschieben. Das maschinelle Lernmodell verstärkt das Verhalten mit jeder Iteration, sodass das zukünftige Verhalten verbessert wird, unabhängig davon, ob die Warnungen bleiben, zusammengeführt oder verschoben werden.

Alarmtitel

Da die intelligente Alarmgruppierung das Zusammenführungsverhalten auf dem Feld „Alarmtitel“ basiert, haben wir die Grundlagen von Alarmtiteln mit einigen allgemeinen Prinzipien des maschinellen Lernens in ein früherer Beitrag . Daraus lassen sich drei wichtige Erkenntnisse gewinnen:

  • Alarmtitel sollten sowohl für Menschen als auch für maschinelles Lernen von Nutzen sein, wobei der Schwerpunkt eher auf maschinellem Lernen liegen sollte, da die restlichen Einzelheiten des Vorfalls in der Beschreibung enthalten sein sollten.
  • Bedenken Sie, dass Maschinen den Kontext nicht verstehen können. Daher ist es wichtig, sich zunutze zu machen, was ein Computer als „einzigartig“ bzw. „allgemein“ identifizieren kann.
  • Da es für den Teil des Alarmtitels, der in einer Push-Benachrichtigung angezeigt wird, eine kurze Zeichenbeschränkung gibt, platzieren Sie den menschenorientierten Text lieber früher im Titel als später.

Um zu erfahren, wie diese implementiert werden, werfen Sie bitte einen Blick auf den Abschnitt zum maschinellen Lernen in diesem Beitrag sowie auf Einführung in die natürliche Sprachverarbeitung für Text Blogbeitrag im Towards Data Science-Blog.

Service-Design

Das letzte Konzept, das wir vorgestellt haben, war eine Diskussion über Service-Design . Die allgemeine Idee ist, dass ähnliche Warnungen beim gleichen Dienst standardmäßig als stärker korreliert angesehen werden als Warnungen bei anderen Diensten. Hier gab es einiges zu sagen, denn herauszufinden, wie granular Sie bei Ihren Dienstdefinitionen sein müssen, bestimmt wirklich, wie Sie implementieren „ Service ” in der PagerDuty Anwendung. Als allgemeine Regel gilt: Wenn Sie sich nicht sicher sind, ob zwei „Dinge“ separate Dienste sein sollten oder nicht, ahmen Sie den gewünschten Eskalationspfad nach. Wenn beide demselben Team oder denselben Personen gehören, wird diese Eskalation weiterhin anerkannt, wenn Sie sie in der PagerDuty -Anwendung als einen Dienst betrachten, mit dem zusätzlichen Vorteil, dass ihre Alarme stärker korreliert sind. Wenn verschiedene Teams für sie verantwortlich sind oder wenn sie logisch unterschiedlich sind, sodass Sie nicht möchten, dass ihre Alarme stärker korreliert sind, definieren Sie sie als separate Dienste. Was die besitzenden Teams betrifft: Wenn Sie mehr über Best Practices für die Definition und den Besitz von Diensten im Allgemeinen erfahren möchten, lesen Sie bitte unseren Vollständiger Service Ownership Ops-Leitfaden .

Wie geht es weiter?

Und das war’s! Vielen Dank, dass Sie sich die Zeit genommen haben, mehr über die vollständige Nutzung der intelligenten Alarmgruppierung zu erfahren. Wenn Sie diese Beiträge längerfristig nachschlagen möchten, setzen Sie bitte ein Lesezeichen für ei-architecture-series tag . Wenn Sie weitere Diskussionen wünschen, schauen Sie sich bitte unsere Community-Foren . Für ausführlichere Fragen und Antworten wenden Sie sich bitte an unser Supportteam.