Der Blog

Festlegen der Vorfallpriorität

von Michael Churchman 20. Juni 2017 | 5 Minuten Lesezeit

Warnmeldungen. Sie häufen sich so schnell. In einem Moment sehen Sie eine Handvoll Warnmeldungen. Ein paar Stunden – oder vielleicht sogar Minuten – später blicken Sie auf einen Berg davon. Wie verwalten Sie sie und verhindern, dass Ihre Helfer völlig überfordert werden?

Dies sind äußerst wichtige Fragen. Wenn Ihr Alarmmanagementsystem mit Lärm überflutet ist und die Einsatzteams in einem permanenten Zustand der Alarmmüdigkeit , könnten Sie genauso gut gar nicht erst über ein IT-Warnmanagementsystem verfügen. Übermäßiger Lärm und Alarmmüdigkeit die Wirksamkeit des Alarmmanagementsystems vollständig reduzieren.

Filter anwenden: Warnungen bei Vorfällen

In vielerlei Hinsicht liegt der Schlüssel zur Optimierung Ihres Alarmmanagementsystems in einer schnellen und präzisen Methode zur Konsolidierung verwandter Alarme zu Vorfällen und zur Bestimmung der Vorfallpriorität. Durch die Sortierung von Vorfällen nach Dringlichkeit wird ein automatischer Filter für die meisten Störungen bereitgestellt und Sie erhalten eine vernünftige Schätzung dessen, was sofortige Aufmerksamkeit erfordert und was warten kann. Bedenken Sie auch, dass nicht jeder Alarm einen Vorfall oder eine Reaktion erfordert – Unterdrückung nicht umsetzbarer Warnungen reduziert den Lärm noch weiter und ermöglicht es Ihnen, sich auf das Wesentliche zu konzentrieren.

Sie werden wahrscheinlich zumindest einen Teil des Sortiervorgangs automatisieren können (beispielsweise nach Quelle und Schlüsselwörtern), obwohl ein Teil (und möglicherweise ein beträchtlicher Teil) davon wahrscheinlich die Überwachung und Intervention durch Mitglieder des Reaktionsteams in der Rolle des Dispatchers erfordern wird. Welche Methode Sie auch verwenden, die grundlegenden Kriterien bleiben dieselben.

Die meisten Prioritätsschemata folgen dem ITIL Richtlinien zur Priorisierung von Vorfällen oder etwas Ähnliches. Eines der Schlüsselelemente der ITIL-Richtlinien ist, dass die Priorität von Vorfällen auf zwei eng miteinander verbundenen Faktoren basiert: Auswirkung und Dringlichkeit. In diesem Beitrag werden wir uns diese beiden Faktoren und ihre Wechselwirkung genauer ansehen.

Bestimmen Sie die Auswirkungen des Vorfalls

Die Auswirkungen basieren im Allgemeinen auf dem Umfang der Auswirkungen eines Vorfalls – wie viele Abteilungen, Benutzer oder wichtige Dienste betroffen sind. Es kann relativ einfach sein, zumindest einige Elemente des Auswirkungsbestimmungsprozesses zu automatisieren. Eine große Anzahl nahezu gleichzeitiger Berichte, dass ein bestimmter Dienst nicht verfügbar ist, kann beispielsweise ein guter Hinweis auf einen Vorfall mit schwerwiegenden Auswirkungen sein, während ein Bericht über ein Problem von einem einzelnen Benutzer, der nicht von ähnlichen Berichten begleitet wird, eher auf einen Vorfall mit geringen Auswirkungen hinweist. Für viele IT-Abteilungen ist die Richtlinien zur Ermittlung der Auswirkungen von Vorfällen könnte ungefähr so aussehen:

  • Hohe Wirkung:
    • Ein kritisches System ist ausgefallen.
    • Eine oder mehrere Abteilungen sind betroffen.
    • Eine erhebliche Zahl von Mitarbeitern ist nicht in der Lage, ihre Aufgaben zu erfüllen.
    • Der Vorfall betrifft eine Vielzahl von Kunden.
    • Der Vorfall kann zu erheblichen finanziellen Verlusten oder einer Schädigung des Rufs des Unternehmens führen.
    • Weitere Kriterien können – abhängig von der Funktion der Organisation und den betroffenen Systemen – beispielsweise eine Gefährdung der öffentlichen Sicherheit, ein potenzieller Verlust von Menschenleben oder erheblicher Sachschaden sein.
  • Mäßige Auswirkung:
    • Einige Mitarbeiter oder Kunden sind betroffen.
    • Keiner der verlorenen Dienste ist kritisch.
    • Finanzielle Verluste und eine Schädigung des Rufs der Organisation sind möglich, jedoch in ihrem Ausmaß begrenzt.
    • Es besteht keine Gefahr für Leben, öffentliche Sicherheit oder Eigentum.
  • Geringe Auswirkung:
    • Es ist nur eine kleine Anzahl von Benutzern betroffen.
    • Es sind keine kritischen Dienste betroffen und das Potenzial für finanzielle Verluste oder einen Reputationsverlust ist gering oder gar nicht vorhanden.

Vorfall-Dringlichkeit

Es ist nicht immer einfach, eine strikte Unterscheidung zwischen den Auswirkungen eines Vorfalls und seiner Dringlichkeit zu treffen. Dringlichkeit kann in diesem Zusammenhang jedoch meist dadurch definiert werden, wie schnell sich ein Problem auf das System auswirkt. Der Ausfall eines Lohnabrechnungssystems kann beispielsweise erhebliche Auswirkungen haben, tritt er jedoch zu Beginn eines Lohnzyklus auf, ist er wahrscheinlich weniger dringend als der Verlust einer Kundenbeziehungsdatenbank, die täglich stark beansprucht wird.

  • Hohe Dringlichkeit:
    • Ein für den täglichen Betrieb wichtiger Dienst ist nicht verfügbar.
    • Der Einflussbereich des Vorfalls weitet sich rasch aus bzw. durch rasches Handeln kann sein Ausmaß möglicherweise eingedämmt werden.
    • Betroffen sind zeitkritische Arbeiten oder Kundenaktionen.
    • Der Vorfall betrifft Einzelpersonen oder Organisationen mit hohem Status (z. B. das obere Management oder wichtige Kunden).
  • Geringe Dringlichkeit:
    • Die betroffenen Dienste sind optional und werden selten verwendet.
    • Die Auswirkungen des Vorfalls scheinen stabil zu sein.
    • Wichtige oder zeitkritische Arbeiten werden dadurch nicht beeinträchtigt.

Beachten Sie, dass sowohl hinsichtlich der Auswirkung als auch der Dringlichkeit im Allgemeinen die Erfüllung eines einzigen Kriteriums (und nicht aller oder der meisten Kriterien) für eine Kategorie ausreicht. Vorfälle sollten in die höchste Kategorie eingeordnet werden, für die sie infrage kommen.

Priorität = Auswirkung + Dringlichkeit

An diesem Punkt sollte es ziemlich einfach sein zu erkennen, dass die Priorität eine direkte Funktion sowohl der Auswirkung als auch der Dringlichkeit ist. Unabhängig von der Alarmverwaltung Und Einsatzdispositionsprozesse Wenn Sie die Alarme entsprechend den Prioritätskriterien weiterleiten, können Sie einen Großteil der Alarme dämpfen, und Ereignisse mit geringer Auswirkung und geringer Dringlichkeit rutschen automatisch ans untere Ende Ihrer Prioritätenliste. So können sich Ihre Einsatzteams auf die Art von Vorfällen mit hoher Auswirkung und hoher Priorität konzentrieren, die wirklich die meiste Aufmerksamkeit erfordern – und das bei minimaler Ablenkung oder Alarmmüdigkeit.

Weitere Informationen zum Aggregieren, Klassifizieren und Unterdrücken von Ereignissen zur Verwaltung wichtiger Ereignisse finden Sie unter PagerDutys Alarm-Triage- und Ereignisregel-Engine . Sie können Vorfälle auch einfach klassifizieren, basierend auf den Benutzerdefinierte Definitionen der Priorität .

Und dieser Berg an Warnmeldungen? Indem wir uns auf das konzentrieren, was umsetzbar und dringend ist – insbesondere mit Hilfe eines Lösung wie PagerDuty – vielleicht stellen Sie fest, dass es nicht mehr da ist!