Der Blog

Überwachung von Geschäftsmetriken und Verbesserung der Reaktion auf Ausfälle

von Dave Cliffe 4. Juni 2015 | 4 Minuten Lesezeit

Argumente für die Überwachung von Geschäftsmetriken

Ob die CPU Ihres Servers zu 100% ausgelastet ist oder jemand fällt Ihren Regenwald ab PagerDuty hat keine Meinung dazu, wie Sie unsere Plattform nutzen, um eine Reaktion Ihres Bereitschaftsteams auszulösen. Aber in einem Bereich haben wir eine starke Meinung: Warnmeldungen zu Geschäftsmetriken. Das sollten Sie tun.

Was meinen wir nun mit „Geschäftsmetriken“? Da es dank Überwachungstools immer einfacher geworden ist, Betriebsmetriken wie Festplattenauslastung, Anforderungslatenz usw. zu erfassen, ist es noch einfacher geworden, Warnmeldungen an PagerDuty zu konfigurieren, wenn diese Metriken nicht mehr stimmen.

Den großen roten Knopf drücken

Grundsätzlich betrachten wir diese Kennzahlen als Indikatoren für einen größeren, geschäftsschädigenden Ausfall. Zu verstehen, was Ihre Kennzahlen Ihnen sagen, bevor ein größerer Ausfall eintritt, ist absolut entscheidend, und es ist oft komplex und schwer auszudrücken. Tatsächlich ist es etwas, das viele erfahrene NOC-Mitarbeiter einfach als eine Art „sechsten Sinn“ entwickeln. (Interessanterweise ist es auch etwas, das nicht effektiv trainiert werden kann. Kathy Sierras Buch Badass: Benutzer großartig machen spricht über das Konzept des „Wahrnehmungswissens“ und darüber, wie das Gehirn durch das Üben von Mustererkennung viel besser lernen kann als durch den Versuch, das Training zu verbalisieren, und zwar anhand von Beispielen von Geschlechtsbestimmung für Küken Und Flugausbildung . Dies scheint in gleicher Weise zu gelten, wenn man die Kombinationen von Betriebsmetriken betrachtet, die auf einen Ausfall hinweisen.) Unabhängig davon, ob Sie ein NOC oder ein verteiltes Bereitschaftsteam einsetzen, gibt es eine (vermutlich) von einem Menschen getroffene Untersuchungs- und Triageentscheidung, die zu einer dringenden, koordinierten Reaktion führt. Bei PagerDuty nennen wir dies „den großen roten Knopf drücken“. Es funktioniert. Aber es erfordert immer menschliches Eingreifen, um ein potenziell weit verbreitetes Problem zu bestätigen.

Seien Sie dem Ausfall zuvorkommen, indem Sie Geschäftsmetriken in Echtzeit überwachen

Was ist einfacher? Beginnen Sie damit, Ihre Geschäftsmetriken in Echtzeit zu überwachen. Ihr CFO, Ihre Business-Analysten und sogar Ihre Produktmanager sehen sich diese Daten bereits regelmäßig an, vielleicht sogar täglich. Der Schlüssel liegt darin, diese Daten zu operationalisieren. Vielleicht sind Sie ein E-Commerce-Unternehmen, das stark auf einen Einkaufswagen angewiesen ist, der während des Arbeitstages typischerweise Tausende von Artikeln Ihres gesamten Kundenstamms enthält. Was passiert, wenn der Einkaufswagen plötzlich überall Nullen anzeigt? Hinweis: Etwas stimmt nicht, und Sie müssen alle so schnell wie möglich daran arbeiten lassen. Das ist es, was die effektivsten Unternehmen tun. Amazon schlägt Alarm, wenn es einen erkennbaren Rückgang der Bestellungen pro Sekunde gibt. Netflix überwacht die Stream-Starts pro Sekunde. Unerwartete Änderungen dieser wichtigen Metriken lösen eine umfassende Untersuchung und Notfallreaktion aus.

So überwachen wir Geschäftskennzahlen intern

Bei PagerDuty leben wir nach einem Zuverlässigkeitskodex: Wir müssen leistungsfähiger sein als unsere Anbieter, als die Rechenzentren, in denen wir gehostet werden, und als Sie. Unser SLA ist uns heilig, und sein Herzstück ist unsere Pipeline zur Ereignisaufnahme und Alarmierung. Wir haben unser System so konstruiert, dass jede Verlangsamung unserer Pipeline zehn Personen gleichzeitig alarmiert und sofort eine dringende, kritische Reaktion auslöst. Kein menschlicher Triage-Schritt erforderlich. Wir wissen, dass wir das Notfallteam sofort brauchen, weil unsere Geschäftsmetriken darauf hingewiesen haben, dass etwas nicht stimmt.

Engineering ist Geschäft

Als Ingenieure sollten wir immer verstehen, wie wir dem Unternehmen einen Mehrwert bieten. Sie sorgen nicht nur dafür, dass Ihr Unternehmen „am Laufen bleibt“, insbesondere wenn es wächst, skaliert und neue Wege findet, um Kunden zu begeistern. Es geht um mehr als nur „Serververfügbarkeit“. Ändern Sie Ihre Perspektive und gehen Sie bei der Überwachung einen geschäftsorientierten, kundenorientierten Ansatz ein. Um diesen Ansatz selbst umzusetzen, ermitteln Sie die Kennzahlen, die IHR Unternehmen widerspiegeln, überwachen Sie sie in Echtzeit, lernen Sie, Anomalien zu erkennen und eine entsprechende Reaktion auszulösen, wenn etwas nicht stimmt.

Denken Sie daran: 100 % CPU-Auslastung kann schlimm sein (Vorbote eines Ausfalls) oder großartig (maximale Ressourcennutzung). Sie werden es nicht wissen, wenn Sie nicht wissen, wie sich dies auf Ihre Kunden und Ihr Unternehmen auswirkt.

eBook_440_220