Der Blog

Echtzeit-Warnmeldungen zur Protokollverwaltung: Das Gute aus dem Schlechten herausholen

von Vivian Au 1. Mai 2014 | 6 min Lesezeit

Gast-Blogbeitrag von Trevor Parsons, Chefwissenschaftler und Mitbegründer von Logentries. Trevor hat über 10 Jahre Erfahrung in der Entwicklung von Überwachungs- und Leistungstools für Softwaresysteme. Er war früher Wissenschaftler am IBM Center for Advanced Studies und hat einen Doktortitel vom University College Dublin, Irland. Chatten Sie mit Trevor unter @trevparsons.

log-management-alerts Protokolldaten können wichtige Geschäftsaktivitäten und Benutzerereignisse aufdecken, die Sie in Ihrem gesamten Unternehmen teilen können. Die meisten herkömmlichen Protokollierungslösungen führen alle 5 oder 10 Minuten Hintergrundjobs aus, aber das reicht nicht wirklich aus. Überlegen Sie einmal: Wäre es bei einem Notfall zu Hause akzeptabel, 5, 10 oder 15 Minuten zu warten, bevor Sie zum Telefon greifen und den Notdienst anrufen? Neben der Identifizierung von Ereignissen, wenn sie eintreten, ist es wichtig, alle wichtigen Personen auf dem Laufenden zu halten. Aber wie können Sie unterscheiden, was jemanden mitten in der Nacht aufwecken sollte und was eine gute Nachricht ist? Durch das Festlegen der richtigen Schwellenwerte und die Zuordnung bestimmter Ereignisse zu einem bestimmten Alarmtyp ist es einfach, alle auf dem Laufenden zu halten.

Hier sind meine Top 5 Warnungen, die wir ziemlich nützlich finden bei Logeinträge zum Senden über PagerDuty. Ich gebe zu, dass die letzten beiden für eine IT-Vorfallmanagementplattform etwas unorthodox sind, aber warum nicht die guten Nachrichten mit den schlechten teilen.

1. Ausnahmen und Fehler
Dies ist ziemlich offensichtlich, aber Sie wären überrascht, wie oft Ausnahmen oder Fehler unbemerkt bleiben, insbesondere wenn Sie nicht über eine gut durchdachte Protokollierungs- und Überwachungsmethode verfügen. Warnungen, die einige Kontextinformationen enthalten, z. B. welche Anwendungskomponente und wo die Ausnahme ihren Ursprung hatte, helfen Ihnen dabei, die Grundursache schnell zu ermitteln.

Was Sie tun können: Korrelieren Sie diese integrierten Warnungen mit allen Benachrichtigungen zu Leistungsproblemen oder Informationen zur Ressourcennutzung, um die genaue Ursache des Problems zu ermitteln. Welche dieser Ausnahmen zu warnen sind, hängt von Ihrer Anwendung und davon ab, was im Kontext Ihres Problems wichtig ist. Denken Sie jedoch im Voraus darüber nach und konfigurieren Sie Warnungen basierend auf Ausnahmen und Fehlern, die für Ihre Anwendung besonders wichtig sind. Es kann hier hilfreich sein, verschiedene Ausnahmen/Fehler zu gruppieren Verwenden von Schweregraden für die Protokollierung sodass nur für besonders wichtige Ereignisse Warnmeldungen erstellt werden.

2. Reaktionszeit
Das Festlegen von Warnungen bei Überschreiten von Leistungsschwellenwerten ist eine hervorragende Möglichkeit, um sicherzustellen, dass Sie benachrichtigt werden, wenn Ihre Benutzer eine langsame App oder Website erleben. Die meisten Protokollverwaltungstools ermöglichen es Ihnen im Allgemeinen, mit Feldwerten zu arbeiten, sodass Sie bei „Antwortzeit > 50 ms“ benachrichtigt werden können. Dies ist insbesondere dann nützlich, wenn Sie die Antwortzeit aus der Sicht der Benutzer messen können. Logentries bietet Integrationen, mit denen Sie sich direkt vom Browser oder der mobilen App des Benutzers aus anmelden können, sodass Sie eine echte Benutzerüberwachung durchführen können. Dadurch können Benachrichtigungen ausgelöst werden, wenn ein einzelner Benutzer langsame Seitenladezeiten auf einem bestimmten Gerät, Browser oder Betriebssystem feststellt.

Was Sie tun können: Eine gute Faustregel für die Alarmierung von Reaktionszeiten ist: Befolgen Sie die 3 Antwortfristen wie von Jakob Nielsen in seiner Veröffentlichung über „Usability Engineering“ im Jahr 1993 dargelegt, die auch heute noch relevant ist. Kurz gesagt: 0,1 Sekunden sind ungefähr die Grenze, ab der der Benutzer das Gefühl hat, dass das System sofort reagiert, 1,0 Sekunden sind ungefähr die Grenze, ab der der Gedankenfluss des Benutzers nicht unterbrochen wird, und 10 Sekunden sind ungefähr die Grenze, ab der die Aufmerksamkeit des Benutzers auf den Dialog gerichtet bleibt.

3. Ressourcennutzung
Ähnlich wie beim Festlegen von Schwellenwerten für die Antwortzeit kann es auch nützlich sein, benachrichtigt zu werden, wenn ein bestimmter Server Probleme hat und beginnt, eine bestimmte Ressource (z. B. CPU, Netzwerk, Festplatte, Speicher) voll auszulasten. Die proaktive Überwachung der Ressourcennutzung – wenn eine Serverinstanz plötzlich Probleme macht und die CPU voll ausgelastet ist – ist auch besonders wichtig geworden, wenn ständig Cloud-Dienste ausgeführt werden, bei denen Sie sie möglicherweise neu starten oder automatisch eine andere Instanz starten möchten, um sie zu ersetzen oder die Last zu verteilen.

Was Sie tun können: Ein Vorteil der Verwendung einer Protokollverwaltungslösung zur Analyse von Ressourcennutzungstrends besteht darin, dass Sie die einzelnen Protokolleinträge in einem Ressourcennutzungs-Dashboard zusammenfassen können, um Trends bei CPU, Netzwerk, Speicher usw. zu visualisieren. Sie können auch in die einzelnen Protokollereignisse einsteigen und Ereignisse im Zusammenhang mit CPU-Spitzen kreuzkorrelieren. Bei Ereignissen im Zusammenhang mit Fehlern oder Ausnahmen können Sie beispielsweise sehr schnell die Grundursachen ermitteln und etwaige Probleme beheben. Dies ist mit Serverüberwachungstools im Allgemeinen nicht möglich, da diese keine derart detaillierte Ansicht oder Korrelation mit anderen Protokollereignissen im Zusammenhang mit Antwortzeiten, Fehlern oder Ausnahmen ermöglichen.

Und nun zu den guten Nachrichten …

4. Ereignisse, die Ihren Umsatz beeinflussen
Seien wir ehrlich – wenn man sieht, wie diese Kunden einen neuen Service nutzen, zaubert das jedem ein Lächeln ins Gesicht. Benachrichtigungen müssen nicht immer schlechte Nachrichten sein. Wäre es nicht schön, bei einem nächtlichen Ausflug einmal mit einer guten Nachricht gestört zu werden?

Was Sie tun können: Bei Logentries machen wir keine Unterschiede, wenn es um Warnmeldungen geht – wir mögen das Gute, das Schlechte und das Hässliche – und wir senden bei allen möglichen wichtigen Ereignissen Warnmeldungen an unser eigenes Team, damit jeder im Team weiß, was beim Service und im Unternehmen vor sich geht – sei es gut oder schlecht. Richten Sie eine benutzerdefinierte Kennzeichnung und Nachverfolgung von Geschäftsereignissen wie „Testanmeldungen“ oder „Webseitenbesuche“ ein, damit Sie die Gesundheit Ihres Unternehmens in Echtzeit überwachen können und nicht nur Ausnahmen und Fehler berücksichtigen.

5. Ereignisse zur Einführung von Funktionen
Ähnlich wie beim letzten Punkt kann es auch bei der Veröffentlichung einer neuen Funktion nützlich sein, benachrichtigt zu werden, wenn Ihre ersten 100 oder 1000 Kunden die Möglichkeit hatten, damit zu spielen. Vielleicht möchten Sie dafür nicht mitten in der Nacht geweckt werden, aber Sie können diesen Meilenstein mit Ihrem Unternehmen über eine leisere Benachrichtigungsmethode wie E-Mail teilen.

Was Sie tun können: Nutzen Sie die Warnschwellen in Logentries, um nur benachrichtigt zu werden, wenn ein Ereignis über eine bestimmte Anzahl von Malen einem bestimmten Muster entsprochen hat (z. B. wenn Funktion X über 100 Mal verwendet wurde). Dies kann aus mehreren Gründen nützlich sein:

  • Es ist einfach gut für die Teammoral, wenn Sie alle hart an einem neuen Feature gearbeitet haben, es dann veröffentlichen und … ja … die Leute es tatsächlich nutzen und mögen.
  • Vielleicht möchten Sie wissen, was die Leute von dieser neuen Funktion halten, und sie um Feedback bitten. Wenn Sie Ihr System so konfigurieren, dass auch eine Konto-ID oder eine Benutzerkennung protokolliert wird, können Sie jederzeit zurückgehen und sie fragen, was sie davon halten – es iterieren – und verbessern – und dies dann für die nächsten 100 Benutzer wiederholen.

Mit diesen Echtzeit-Log-Management-Warnungen können Sie die Transparenz in Ihren Teams und Ihrer Organisation erhöhen. Schauen Sie sich die neuen Logentries und PagerDuty -Integration in Ihrer eigenen Umgebung!