Der Blog

Halten Sie Ihre Website mit den richtigen Überwachungspraktiken verfügbar

von Tony Albanese 22. April 2014 | 3 Minuten Lesezeit

In seiner einfachsten Form ist Website-Monitoring der Prozess des Testens und Überprüfens, ob Endbenutzer Ihren Dienst tatsächlich nutzen können. Es gibt mehrere großartige SaaS-Anwendungen, die Ihr System anpingen, um Sie wissen zu lassen, ob es einsatzbereit ist, falls Ihr Team schnell nach einer Lösung suchen muss.

Zu wissen, dass Ihre Website nicht erreichbar ist, ist nur der erste Schritt bei der Alarmierung, es sollte jedoch der letzte Schritt in Ihrer Überwachungskette sein. Im Idealfall sollten Sie für Alarme gerüstet sein, bevor etwas kaputt geht und der gesamte Dienst ausfällt. Wenn das jedoch nicht möglich ist, müssen Sie wissen, warum und wo das Problem auftritt.

Externe Website-Prüfungen

Ein kurzer Ping an Ihre Site alle 15 Sekunden kann äußerst hilfreich sein, um Probleme zu beheben, die zum Absturz Ihrer Site führen können. Probleme mit Ihrem Hosting-Anbieter, regionalem Support, Speicherspitzen oder erhöhter Netzwerkverkehr können zum Absturz Ihrer Site geführt haben.

Um über einen einfachen Ping hinauszugehen, gibt es einige sehr einfache Schritte, um wertvollere Informationen zu erhalten. Bei PagerDuty haben wir eine einfache Betriebszeitüberwachung auf www.pagerduty.com , aber wir haben auch mehrere externe Dienste, die eine einfache Testsuite anpingen. Wir wissen nicht nur, dass Ereignisse durch unser System fließen, sondern auch, dass die durchschnittliche Verarbeitungszeit unter einem Schwellenwert liegt und unser Alarmvolumen innerhalb eines sicheren Bereichs liegt.

Wenn Ihr Überwachungstool dies unterstützt, kann jeder Test Warnungen mit unterschiedlicher Schwere auslösen. Wenn wir aufgrund eines Problems bei einem IaaS-Anbieter eine hohe Auslastung feststellen, lösen wir häufig eine Warnung der Schwerestufe 3 aus, auch wenn keine Verzögerungen gemeldet werden. Dadurch wird ein Techniker geweckt, falls wir einen brauchen.

Sie sollten nicht nur prüfen, ob Ihre Seite reagiert, sondern sicherstellen, dass sie den richtigen Inhalt zurückgibt. Wenn Ihr Server 200 Statuscodes, aber verstümmelten Text zurückgibt, war Ihre gesamte Überwachung umsonst. Vergessen Sie nicht zu prüfen, ob Sie auch CSS und Skripte zurückgeben, wenn diese über eine andere Asset-Pipeline kommen.

Je umfassender Ihre Überwachung und Warnmeldungen sind, desto größer sind Ihre Chancen, Probleme zu erkennen, bevor Ihre Kunden davon betroffen sind.

Interne Website-Checks

Um ein vollständiges Bild Ihres Dienstes zu erstellen, müssen Sie den gesamten Stack überwachen, um die Grundursache für einen Ausfall zu finden. Dies bedeutet, dass Sie über den Empfang einer HTTP-Anfrage oder DNS-Prüfung hinausgehen und stattdessen hinter Ihren Load Balancer schauen müssen. Es kann einfach ein Netzwerkproblem sein, das Ihren Ausfall verursacht.

Durch die Überwachung Ihrer internen, nicht kundenorientierten Systeme können Sie Messdaten korrelieren und so die Grundursache für den Ausfall Ihrer Site ermitteln. Wir empfehlen die Verwendung eines Tools, mit dem Sie den Grund für Ihren Ausfall nicht nur durch einen einfachen Ping ermitteln können, sondern auch ohne raten zu müssen. Läuft Ihr System aufgrund des erhöhten Netzwerkverkehrs langsam oder steckt etwas tiefer liegendes dahinter? Es ist unbedingt erforderlich, die richtige Ursache für den Systemausfall zu finden. Auf diese Weise können Sie verhindern, dass derselbe Ausfall erneut auftritt.

Finden Sie die richtigen Werkzeuge für Sie

Wenn Sie eine Lösung implementieren möchten, sehen Sie sich einige unserer Partner an. Möglicherweise möchten Sie sogar mehr als einen verwenden, um redundante Prüfungen hinzuzufügen und sicherzustellen, dass Sie keine Warnung verpassen.

Eine vollständige Liste unserer sofort einsatzbereiten Integrationen finden Sie auf unserer Seite „Integrationen“ . Sie finden Ihr bevorzugtes Tool nicht und möchten, dass wir eine Integration entwickeln? Schreiben Sie uns eine E-Mail an support@pagerduty.com .