Der Blog

10 häufige Serverüberwachungsfehler aus der Praxis

von Tony Albanese 24. Februar 2014 | 7 min Lesezeit

Dies ist ein Gastbeitrag von Shawn Parrish von NodePing, einem unserer Monitoring-Partner, in dem es darum geht, wie man einige der häufigsten Stolpersteine beim Monitoring vermeidet. NodePing bietet einfache und kostengünstige externe Serverüberwachungsdienste. Weitere Informationen zu NodePing finden Sie auf deren Website ( https://nodeping.com )

Ich bin seit Jahren für Server und Serviceüberwachung verantwortlich und habe wahrscheinlich fast alle Fehler gemacht. Hören Sie sich also die Kriegsgeschichten eines Mannes mit Narben an und lernen Sie aus meinen Fehlern. Hier sind 10 niedrige Brücken, an denen ich meinen Kopf gestoßen habe. Die meisten davon sind gesunder Menschenverstand, der sagt, man solle sich an die Stirn hauen. Achten Sie auf die Lücke.

Hier sind 10 häufige Fehler, die ich bei der Serverüberwachung gemacht habe.

1. Ich überprüfe nicht alle meine Server

Ja, es scheint ein Kinderspiel zu sein, aber wenn ich so viele Eisen im Feuer habe, fällt es mir schwer, daran zu denken, die Serverüberwachung für alle zu konfigurieren. Einige der am häufigsten vergessenen Server sind:

  • Sekundäre DNS- und MX-Server. Diese „B“-Gruppe von Servern kommt normalerweise ins Spiel, wenn die primären Server wegen Wartungsarbeiten offline sind oder ausgefallen sind. Wenn ich sie nicht auch im Auge behalte, funktionieren sie möglicherweise nicht, wenn ich sie am meisten brauche. Achten Sie unbedingt auf Ihre Failover-Boxen.

  • Neue Server. Ah, der Duft frischer Pizzakartons von Dell! Nach all den lustigen Sachen (Betriebssysteminstallation, Konfiguration, Einbrennen, Härten, Testen usw.) sind die beiden am häufigsten vergessenen „Must-haves“ auf einem neuen Server das Corporate Asset Tag (benutzt das noch jemand?) und das Einrichten der Serverüberwachung. Fügen Sie es Ihrer Checkliste hinzu.

  • Cloud-Server. Diese schnellen VPS- und AWS-Instanzen sind einfach einzurichten und die Überwachung wird leicht vergessen.

  • Temporäre/permanente Server. Sie wissen, welche ich meine. Die „Proof of Concept“-Entwicklungsbox, die aus ausgemusterter Hardware zusammengewürfelt wurde und plötzlich als „Produktionsserver“ bezeichnet wird. Auch sie muss überwacht werden.

2. Nicht alle Dienste auf einem Host überprüfen

Wir wissen, dass die meisten Ausfälle die ganze Box zum Absturz bringen, aber wenn ich nicht jeden Dienst auf einem Host beobachte, kann es sein, dass meine Website läuft, während FTP abgestürzt ist. Am häufigsten vergesse ich, sowohl HTTP als auch HTTPS zu überprüfen. Sicher, es ist derselbe „Dienst“, aber die Apache-Konfiguration ist separat, die Firewall-Regeln sind wahrscheinlich separat. Vergessen Sie auch nicht die SSL-Prüfungen, getrennt von den HTTPS-Prüfungen, um sicherzustellen, dass Sie gültige SSL-Zertifikate haben. Ich habe die peinlichen Anrufe bekommen, dass die Site „down“ sei, nur um dann herauszufinden, dass das Zertifikat abgelaufen war. Ach ja … das sollte ich doch erneuern, oder?

3. Nicht oft genug kontrollieren

Benutzer und Chefs haben sehr wenig Toleranz für Ausfallzeiten. Das habe ich gelernt, als ich versuchte, einen billigen Überwachungsdienst zu verwenden, der nur Prüfintervalle von 10 Minuten bot. Das bedeutet ein Risiko von bis zu 9,96 Minuten (ziemlich gute Mathematik, oder?), dass mein Server ausfällt, bevor ich benachrichtigt werde. Konfigurieren Sie Prüfintervalle von 1 Minute für alle Dienste. Selbst wenn ich nicht sofort darauf reagieren muss (eine Entwicklungsbox, die mitten in der Nacht ausfällt), weiß ich auf 60 Sekunden genau, „wann“ es ausgefallen ist. Das kann eine hilfreiche Information sein, wenn ich mich später durch die Protokolle quäle, um die Grundursache zu analysieren.

4. Keine Überprüfung des HTTP-Inhalts

Die Standard-HTTP-Prüfung ist gut, aber die „Standard“-Seite des Apache-Servers „im Aufbau“ hat mir genau wie meine echte Site den glücklichen 200-Antwortcode und ein grünes „PASS“ in meinem Überwachungsdienst beschert. Wählen Sie etwas in der Fußzeile der Seite aus, das sich nicht ändert, und führen Sie eine HTTP-Inhaltsübereinstimmungsprüfung dafür durch. Verwenden Sie jedoch nicht den Domänennamen – dieser könnte auch auf der „Standard“-Seite angezeigt werden und die Prüfung weniger nützlich machen.

Es ist auch wichtig, sicherzustellen, dass bestimmte Inhalte NICHT auf einer Seite angezeigt werden. Wir alle haben schon einmal eine CMS-Site besucht, auf der der nette Fehler „Verbindung zur Datenbank nicht möglich“ angezeigt wurde. Sie möchten wissen, ob das passiert.

5. Falsche Einstellung des richtigen Timeouts

Timeouts für einen Dienst sind sehr subjektiv und sollten in Ihrem Überwachungsdienst konfigurierbar sein. Web-Leute sagen mir, dass unsere öffentliche Website in weniger als 2 Sekunden geladen werden sollte, sonst gehen unsere Besucher woanders hin. Wenn meine HTTP-Dienstprüfung 3,5 Sekunden dauert, sollte dies als FAIL-Ergebnis betrachtet und jemand benachrichtigt werden. Wenn ich in meinem Sendmail eine 4-sekündige „Helo“-Verzögerung konfiguriert hätte, würde ich dieses Timeout ebenfalls auf über 5 Sekunden erhöhen wollen. Zu hohe Timeouts sorgen dafür, dass meine Leistungsprobleme unbemerkt bleiben; zu niedrige Timeouts erhöhen nur meine Benachrichtigungshäufigkeit. Es braucht Zeit, diese auf Dienstebene zu optimieren.

6. Das Vergessen von DNS geht in beide Richtungen

Natürlich habe ich DNS-Prüfungen, um sicherzustellen, dass meine Hostnamen in meine IPs aufgelöst werden, aber ich vergesse allzu oft, auch die Reverse-DNS-Einträge (rDNS) zu überprüfen. Es ist besonders wichtig, dass SMTP-Dienste PTR-Einträge richtig auflösen, sonst landen meine E-Mails im Spam-Ordner. Dabei überwache ich immer SPF- und DKIM-Einträge. Ihr Überwachungsdienst kann das doch, oder?

Selbst wenn ich einen seriösen externen DNS-Dienst verwende, richte ich DNS-Prüfungen ein, um alle NS-Einträge meiner Domänen zu überwachen. Eine Fehlkonfiguration meinerseits oder ihrerseits kann allerlei Chaos verursachen.

7. Empfindlichkeit zu niedrig/hoch

Einige Server oder Dienste scheinen anfälliger für kleine Aussetzer zu sein, die den Server nicht zum Absturz bringen, aber zeitweise dazu führen können, dass Prüfungen aufgrund von Datenverkehr oder Routing oder vielleicht der Mondphase fehlschlagen. Nichts ist ärgerlicher als eine SMS um 3 Uhr morgens, in der ein Host, der in Wirklichkeit nicht ausgefallen ist, „down“ ist. Manche Leute nennen das eine falsche Meldung oder ein Flattern – ich nenne es eine Plage. Natürlich sollte ich nicht jedes Mal ausrasten, wenn ein einziger Ping seinen Weg durch das Internet verliert und jedes SMTP-„Hallo“ unbeantwortet bleibt, denn dann holt mich die Realität ein und es kann zu einer gefährlicheren Situation kommen. Ich könnte versucht sein, Benachrichtigungen zu ignorieren, weil es so viel Lärm um die Warnungen gibt, die mich wirklich nicht interessieren.

Ein guter Überwachungsdienst handhabt dies gut, indem er mir erlaubt, die Sensibilität jeder Prüfung anzupassen. Wenn Sie diese zu niedrig einstellen, dauert es zu lange, bis meine Benachrichtigungen über legitime Ausfallereignisse bei mir ankommen, aber wenn Sie sie zu hoch einstellen, werde ich mit nutzlosen Fehlalarmen überschwemmt. Auch dies ist etwas, das pro Dienst konfiguriert werden sollte und dessen Feinabstimmung einige Zeit in Anspruch nehmen wird.

8. Die falsche Person benachrichtigen

Nichts ruiniert einen Urlaub mehr als eine „Host down“-Benachrichtigung. Natürlich habe ich Backup-Systemadministratoren, die mich vertreten sollten, aber ich vergesse, die PagerDuty Zeitpläne zu ändern, damit die Benachrichtigungen an sie und nicht an mich gesendet werden.

9. Falsche Auswahl des richtigen Benachrichtigungstyps

Kurz nach Punkt 8 muss man wissen, welche Art von Benachrichtigung gesendet werden soll. Ja, ich habe den Fehler gemacht, es so zu konfigurieren, dass E-Mail-Benachrichtigungen gesendet werden, wenn der E-Mail-Server ausfällt. Kritische Serverbenachrichtigungen sollten fast immer per SMS, Sprache oder permanentem mobilen Push gesendet werden.

10. Die E-Mail-Adresse des Benachrichtigungssystems nicht auf die Whitelist setzen

Kurz nach Nr. 9 (von denen es hier viele gibt) kommt die Erkenntnis, dass die E-Mail-Adresse des Überwachungsdienstes im Spam-Ordner landen kann, wenn ich sie nicht auf die Whitelist setze.

Bonus!

11. Zu viel bezahlen

Ich habe schon Hunderte von Dollar im Monat für einen mittelmäßigen Überwachungsdienst für ein paar Dutzend Server bezahlt. Das ist einfach nur dumm. NodePing kostet 15 Dollar im Monat für 200 Server/Dienste im 1-Minuten-Takt und es ist nicht der einzige kostengünstige Überwachungsdienst auf dem Markt. Vergleichen Sie die Preise, um einen Dienst zu finden, der Ihren Anforderungen entspricht. Kombinieren Sie ihn mit den Bereitschafts-/Übergabefunktionen von PagerDuty und Sie sind auf dem besten Weg, die Narben zu vermeiden, die ich habe, ohne Ihr letztes Hemd zu verlieren.

Genug gesagt, wahrer Gläubiger.