Hallo Piv0.
Was soll denn eigentlich alles überwacht werden?
Natürlich ist ein ausgewachsener Nagios eine recht haarige Angelegenheit. Das liegt schon daran, dass man alles was man konfigurieren kann auch konfigurieren muss um überhaupt eine Meldung zu bekommen. Man muss sich da also schon einarbeiten.
Als Overkill würde ich den allerdings nicht bezeichnen. Jedenfalls dann nicht wenn ich anfange, damit nicht nur meine ESX-Gesundheit zu überwachen sondern das Monitoring auf die gesamte greifbare Landschaft auszuweiten.
Das fängt bei den simplen Pingantworten der VMs an und geht bis zur Integritätsprüfung der in der VM installierten Datenbank oder des Dateisystems.
Wenn man sich mal anständig in die Nagios-Materie eingefuchst hat, kann man so ziemlich alles ins Monitoring aufnehmen was sich durch Software messen lässt.
Wenn es sein muss und die Hardware das her gibt geht das bis zur Luftfeuchtigkeit im Schrank. Bei mir zählt zum Beispiel der Plattenplatz auf dem primären Backupspeicher (eine zweite Hardware im gleichen Netzwerk) zu den überwachten Messgrößen. Auch den Zustand der USV kann man ins Monitoring aufnehmen wenn man das möchte oder die Netzwerkverbindung zur außenwelt (Ping einer externen IP zum Beispiel). Sollten Site-to-Site-VPNs zwischen zwei Standorten realisiert sein wäre es wohl sinnvoll, auf beiden Seiten ein Monitoringtool zu platzieren damt sich jede Seite selbst zu überwachen und die beiden Monitoringtools sich jeweils gegenseitig.
Welches hier realistische Leistungswerte sind, also solche deren Überwachung und Alarmierung im Fehlerfall auch Nutzen bringt, muss man natürlich im Einzelfall entscheiden. Insbesondere wenn es darum geht, ein eine Art Standardpacket für Monitoringaufgaben zu implementieren würde ich dringend raten, auf ein Produkt zu setzen das sich leicht auf beliebige Messwerte erweitern lässt. Im Zweifelsfall weicht jede Kundeninstallation um 50% vom Standardtemplate ab und muss zu 25% sogar Messwerte enthalten die man bisher noch überhaupt nicht überwacht hat.
Ein weiterer Aspekt wären unterschiedliche Benachrichtigungskanäle bei Netzwerkausfall. Das verwendete Monitoringtool sollte sich im Bedarfsfall entsprechend konfigurieren lassen. Noch mag aktuell der Anspruch noch nicht bestehen. Wenn sich aber mal eine Reihe von Leuten intensiv in ein Monitoringtool eingearbeitet haben ist es mehr als nervig, wenn eine solche Anforderung als K.O.-Kriterium das etablierte Produkt in die Tolle tritt und man sich für einen einzelnen Kunden ganz neu orientieren muss.
Die Liste der Möglichkeiten wird immer länger und jeder hier kann sicher eine neue Option beisteuern. Deshalb breche ich hier mal ab

.
Ich persönlich setze Centreon für Nagios auf Ubuntu ein, mit dem von dir schon genannten check_esxi_hardware.py. Damit bin ich bis jetzt recht glücklich.
Grüße,
Stephan.