Seite 1 von 1
ESXi Network CRITICAL
Verfasst: 24.12.2012, 11:00
von ohhmille
Hallo Leute
Wir haben mehrere vSphere 4.1 Server. 4 ESX-Server sind in einem HA-Verbund. Ein weiterer ESXi - Server läuft derzeit noch stand-alone. Genau dieser Server macht ein paar Mucken.
In unserer NAGIOS-Überwachung erscheint der ESXi-Server mit folgender Meldung:
"VMWare Network is CRITICAL"
Der HOST scheint das Default Gateway nicht erreichen zu können. Gibt es seitens VMHost eine Überwachung des Default Gateway? Und wenn JA; Wo kann man ggfs. Zeiten/Schwellwerte einstellen?
Vielen Dank und beste Weihnachtsgrüße
Mille
Verfasst: 24.12.2012, 11:37
von irix
Das HA Modul verwendet die GW Adresse als Isolationpruefung und somit ist das etwas dumm wenn er es nicht anpingen kann. In vielen faellen kann es Sinn machen die Isolationsadresse zu aendern bzw. mehrere zuhaben, was aber in deinen Fall dann global geaendert werden sollte und somit nicht einfach mal "empfohlen" werden kann.
Kann er denn das GW anpingen und was sagen die vCenter Alarme zum Thema?
Gruss
Joerg
Verfasst: 24.12.2012, 11:41
von pdcemulator
Was sind denn sinnvolle alternative Isolationsadressen?
Andere Geräte (am gleichen Switch)? Andere an anderen Switches? FInde in der Literatur vom Vmware leider wenig darüber...
Besser mehrere oder nur 1-2?
Verfasst: 24.12.2012, 11:47
von ohhmille
Ping und alles funktioniert einwandfrei.
In der HA-Umgebung haben wir auch keine Probleme, sondern lediglich der eine HOST der NICHT im HA ist.
Unter TASKS & Events für den Host steht auch nix weiter. Das ist ja das seltsame...
Verfasst: 24.12.2012, 11:49
von irix
pdcemulator hat geschrieben:Was sind denn sinnvolle alternative Isolationsadressen?
Andere Geräte (am gleichen Switch)? Andere an anderen Switches? FInde in der Literatur vom Vmware leider wenig darüber...
Gerade fuer die welche IP basierte SANs haben ist es sinnvoll darueber nachzudenken die die pSwitche als Isolationsadresse herzunehmen.
Ich habe schon Umgebungen gesehen das war ist das GW eine Fritzbox gewesen welche man dann nicht so auf dem "Plan" hatte.
Jeder sollte halt mal auf seinen Netzplan gucken sich ueberlegen was bei den definierten Ausfallszenarien so passieren darf und wie das System reagiert.
Besser mehrere oder nur 1-2?
Gruende fuer mehr als 2 fallen mir erstmal keine ein. Einfach mal Duncan seinen HA Deepdive angucken bzw. sein (E-)Book lesen.
Gruss
Joerg
Verfasst: 24.12.2012, 11:50
von irix
ohhmille hat geschrieben:Ping und alles funktioniert einwandfrei.
In der HA-Umgebung haben wir auch keine Probleme, sondern lediglich der eine HOST der NICHT im HA ist.
Unter TASKS & Events für den Host steht auch nix weiter. Das ist ja das seltsame...
Was sind das denn fuer Probleme mal vom NAGIOS Check abgesehen?
Gruss
Joerg
Verfasst: 24.12.2012, 11:51
von pdcemulator
irix hat geschrieben:Gruende fuer mehr als 2 fallen mir erstmal keine ein. Einfach mal Duncan seinen HA Deepdive angucken bzw. sein (E-)Book lesen.
Hab ich hier sogar irgendwo liegen, schau ich mir die Tage mal an.
Verfasst: 24.12.2012, 11:53
von ohhmille
Wir bekommen schlicht und ergreifend die Fehlermeldung. Leider wissen wir nicht wieso, und würden das gerne wissen bevor wir den HOST mit in den HA-Verbund fahren.
Wir wollen schliesslich keine Maschine im Verbund, die womöglich falsch konfiguriert ist und/oder irgendwo Probleme macht
Verfasst: 24.12.2012, 12:00
von irix
Was prueft denn der Nagios und auf welche Weise?
Gruss
Joerg
Verfasst: 24.12.2012, 14:06
von pirx
Nagios Checks kann man ja auch in einer Shell ausführen, ggf. mit einer Debug Option. Da sieht man vll mehr was das Skript macht und wo der Fehler liegt. Neben den Eventlogs des ESXi Hosts würde ich auch direkt die Logs auf dem Server zu dem Zeitpunkt prüfen, als Nagios das Problem gemeldet hat (Zeitformat im Log beachten, häufig steht es auf UTC).
Verfasst: 24.12.2012, 14:15
von PeterDA
Hi,
ich würde so ganz profan noch mal im Host di eGateway Adresse checken. Bekannter hat das letztens auch, dort war es ein blöder Zahlendreher in der IP der Gateway Adresse.
Gruß Peter
Verfasst: 24.12.2012, 16:31
von pirx
Sind der ESX Host und der Nagios Rechner im gleichen Subnetz? Bzw. kann von anderen Subnetzen aus auf den Host zugegriffen werden? Wenn ja, dann scheidet aus meiner Sicht ein Fehler beim Gateway aus, weil sonst keine Kommunikation zwischen den Subnetzen möglich wäre. Potentielle statischen Routing Einträge für Netz/Hosts ignoriere ich hier mal.
Verfasst: 24.12.2012, 21:03
von bla!zilla
irix hat geschrieben:Besser mehrere oder nur 1-2?
Gruende fuer mehr als 2 fallen mir erstmal keine ein. Einfach mal Duncjan seinen HA Deepdive angucken bzw. sein (E-)Book lesen.
Ich verwenden immer das.isolationaddress. Meist sind dort die interfaces der redudanten Coreswitches eingetragen. Die Adresse sollte ohne Routing erreichbar sein, also im gleichen Subnetz wie das vmk0 liegen. Brauchbar sind auch VRRP oder HSRP Adressen. Aber immer besser zwei verwenden.
Infos unter KB1006421.
Verfasst: 25.12.2012, 22:27
von PeterDA
Kleine Anmerkung:
Wenn man die Variable das.isolationadress0 bis 9 nutzt, dann sollte man auch das.usedefaultisolationadress auf False eintragen. Sonst bringt es nichts.?
http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1006421
Gruß Peter
Verfasst: 25.12.2012, 22:32
von irix
PeterDA hat geschrieben:Kleine Anmerkung:
Wenn man die Variable das.isolationadress0 bis 9 nutzt, dann sollte man auch das.usedefaultisolationadress auf False eintragen. Sonst bringt es nichts.?
Korrekt, sofern man moechte das er sein Default nicht mehr verwendet.
Gruss
Joerg
Verfasst: 26.12.2012, 11:02
von bla!zilla
PeterDA hat geschrieben:Kleine Anmerkung:
Wenn man die Variable das.isolationadress0 bis 9 nutzt, dann sollte man auch das.usedefaultisolationadress auf False eintragen. Sonst bringt es nichts.?
Korrekt, so steht es ja auch im KB.
