kuriose Netzwerkausfälle von beiden ESX-Hosts gleichzeitig

Login · Beitragvon **Login** » 26.08.2010, 16:54

Hallo zusammen,

seit einiger Zeit tauchen sehr seltsame Pingaussetzer von beiden ESXi Hosts und ihren VMs auf! Der physikalische Temrinalserver, der im gleichen pSwitch hängt, ist von den Ausfällen nicht betroffen!

Die beiden ESX-Hosts und all ihre VMs sind sporadisch (alle paar wochen) für etwa 10 Minuten nur alle paar Sekunden pingbar, manchmal für 10 Sekunden gar nicht.

Im VI-Client-Ereignis stehen alle 24h und ein paar Minuten Fehlermeldungen: Lost Connection to Storage.

Gemeint ist das iSCSI SAN.

Hm, das Storage hat seinen eigenen pSwtich, sodass ich davon ausgehe, dass einfach alle 4 pNICS (jeweils eine für iSCSI und eine für die VMs pro Host) der Hosts das gleiche Problem haben, da die Hosts dann ebenfalls nicht pingbar sind. Zu verschiedenen Zeiten, aber immer gemeinsam!

HILFE, was geht da ab!??

Leider gibts hier keine Lizenz für den Supportcall!! Stellt sich nur die Frage, warum ich ein System betreue, das nicht ordentlich lizensiert ist :roll:

Danke für eure Beiträge im Voraus!

LG
Conne

Login · Beitragvon **Login** » 26.08.2010, 17:10

event.vprob.vmfs.heartbeat.recovered.fullFormat (vprob.vmfs.heartbeat.recovered) Info 26.08.2010 03:50:51
event.vprob.vmfs.heartbeat.timedout.fullFormat (vprob.vmfs.heartbeat.timedout) Info 26.08.2010 03:52:22
event.vprob.storage.redundancy.degraded.fullFormat (vprob.storage.redundancy.degraded) Warnung 26.08.2010 03:52:30
event.vprob.vmfs.heartbeat.recovered.fullFormat (vprob.vmfs.heartbeat.recovered) Info 26.08.2010 03:52:30
event.vprob.storage.redundancy.degraded.fullFormat (vprob.storage.redundancy.degraded) Warnung 26.08.2010 03:52:30

Das lustige ist, dass der Ping-Ausfall der beiden ESX und ihren kompletten VMs von heute NAchmittag 15.50Uhr (tagsüber!! die Meldungen oben von Storage sind NACHTS) nicht gemeldet wird. Ich denke, die beiden pNICS pro Server fallen nicht gleichzeitig aus.

Beitragvon **Dayworker** » 26.08.2010, 20:00

Wenn beide ausfallen, bleibt ja nur das gemeinsame Verbindungsstück. Ich tippe auf den pSwitch.

Login · Beitragvon **Login** » 27.08.2010, 08:23

Hallo Daywalker,

kann nicht sein, da iSCSI-pSwitch und VM+ESX-pSwitch getrennte Netze sind. Und in der "Ausfallzeit" sind selbst die Servicekonsolen (also der komplette ESX) nicht pingbar. Auch der vSphereClient kann sich dann nciht verbinden! Pro Server sind 2 NICS auf dem Board, eine für iSCSI und eine für Servicekonsole+VMs - wie gesagt, getrennte physische Netze.

Beitragvon **Dayworker** » 27.08.2010, 10:53

event.vprob.storage.redundancy.degraded.fullFormat (vprob.storage.redundancy.degraded) Warnung 26.08.2010 03:52:30

Woher stammt diese Meldung?
Ist das die normale Mitteilung, wenn ein konfiguriertes Multi-Path wegbricht oder ein SAN ein Plattenproblem hat?
Merkwürdig sind nur die meist kurzen Ausfälle im Log, deutet vielleicht nur auf ein defektes Kabel hin.

Hast du deinen Aufbau mal schematisch zur Hand und kannst den verlinken?

Login · Beitragvon **Login** » 27.08.2010, 16:23

defekte Platten im SAN schließe ich aus!!

kann mir jemand erklären, wie ich ifile benutze???

http://ifile.it/9tnured/esx01.jpg
http://ifile.it/yxlepsi/_Topologie.jpg[/img]

echt_weg · Beitragvon **echt_weg** » 27.08.2010, 19:18

hast du mal testweise versucht nen weiteren rechner an den iscsi switch anzuschliessen und permanent die storage controller zu pingen?

zumindest vom esxi3.5 kenn ich das problem, dass der gesamte esx nicht mehr zuverlässig auf pings antwortet sobald er einen kompletten storage verlust hat und viele vms auf dem host laufen (bei einem fc-storage)

ich tipp erstmal auf das storage selbst

Login · Beitragvon **Login** » 29.08.2010, 16:50

hm, die Meldung besagt keine LostConnection sondern nur ein degrade der StorageRedundancy. Kann natürlich sein, das das Storage dem ESX manchmal ein LUN-Zugang verwehrt, und somit nur noch ein Pfad von zwei zugänglich sind und das gemeldet wird.

Mich irritiert nur der Pingausfall des ganzen Hosts und den VMs! Ich fürchte, das ist nochmal was ganz anderes. Zumindest fällt es mir schwer die MeldungStorageRedundancyDegrade und die Pingaussetzer zum ESX+VMs in zusammenhang zu bringen, zumal die Pingaussetzer in keinster Weise im VI-Ereignis auftauchen und die beiden Phänomene zu ganz unterschiedlichen Zeiten auftreten!

Heute nochmal die Kabel getauscht und den pSwitch gecheckt - alles OK.

Login · Beitragvon **Login** » 01.09.2010, 17:53

Heute war gegen 15.30Uhr wieder ein Ausfall der beiden ESX-Hosts und all ihren Nics. Im Zeitfenster von 10min nur sporadisch anpingbar: ServiceConsole + VMs.

Keine LostConnection o.Ä. im ESX-Ereignis! NICHTS!

Da es beide Hosts betrifft, nehme ich stark an, dass es das Storage ist, aber einen Reim kann ich mir absolut nicht drauf machen! Zumal das iSCSI-Netz KOMPLETT physikalisch vom Consolen/VM-Netz getrennt ist!

Heute Nacht läuft ein Pingtest von einem anderen Rechner auf einen der beiden iSCSI-Channels. Mal sehen :evil:

LG
Conne

Beitragvon **irix** » 01.09.2010, 19:48

Also ein VM Network sowie die SC laesst man auch nicht ueber die gleiche pNIC laufen. Bau mal eine weitere pNIC ein und lege dein VM Network dort hin so das die SC eine pNIC fuer sich alleine hat.

Gruss
Joerg

Login · Beitragvon **Login** » 02.09.2010, 08:29

Hai Jörg,

gestern ging die Bestellung raus. Für jeden ESX eine Dual-Port-NIC und einen weiteren pSwitch für die 2.iSCSI-Leitung.

Kann es sein, dass der GB-pNIC-Port (oder sogar beide) des ESX einfach schlapp machen / überlastet sind und es deswegen zu solch komsichen Phänomenen kommt?

Kann mir jemand sagen, was für ein Traffic genau über die SC läuft? Ich hätte der SC/VMNetwork-Kombo eine weitere pNIC zugeordnet, hätte aber keine extra pNIC für die SC erstellt...?!?
Aber vielleicht habe ich einen Knoten in meinem denken?

Supi · Beitragvon **Supi** » 02.09.2010, 08:57

Mal so als Querleser, lese ich das richtig, pro Host gabs bisher 2 PNics, die auf Lan und ISCSI aufgeteilt waren? Also bei beiden Netzen keine Redundanz am Host?

Login · Beitragvon **Login** » 03.09.2010, 16:37

@Supi: Jepp, das liest du richtig :roll:

Aber die beiden Erweiterungskarten sind bereits geordert!

Es würde mich aber trozdem schwer schocken, wenn das der Grund der Ausfälle wäre!

alung · Beitragvon **alung** » 20.09.2010, 18:40

Hallo Zusammen,

was ist denn daraus jetzt geworden?
Habe hier ein ähnliches bzw. selbes Problem.

Viele Grüße
al

VMware-Forum

kuriose Netzwerkausfälle von beiden ESX-Hosts gleichzeitig

kuriose Netzwerkausfälle von beiden ESX-Hosts gleichzeitig

Wer ist online?