Sporadischer Ausfall des Management Netzwerks

shonline · Beitragvon **shonline** » 13.12.2010, 09:41

Hallo,

ich habe das Problem, dass sporadisch einfach das Management Netzwerk nicht mehr funktioniert. Es scheint, als würde der ESXi Server die NIC blockieren oder deaktivieren. Ein einfacher PING von der ESXi Server Konsole aus an den Gateway genügt um wieder online zu kommen. (1.er Ping faild 2er und 3er sucess) ab dann ist schon alles wieder ok und das Management Netzwerk läuft wieder eine gewisse Zeit (manchmal ein paar minuten manchmal ein paar Stunden). Umgekehrt ist ein PING an den Server nicht möglich NIC antwortet nicht (offline) Dieses Phänomen trat plötzlich auf nach ca. 3 Monaten stabilem Betrieb. Alle anderen konfigurierten Netzwerke laufen ohne Problenme.

Ich habe bis heute folgende sachen Versucht: :idea:

- ESXi Reset to Factroy Default (dann neu konfiguriert.)
- VSphere Server neu installiert
- Systemprotokolle exportiert und in den unzähligen Files nach hinweisen gesucht.
- Tagelang in Foren nach ähnlichen Problemen gesucht.

Inventar:
Ich habe 2 Dell PowerEdge R710 Server und VMWare VSphere 4 Advanced.

Konfiguration Netzwerk:
1x internet Firmennetz mit 2 NIC gruppierung (beide aktiv)
1x Management Netzwerk mit 2 NIC ebenfalls Gruppiert und (beide aktiv)
1x Storage Netz für iSCSI auf Dell Equallogic mit 2 NIC gruppiert (beide aktiv)
1x DMZ Netzwerk mit 1 Netzwerkkarte

Vielleicht kann mir jemand einen TIP geben in welchen logfiles ich suchen muss um dem Problem häher zu kommen oder vielleicht möchte jemand das Log sehen und kann mir helfen.

Ich bin für jegliche Ratschläge/Hilfe dankbar:

Gruss Frank

Tschoergez · Beitragvon **Tschoergez** » 13.12.2010, 19:27

Hi!
wie sind denn die vSwitch und Portgruppen-Einstellungen für NIC-teaming?
verwendet Ihr VLANs?

Hört sich ein bisschen nach ARP-Problemen, Load-balancing-Problemen usw. an.

Welche phys. Switche verwendet Ihr?
wie sind die konfiguriert (trunks, nic-teaming, .....)?
gibts da logs?

Sonstige Troubleshooting-Möglichkeit:
VM mit Wireshark an den Management vSwitch hängen und die Pakete mitsniffen...

#viele grüße,
jörg

shonline · Beitragvon **shonline** » 14.12.2010, 10:43

Hallo Tschoergez,

wie sind denn die vSwitch und Portgruppen-Einstellungen für NIC-teaming?
verwendet Ihr VLANs?

vSwitch:
Lastenausgleich=Anhand ID des Ports routen
Failover-Ermittlung: Nur Verbindungsstaus
Switch benachritigen: Ja
Failback: Ja
Beide Adapter aktiv

Portgruppe:
Einstellungen alle inaktiv (analog vSwitch)

Hört sich ein bisschen nach ARP-Problemen, Load-balancing-Problemen usw. an.

Werde wohl den Verkehr analysieren müssen mit Wireshark oder so... Kannst Du mir ev. stichworte nennen welche ich mit Wireshark gezielt suchen kann.. Ich bin nicht der Experte mit Paketanalysen aber habe es schon einmals machen müssen, da hatte ich aber grosse hilfe von einer Expertin.

Welche phys. Switche verwendet Ihr?

3 x Cisco 3750 48P zu 1 grossen Stack konfiguriert worauf div VLAN laufen (alle Clients sind dort verbunden und das Routing läuft auf diesem Stack.
Von Switch Nr. 2 und Nr. 3 geht je 1 VLAN Trunk (2x 1Gbit) auf 2 weitere Switches der marke Cisco Typ SGE2000 als uplink. Diese sind ebenfalls "gestackt" wenn man das so nennen kann (betrifft ja nur Konfiguration und Verwaltung jedoch nicht den Datenverkehr zwischen den 2 Switches).

D.h Uplink pro SGE2000 Switch mit je (2 Kabel) Konfiguration auf SGE2000 über WebGui erstellt mit LAG konfiguration (STP und PortFast enabled)
VLAN ID 150 den zu verwendenden Ports zugewiesen (je Switch 2 Ports)

von ESXi Server ein Kabel zu SGE2000 (1) und 1 Kabel auf SGE2000 (2) zwecks Ausfallsicherheit.

Diese Konfiguration lief einige Monate ohne Probleme. Ich habe die Vermutung, das die SGE2000 nicht 100%ig stabil laufen, denn eines tages meldete mir mein Netzwerküberwachungs Tool das kein PING zu den SGE Switch möglich ist was dann aber nach ca. 20-30min. wieder von ganz alleine verschwand. (restliches Netz auf den SGE2000er liefen während dessen ohne Probleme weiter) Seit ungefähr diesem Zeitpunkt wenn ich mich nicht irre fingen die Ausfälle des Management Netzes (VLAN150) an. zeitweise lief es stunden, tage oder minuten lang ohne probleme dann wieder diese aussetzer.

Die auffälligsten Positionen in den Logs der SGE2000 sehen wie folgt aus:
Warning %STP-W-PORTSTATUS: 2/g1: STP status Forwarding
Warning %STP-W-PORTSTATUS: 1/g1: STP status Forwarding

(Ich habe nachgelesen und wurde mit info versorgt kann ignoriert werden) ob das Stimmt?

VLAN ID 150 ist auf 1/g1 + 1/g13 sowie 2/g1 + 2/g13

Ich habe nun testhalber einen kleinen 8Port SRW208 Switch für den Management Verkehr konfiguriert und alles dort angeschlossen.... seit da keine Ausfälle mehr. Wenn das noch ein paar tage so bleibt bin ich mir sicher, dass es am SGE2000 ein Problem liegt. Ich werde dan nun ein wenig beobachten und mich nochmals melden.

Besten Dank für deine Zeit und die guten Fragen welche mich zum austausch des Switch bewegt haben.

Danke
Gruss Frank

Tschoergez · Beitragvon **Tschoergez** » 14.12.2010, 12:10

Du brauchst für die ports an den phy. Switchen, die zu einem ESX gehen, kein Spanning Tree. (PortFast ist trotzdem gut)
vllt. hilft ja das abschalten am phy.switch.

Die ESX-config passt, das bestätigt ja auch der Test mit dem anderen Switch.

Ich vermute den Fehler deshalb auch im phys. Netz, hab allerdings nicht genügend Erfahrung mit Cisco, so dass ich heir nicht weiterhelfen kann

Viele Grüße,
jörg

Martin · Beitragvon **Martin** » 14.12.2010, 15:31

shonline hat geschrieben:vSwitch:
Lastenausgleich=Anhand ID des Ports routen
Failover-Ermittlung: Nur Verbindungsstaus
Switch benachritigen: Ja
Failback: Ja
Beide Adapter aktiv

http://kb.vmware.com/kb/1022751
bzw.
http://kb.vmware.com/kb/1004048
"From the Load Balancing dropdown, choose Route based on ip hash."

shonline · Beitragvon **shonline** » 17.12.2010, 09:26

Hallo Martin,

besten dank für den Hinweis, nach 3 Tagen ohne Ausfall war ich schon fast der Meinung, deaktivieren von STP hätte einen Erfolg. Nun heute wieder Ausfälle "4 h kein Ping dann für 2min. wieder ok dann 4 h kein Ping usw... ) Ich habe nun noch deinen Input zu herzen genommen:

http://kb.vmware.com/kb/1022751
bzw.
http://kb.vmware.com/kb/1004048
"From the Load Balancing dropdown, choose Route based on ip hash."

Schon kurze Zeit nach der Umstellung, immer noch Ausfälle. Dieser Tip hilft meinem Problem nicht wirklich. Nun die etwas redikale Ausschlussvervahrens Vorgehensweise:
vSwitch --> nur noch eine NIC für Management aktiv. Kabel der 2ten NIC rausgezogen (sicher ist sicher)....

kurz darauf ausfall erneut... :cry:

immernoch die gleichen Vorkommnisse. Also an den Einstellungen liegts mit grösster Wahrscheinlichkeit nicht, denn alle anderen vSwitch die ebenfalls 2 NIC haben laufen ohne Unterbrüche! Das muss mit den Ports des pSwitch zusammenhängen.

Nochmals Danke
Werde nochnals testhalber einen reserve Switch nutzen für das Management Netz und es dann ein paar tage laufen lassen.

Gruss Frank

shonline · Beitragvon **shonline** » 17.12.2010, 13:55

noch ein kurzer Nachtrag zur Analyse, es deutet alles darauf hin, das die NIC im ESXi den Traffic blockiert. Darauf hin habe ich nochmals die Logfiles des ESXi Servers durchforstet und fand folgende stelle:

Dec 17 10:23:37 Hostd: [2010-12-17 10:23:37.940 5C5E3B90 error 'App'] Failed to read header on stream TCP(local=127.0.0.1:53999, peer=127.0.0.1:0): N7Vmacore15SystemExceptionE(Connection reset by peer)

dazu fand ich eine identische Beschreibung meines Problems:
http://communities.vmware.com/message/1594033

leider steht noch keine Lösung zum Problem Fest.
"auto negotiation" ist deaktiviert und alles fixiert.

Einziger Unterschied ist, dass ich eine neuere Version von ESXi verwende:
4.1.0, 320137

Ich suche weiter.....

deathrow · Beitragvon **deathrow** » 17.12.2010, 16:43

Evtl. mal eine andere NIC stecken zum probieren?

shonline · Beitragvon **shonline** » 20.12.2010, 08:53

Hallo deathrow,

das System hat 2 NIC mit je 4 Ports 1x BCM5709 Gigabit Ethernet und 1x Intel 82576 Gigabit Ethernet. Das Problem entsteht bei beiden (testweise nur 1 Link aktiviert um das auszuschliessen.)

Evtl. mal eine andere NIC stecken zum probieren?

Danke jedoch für den Vorschlag.

Gruss Frank

ideFix · Beitragvon **ideFix** » 20.12.2010, 09:32

shonline hat geschrieben:Hallo deathrow,

das System hat 2 NIC mit je 4 Ports 1x BCM5709 Gigabit Ethernet und 1x Intel 82576 Gigabit Ethernet. Das Problem entsteht bei beiden (testweise nur 1 Link aktiviert um das auszuschliessen.)

Evtl. mal eine andere NIC stecken zum probieren?

Danke jedoch für den Vorschlag.

Gruss Frank

Hallo,

Bei der BCM muss ggf. Treiber nachinstalliert werden (s. HCL: http://www.vmware.com/resources/compati ... d=&rorre=0 )

Die Intel NIC kenne ich und habe ich auch schon selbst verbaut. Die BCM finde ich nicht :-(

Da du 2 unterschiedliche NICs einsetzt, die auch noch von unterschiedlichen Herstellern sind und auch unterschiedliche Treiber beim ESX/i nutzen (intel=igb , bcm=bnx2) - tippe ich auch auf einen Fehler im LAN außerhalb des ESX/i.

shonline · Beitragvon **shonline** » 20.12.2010, 15:58

Hallo ideFix,

besten dank für deinen Beitrag. Eigentlich war ich der Meinung, das es am ESXi Server liegen muss, denn ein tausch des Switches hat keine änderung gebrach... jedoch habe ich eines übersehen. den prov. Switch habe ich gespiesen mit einem Uplink auf den "problematischen Switch". Nun habe ich den prov. Switch direkt auf den Cisco Stack gesteckt und übergehe den SGE2000 komplett. Und siehe da.. es were Licht... seit dieser konstellation keine Unterbrüche mehr (hoffen hoffen) vorher ist es ja auch 2-3 Monate ohne Fehler geloffen auf den SGE2000 Switches. Ich warte mal ab....

Vielleicht mal eine Grundlegende Vernetzungsfrage:
Gemäss VMWare Link: http://kb.vmware.com/selfservice/microsites/search.do?cmd=displayKC&docType=kc&externalId=1001938&sliceId=1&docTypeID=DT_KB_1_1&dialogID=14912551&stateId=1%200%2014916516

# ESX host only supports NIC teaming on a single physical switch or stacked switches.

Meine SGE2000 sind zwar "Stacked" aber ich vermute das ist nur auf die Konfig bezogen nicht aber ein eigentliches Stacking. Vielleicht kommen meine Probleme von dort?! Scheint mir komisch, da ich ja zur Zeit nur noch 1 Kabel für das Management Netz verwende. (1von2 vmnic auf VSwitch im ESXi deaktiviert)

Ich hab mal ein kleines Schema gemacht von meinem Aufbau siehe Bild

Ist da Grundlegend vielleicht ein Fehler unterlaufen im Aufbau des Netzwerks?

Gruss Frank

VMware-Forum

Sporadischer Ausfall des Management Netzwerks

Sporadischer Ausfall des Management Netzwerks

Wer ist online?