Probleme mit vSphere 5.1 und NFS: All Paths Down

BNO2006 · Beitragvon **BNO2006** » 28.05.2013, 12:41

Hallo zusammen,

bin neu hier im Forum aber beschäftige mich jetzt seit 1,5 Jahren intensiv mit VMWare vSphere 5 und jetzt 5.1.

Ich habe aktuell vSphere 5.1 Umgebungen im Einsatz, einmal eine Produktivumgebung und einmal eine Labor-Umgebung zum testen von Updates etc.

Seit Tag 1 der Produktiv-Umgebung bestehend aus 2 ESXi 5.1 (Essentials Plus) und einem Storage Server mit OpenFiler besteht das Problem, dass ein oder zwei mal am Tag für ein paar Sekunden die NFS shares verschwinden, also in den All Paths Down State versetzt werden. Ich bin soweit, dass dies kein Netzwerk Problem ist, da ich während dessen ohne Probleme auf die Shares komme und auch auf dem OpenFiler System wird kein Fehler angezeigt. Hier ein Beispiel:

Code: Alles auswählen

2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 248: APD Timer started for ident [987c2dd0-02658e1e]
2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 395: Device or filesystem with identifier [987c2dd0-02658e1e] has entered the All Paths Down state.
2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 846: APD Start for ident [987c2dd0-02658e1e]!
2013-05-28T08:07:37.485Z cpu0:2052)NFSLock: 610: Stop accessing fd 0x410007e4cf28  3
2013-05-28T08:07:37.485Z cpu0:2052)NFSLock: 610: Stop accessing fd 0x410007e4d0e8  3
2013-05-28T08:07:41.280Z cpu1:2049)StorageApdHandler: 277: APD Timer killed for ident [987c2dd0-02658e1e]
2013-05-28T08:07:41.280Z cpu1:2049)StorageApdHandler: 402: Device or filesystem with identifier [987c2dd0-02658e1e] has exited the All Paths Down state.
2013-05-28T08:07:41.281Z cpu1:2049)StorageApdHandler: 902: APD Exit for ident [987c2dd0-02658e1e]!
2013-05-28T08:07:52.300Z cpu1:3679)NFSLock: 570: Start accessing fd 0x410007e4d0e8 again
2013-05-28T08:07:52.300Z cpu1:3679)NFSLock: 570: Start accessing fd 0x410007e4cf28 again

So lange das ganze nur 1 - 2 mal am Tag vorkam war das nicht wirklich ein Problem, aber gerade bei laufenden Acronis Backup-Zyklen der VMs häuft sich das ganze und die VMs werden super langsam und träge.

Ich musste dann feststellen, dass ich das selbe Phänomen in meiner Labor-Umgebung habe, bestehend aus nur einem ESXi 5.1 und einem Ubuntu 12.04 LTS als Storage.

Um dem Problem Herr zu werden habe ich jetzt schon verschiedene Einstellungen getestet:

Net.TcpipHeapSize = 32
Net.TcpipHeapMax = 128
NFS.HartbeatFrequency = 12
NFS.HartbeatMaxFailures = 10
NFS.HartbeatTimeout = 5
NFS.MaxQueueDepth = 64

Statt NFS.MaxQueueDepth = 64 habe ich auch schon NFS.MaxQueueDepth = 32 oder sogar was in manchen Threads erwähnt wurde NFS.MaxQueueDepth = 1 ausprobiert. Leider alles ohne Erfolg.

Bin an der Thematik schon seit Monaten dran, aber bisher hab ich nichts praktikables gefunden noch konnte mir wer wirklich dabei helfen. Vielleicht hat ja einer von euch eine Idee.

Schon mal vielen Dank im Voraus.

[Update]
Hier noch einige Zusatzinformationen:

Die Produktionsumgebung hat folgenden Netwerk-Aufbau:
Der OpenFiler Host hängt mit 4 Intel GbE NICs an einem HP 1810 Switch mit dynamischem LACP. Die ESXis hängen beide mit mit je 4 Intel GbE NICs am gleich Switch, wobei diese in 2 static LACP Gruppen aufgeteilt sind. 2 hängen am normalen LAN und 2 hängen mit dem OpenFiler im VLAN mit der ID 20.

Hier ein paar Screenshots:

vSwitches:
Bild

vSwitch Konfiguration:
Bild

VMKernel-Port Konfiguration:
Bild

Beim Labor Setup läuft das ganze über je eine Intel GbE Karte und ohne VLAN, aber in verschiedenen IP Subnetzen.

PeterDA · Beitragvon **PeterDA** » 31.05.2013, 22:23

Hi,
Ich Tipp mal auf die Switch!

Warum hast du für die ESX denn ein LACP auf der Switch konfiguriert, das kann der ESXi ja nur mit distributed Swichs und die hast du scheinbar nicht. Außerdem ist die HP 1810 ziemlich schnell zum crashen zu bringen. Schau dir mal das Log an.

Gruß Peter

BNO2006 · Beitragvon **BNO2006** » 01.06.2013, 18:44

Hi,

danke für die Antwort.

PeterDA hat geschrieben:Hi,
Ich Tipp mal auf die Switch!

Hab ich mir auch schon überlegt, logs sind sauber und das erklärt auch nicht warum ich im lab Setup, das über einen D-Link Switch und ohne LACP läuft das selbe Problem habe.

PeterDA hat geschrieben:Warum hast du für die ESX denn ein LACP auf der Switch konfiguriert, das kann der ESXi ja nur mit distributed Swichs und die hast du scheinbar nicht.

Das ist so nicht richtig. ESXi kann kein dynamic LACP mit dem normalen vSwitch, aber er kann static LACP, siehe dazu hier:
http://kensvirtualreality.wordpress.com ... %93part-3/
Grundsätzlich ist das aber richtig, dass das Ganze mit einem NFS Server relativ wenig bringt. Das Ganze ist aus der Not geboren: das System sollte zuvor über das Advanced iSCSI Plugin von OpenFiler über iSCSI angebunden werden. Dieses hat aber so schlecht funktioniert, dass wir aus der Not auf NFS umgestellt haben, da keine Zeit mehr da war den Storage neu auf zu setzen.

PeterDA hat geschrieben:Außerdem ist die HP 1810 ziemlich schnell zum crashen zu bringen. Schau dir mal das Log an.

Da hab ich im Vorfeld im Netz anderes über die 1810er Serie gelesen, wurden sogar für ESX Einsatz empfohlen. Wie aber oben schon gesagt hatte ich keine besonderen Meldungen in den Switch Logs.
Ich kann ja auch während eines APD events den Storage auch noch pingen.

[UPDATE]
Hab gerade zum testen die static LACP trunks der ESXis aufgelöst.
Resultat: Das Problem besteht weiterhin.

VMware-Forum

Probleme mit vSphere 5.1 und NFS: All Paths Down

Probleme mit vSphere 5.1 und NFS: All Paths Down

Wer ist online?