Seite 1 von 1
Plötzlich extrem hohe Latenzen von einem Host aus
Verfasst: 03.08.2012, 12:10
von Login
Hallo zusammen,
bei einem Kunden ist heute zum zweitem Mal innerhalb eines Jahres folgendes Phänomen aufgrtreten:
Ein ESX Host (aus einem HA-Cluster mit drei Hosts) hat plötzlich mega hohe Latenzen beim Zugriff auf ein iSCSI Storage. Während die anderen beiden Hosts normale Latenzen auf die gleichen Datastores haben.
Der problematische Host hat durchschnittliche Latenzen von 0,xx ms. Die steigen während des Phänomens aber auf 7500 ms.
VMs auf dem Host laufen in Timeouts. Die Dienste stehen also in der Zeit.
Nach ca 1,5h ist der Spuk wieder vorbei und alles läuft normal.
Ein Rebuild o.A. vom Storage kann ausgeschlossen werden, die anderen Hosts sind in dieser Zeit nciht betroffen!
Der iSCSI Traffic geht über zwei dedizierte (nicht überbuchte!) pSwitche.
Hat jemand eine Idee?
Leider kann der Support nicht kontaktiert werden, da das Storage von IFT nur bis 4.x zertifiziert war, für die 5er stehts nciht mehr in der Liste. Angesprochen wird das Storage über Default_AA nciht ALUA. PSP ist RoundRobin.
Gruß,
Conne
Verfasst: 03.08.2012, 12:43
von deathrow
Sind die Hosts baugleich?
Bios, Firmware, FW für Nics?
Gleicher ESXi Stand?
Gleiche Kabel, Kabellänge?
Verfasst: 03.08.2012, 15:37
von Login
Die Hosts sind nicht Baugleich. EVC ist aber aktiv.
Für den iSCSI Verkehr werden aber überall gleiche Netzwertkkarten (zertifiziert) verwendet.
Patchlevel auf allen Hosts identisch.
Kabelart und -länge auch überall gleich.
Es handelt sich hier nicht um ein permanentes Problem. Es taucht sehr selten auf und nur auf diesem einen Host.
Verfasst: 03.08.2012, 15:54
von JMcClane
Läuft zu der Zeit gerade ein Backup oder was anderes festplattenintensives?
Verfasst: 03.08.2012, 18:37
von Login
nein, kein Backup, die laufen Nachts.
Re: Plötzlich extrem hohe Latenzen von einem Host aus
Verfasst: 04.08.2012, 12:17
von bla!zilla
Login hat geschrieben:Der problematische Host hat durchschnittliche Latenzen von 0,xx ms.
Bitte mal prüfen. Latenzen >1ms sind eher unwahrscheinlich...
Was für ein Storage kommt zum EInsatz? Was für Switches kommen zum Einsatz? RR bei SATP Default_AA ist eher unglücklich. Bitte teste MRU oder FIXED.
Ist es IMMER der gleiche Host? Lässt sich das Problem umgehen, in dem du die aktiven Pfade wechselst?
Verfasst: 04.08.2012, 14:13
von Login
Salute!
wie gesagt, normalerweise habe cih auf all diesen Hosts Latenzen von weniger als 1 ms im Durchschnitt.
Nur während des Spuks sind die Latenzen so exorbitant - und nur auf diesem einen Host.
Betroffen sind hier zwei iSCSI Storages der FA Infortrend (S12E-G1133-2 und DS S12E-G1140-2). Beide waren in Zeiten 4.x noch zertifiziert, für Default_AA und auch RR.
pSwitche sind zwei HP 1810G-8 mit aktiviertem FlowControl und JumboFrames. Pro Switch stecken 5 Kabel drin, wobei die Switches 11,XX Gbit/s auf der Platine verarbeiten können.
VMK ping auf die Storage Channels mit Framesize 8500 geht.
Code: Alles auswählen
Ist es IMMER der gleiche Host? Lässt sich das Problem umgehen, in dem du die aktiven Pfade wechselst?
Ich hatte genau dieses Pänomen vor ca einem Jahr auf einem der anderen Hosts, damals war auch nur einer und nicht alle drei Hosts betroffen. Damals war es noch vSphere 4.1. Inzwischen sind die Hosts komplett neu mit ESXi5 installiert, NICHT upgegradet.
Aktive Pfade kann ich in der Konfig nciht welchseln, da die Storages jeweils nur 2x 1GBit Channels für iSCSI bieten und ich diese beide per RR nutze.
Auf MRU oder FIXED möchte ich nicht wechseln, wegen der Leistungseinbuße (1 GbE iSCSI ist eh schon grenzwertig)
Verfasst: 04.08.2012, 14:18
von bla!zilla
Kannst du bitte mal einen Screenshot von den niedrigen Latenzen hochladen?
Verfasst: 04.08.2012, 14:24
von Login
Also:
Ich habe den betroffenen ESX durchgebooted -> keine Besserung.
Rep. Installtion des ESX -> keine Besserung.
beide Storages durchgestartet -> keine Besserung
Software iSCSI HBA auf dem ESX deaktiviert, rebooted und wieder aktiviert, Rescan HBA -> Storages werden wieder mit normalen Latenzen angesprochen.
Diverse Tests unter Last -> alles wieder gut.
!?!?!?!?!?!?!?!?!?
In den Logs des ESX habe ich nach ERROR und WARNING gefiltert, da stehen ein paar Einträge, aber ncihts, was für mich auf das Problem hinweist.
WAS IST/WAR DA LOS?
Verfasst: 04.08.2012, 14:54
von Login
Durchschnitt letzter Tag.
Keine A. warum zwischen gestern 20.45Uhr und heute 11Uhr nichts angezegt wird. Das Latenzproblem bestand seit gestern Morgen durchgehend bis vor einer Stunde. (13Uhr).
Verfasst: 04.08.2012, 15:49
von Dayworker
Sorry, aber der Filehoster ist Schrott und verlangt eine Anmeldung...
Dummerweise scheint das der Nachfolger unseres langjährig genutzter Freehosters
http://ifile.it zu sein...

Verfasst: 04.08.2012, 17:14
von Login