Das Forum wurde aktualisiert. Wurde höchste Zeit. Wenn etwas nicht funktioniert, bitte gerne hier jederzeit melden.
(Das "alte Design" kommt wieder, wird ne Weile brauchen!)

Storage Aussetzer

Hilfe bei Problemen mit Installation & Benutzung des VMware ESX Server 4/VMware vSphere 4.0.

Moderatoren: irix, continuum, Dayworker, Tschoergez

Member
Beiträge: 175
Registriert: 17.12.2007, 15:39

Storage Aussetzer

Beitragvon eini » 29.11.2009, 20:46

Hallo Leute,

also ich habe hier ein Problem welches ich nicht lösen kann. Selbst ein Supportcall bei VMWare brachte noch nix.

Meine ESXen (vSphere / 6x) per FCP an einer NetApp (3020c) und auch 2x ESXi (4) per iSCSI angebunden verlieren mehrmals täglich ihre Verbindung zum Storage. Stellen diesen aber sofort wieder her. Die VM "merkt" davon selber nix, außer ein System welches dann kurz ca. 5 Minuten etwas hängt, aber selbst auf diesem System ist keinerlei Logeintrag zu finden. Soviel ich weiß puffert der ESX dann den I/O solange das VMFS weg ist.

Nun ist die Frage ob vSphere "schuld" ist oder was anderes? Irgendwie ist das Problem vorher nicht aufgetreten oder nicht bemerkt worden. Sämtliche KB Einträge von VMWare bezüglich Metadaten im VMSF oder Reservations sind nicht relevant da dies auch tagsüber passiert wenn hier definitiv nix gemacht wird.

Ich habe nun einen 3.5er ESXi installiert aber der Logt überhaupt nix, nicht mal wenn man dem einen Pfad weghaut schreibt der was in sein Log, dass ist doch auch nicht normal oder?

Na ja, vielleicht hat einer eine Idee was ich tun könnte. Bin langsam am Ende mit meinem Latein. Wie gesagt machen das auch die ESXi per iSCSI die nicht im VC registriert sind...

Danke!

Jenseits von Gut & Böse
Beiträge: 10958
Registriert: 02.08.2008, 15:06
Wohnort: Hannover/Wuerzburg
Kontaktdaten:

Beitragvon irix » 29.11.2009, 21:25

Hab aehnliches mit Open-E DSS 6.0 als Storage. Ein Target produziert unzaehlige Connection Lost Eintraege auf allen ESXen nur um es in der selben Sekunde wieder herzustellen. Die anderen beiden Targets (letzteres hat keine Last) sind nicht betroffen.

Allerdings hab ich keine Haenger oder sonstige Stoerungen.

Gruss
Joerg

Member
Beiträge: 9
Registriert: 20.08.2009, 09:35
Wohnort: Nürnberg

Beitragvon Denn1s » 29.11.2009, 21:49

Hallo,

muss leider von gleichen Problemen berichten. Eigentlich seit Anfang an habe ich sporadische Connection Lost's zum DataCore Sanmelody. Sind zwei gespiegelte Server, angebunden per iSCSI an 5 ESX 4 Hosts. Habe bislang nicht herausfinden können was es verursacht. Allein aufgrund der tatsache das die VM's davon nichts mitbekommen da sofort auf den anderen Pfad geschalten wird bin ich noch halbwegs entspannt, suche aber dringend nach einer Lösung.

Hier die typischen Events die quer über alle VMFS Volumes gehen, hier mal nur eins herausgezogen:

Lost path redundancy to storage device
naa.60030d90564d46533033000000000000. Path
vmhba34:C0:T0:L3 is down. Affected datastores:
"VMFS03".
warning
29.11.2009 19:30:19

Lost access to volume 4a49e5bc-070dcbe0-884e-
0015179726e9 (VMFS03) due to connectivity
issues. Recovery attempt is in progress and
outcome will be reported shortly.
info
29.11.2009 19:30:20

Successfully restored access to volume 4a49e5bc-
070dcbe0-884e-0015179726e9 (VMFS03)
following connectivity issues.
info
29.11.2009 19:30:20


Jemand eine Idee was da vor sich geht?


Danke & Gruß
Dennis

Jenseits von Gut & Böse
Beiträge: 10958
Registriert: 02.08.2008, 15:06
Wohnort: Hannover/Wuerzburg
Kontaktdaten:

Beitragvon irix » 29.11.2009, 22:49

Genau so siehts hier auch aus. Ich "sehe" das seit dem ich vSphere im Einsatz habe was aber nicht bedeuten soll das ich die nicht schon unter VI 3.5 hatte. Nur damals hatte das Storage nur ein Target praesentiert und heute sind es halt 3.

Gruss
Joerg

Member
Beiträge: 175
Registriert: 17.12.2007, 15:39

Beitragvon eini » 30.11.2009, 10:48

Wie ist das bei euch? Habe ihr das Problem seit vSphere oder vorher schon?

Ich kann es nicht genau sagen da es unter 3.5 schlicht auch einfach nicht aufgefallen sein könnte mangels Log Eintrag. Sprich der könnte das ja überhaupt nicht geloggt haben.

Aufgrund eurer Probleme deutet es ja schon darauf hin das es nicht am Storage liegt sondern eher an der vSphere Version. Wir haben ja total unterschiedliche Storagesyysteme.

Der Fehler sieht bei mir aber dennoch anders aus:

Wegen Konnektivitätsproblemen kann nicht mehr auf Volume 47fe1069-ece66993-c597-001871791140 (LUN) zugegriffen werden. Es wird versucht, eine Wiederherstellung durchzuführen. Das Ergebnis liegt demnächt vor. Info 30.11.2009 10:38:14

Und dann sofort:

Der Zugriff auf Volume 47fe1069-ece66993-c597-001871791140 (LUN) wurde wiederhergestellt. Info 30.11.2009 10:38:14

Member
Beiträge: 9
Registriert: 20.08.2009, 09:35
Wohnort: Nürnberg

Beitragvon Denn1s » 30.11.2009, 21:19

Also das sind die gleichen Meldungen wie bei mir, nur eben auf deutsch :)
Hab das ganze auch erst seit vSphere wahrgenommen, kann aber auch schon vorher der Fall gewesen sein.

Habt ihr die Fehler bei FC und iSCSI Volumes oder nur bei iSCSI?

Bei unserer Umgebung sind die Netzwerkverbindungen von den ESX Hosts zu den Datacore SAN Servern noch direkt, ohne Switch dazwischen. Und wir nutzen keine gekreuzten Kabel. Wir vermuten das da evtl. auch die Fehlerursache liegen könnte. Daher wäre es interessant ob ihr Switches dazwischen habt oder gekreuzte Kabel nutzt. Wenn da die Fehler genauso auftreten kann ich das schonmal ausschließen ohne erst groß testen zu müssen. Wenns aber auch bei FC autritt is das ganze sowieso hinfällig glaube ich. Nur eine Idee.


Gruß
Dennis

Benutzeravatar
Moderator
Beiträge: 14663
Registriert: 09.08.2003, 05:41
Wohnort: sauerland
Kontaktdaten:

Beitragvon continuum » 30.11.2009, 23:01

sieht aus als waere da ein timeout zu niedrig gesetzt ?

Member
Beiträge: 175
Registriert: 17.12.2007, 15:39

Beitragvon eini » 01.12.2009, 09:23

@Denn1s

Fehlermeldung :-)
Bei uns "merken" auch die beiden ESXi via iSCSI diverse Aussetzer. Es ist also kein FCP Problem, und ja wir haben hier Broadcom Switche im Einsatz. Was meinst du mit gekreuzte Kabel genau? :shock:

@continuum
Welche Timeouts könnten das sein?

Hier einige die das Problem auch haben:
http://www.thecusforum.eu/showthread.php?t=2121
http://communities.vmware.com/thread/235373

Benutzeravatar
Member
Beiträge: 302
Registriert: 20.03.2009, 15:00
Wohnort: Sofia / BG

Beitragvon Saturnous » 01.12.2009, 09:57

Delayed ACK einschalten - dann hält er die Verbindung. Der KB warnt das das 'dirty' ist.
VMWare hat mal wieder den Issue nur für EMCs beschrieben.

Member
Beiträge: 11
Registriert: 09.10.2006, 13:29

Beitragvon xalepopi » 02.12.2009, 15:50

Was für eine Data ONTAP Version ist auf den NetApp Systemen installiert? Und wie wird iSCSI betrieben? Single Path, Multipathing oder Multiple Connections. Für die FC Probleme: Handelt es sich um ein Clustersystem, wenn ja welcher Clustermode ist aktiviert auf den Storagesystemen? Sind die Host Utlis installiert und die FC Adapter über diese konfiguriert? Welche FC Adapter werden genutzt, mit welcher Firmware? Die Host Utlis sollten auch bei iSCSI benutzt werden, da bestimmte Parameter und Timeout Werte gesetzt werden.

Member
Beiträge: 175
Registriert: 17.12.2007, 15:39

Beitragvon eini » 03.12.2009, 11:30

@xalepopi
Danke für die eMail. Es ist ein 3020C im Aktiv/Aktiv Modus. Die Utils. sind nicht installiert. Wie meinst du das FC Adapter über diese konfiguriert, blick da gerade nich so durch.

Als FC Adapter sind LPe110000 4Gb Fibre Channel Host Adapter im Einsatz, das müssten wohl Emulex Lightpuls sein.

Die beiden iSCSI haben auch keine Utils, wie gesagt ist das Neuland für mich aber ggf. eine Lösung worüber ich sehr froh wäre.

Danke für deine Hilfe.

Member
Beiträge: 50
Registriert: 10.04.2005, 19:10

Beitragvon tectra123 » 05.12.2009, 23:53

Hi Leute,

wir haben eine iSCSI DataCore Lösung mit ESX 4 und dort treten immer wieder sporadisch iSCSI Connection Loss auf.
Die iSCSI Verbindungsabrüche sind nachweißlich immer unter Last aufgetreten. Diese führten sogar zum Datenbank Crash bei der Echange 2007 VM die sowohl die DBs in vmdk oder RDMs gespeichert hatte.
Diese Woch hat VMware nach einem 2 Monatigem Call Maraton endlich eingestanden das dieses bei denen im Lab auch auftritt
Ob und wann ein Fix kommt steht noch aus.

VG

Benutzeravatar
Member
Beiträge: 302
Registriert: 20.03.2009, 15:00
Wohnort: Sofia / BG

Beitragvon Saturnous » 16.12.2009, 12:41

iSCSI Initiator in der VM sollte immer noch der Königsweg sein - simple and stupid.

Member
Beiträge: 11
Registriert: 09.10.2006, 13:29

Beitragvon xalepopi » 23.12.2009, 13:24

Ich müsste noch wissen, welche Data ONTAP Version eigesetzt wird. Das ist teilweise ganz entscheidend. Gerade was die Unterstützung der FC HBAs angeht.

iSCSI Initatoren aus dem Gast sind meiner Meinung nach im Moment die beste Lösung. Alle Implementierung die ich bis jetzt durchgeführt habe, habe ich so aufgebaut. Die Verwaltung der Festplatten liegen immer noch bei dem Gast. Hab noch nie Probleme damit gehabt. Das einzige was nicht funktioniert, ist die VSS Unterstützung der VMware Tools. Diese dürfen nicht mitinstalliert werden, da dann Sachen wie Flexclone Volumes, merkwürdige SnapShots etc. auf dem Storage entstehen.

Schöne Weihnachten...

Member
Beiträge: 68
Registriert: 30.06.2010, 15:16

Beitragvon Magicans » 08.07.2010, 09:01

Habe das selbe Problem.

Bei mir passiert das jede Nacht zu ein und der selben Zeit. Das ganze ist mir erst seit einer Woche aufgefallen

Wegen Konnektivitätsproblemen kann nicht mehr auf Volume
4b389ce8-bad4238a-33a8-0026b9478b54 (Lun0) zugegriffen
werden. Es wird versucht, eine Wiederherstellung durchzuführen.
Das Ergebnis liegt demnächt vor.
Info
08.07.2010 03:01:59
Wegen Konnektivitätsproblemen kann nicht mehr auf Volume
4b389ce8-bad4238a-33a8-0026b9478b54 (Lun0) zugegriffen
werden. Es wird versucht, eine Wiederherstellung durchzuführen.
Das Ergebnis liegt demnächt vor.
Info
08.07.2010 03:02:00
Der Zugriff auf Volume 4b389ce8-bad4238a-33a8-0026b9478b54
(Lun0) wurde wiederhergestellt.
Info
08.07.2010 03:02:08
Der Zugriff auf Volume 4b389ce8-bad4238a-33a8-0026b9478b54
(Lun0) wurde wiederhergestellt.
Info
08.07.2010 03:02:08


Das ganze dauert bei mir allerdings 8 Sekunden was eindeutig zu lang ist

Hat dazu wer eigentlich eine Lösung gefunden?

Jenseits von Gut & Böse
Beiträge: 10958
Registriert: 02.08.2008, 15:06
Wohnort: Hannover/Wuerzburg
Kontaktdaten:

Beitragvon irix » 08.07.2010, 09:37

Ist das U2 installiert?

Ich konnte das bei verschiedenen Kunden sehen und die Probleme sind nicht mehr da. Wobei es dank multiblen Pfaden kein wirkliches Problem darstellte.

Gruss
Joerg

Member
Beiträge: 175
Registriert: 17.12.2007, 15:39

Beitragvon eini » 08.07.2010, 09:44

Meine Lösung war ein neues Storagesystem was sowieso fällig war. Mit diesem, welches auch Multipathing unterstützt, ist dieses Problem nicht mehr existent. Meines Erachtens entstand eben dieses Problem aus einer zu hohen Belastung des Storagesystems. Wenn bei dir das in der Nacht auftritt könnte es möglicherweise an laufenden Backupjob´s liegen?

Member
Beiträge: 68
Registriert: 30.06.2010, 15:16

Beitragvon Magicans » 08.07.2010, 09:56

Zu der Zeit läuft gar nichts. Kein cronjob, kein Backup nix
Das Storage ist ein ganz neues. Das ist ein Fibrechannel to Disk Plattenstapel.
Ich habe 2 ESX Host welche beide mit je mit zwei zweiadrigen FC-Kablen an den SAN Switch angeschlossen sind. Also hat jeder Server 4 Adern so gesehen.

Die Meldung variiert auch zwischen zwei Verbindungsabbrüchen und sechs

Jedes mal zwischen 03:00:00 und 03:05:00 Uhr


@irix
Sorry aber: Was ist U2?

Member
Beiträge: 175
Registriert: 17.12.2007, 15:39

Beitragvon eini » 08.07.2010, 10:06

Er meint Update 2.
Es muss aber was um diese Uhrzeit passieren, finde raus was es ist. Vielleicht eine deiner VM´s die I/O Last zieht etc.?

Bei mir war es jedenfalls so das via ESXtop auf den HBA´s folgender Wert "DAVG/cmd" jenseits von gut und böse war. Also über 500..... Und das bedeutet das Storage antwortet nicht oder zu langsam.

Unter 10 ist optimum
10-50 ist ein guter wert
50 - 100 kann zu bemerkbaren Performance Problemen führen.
über 100 ist definitive nicht empfehlenswert es kann ihr zu kurzfristigen oder total Ausfällen von VMs kommen
über 500 kann je nach Konfiguration zu erheblichen Ausfällen führen, In einigen Fällen sogar zum Totalausfalle der Infrastrukturführen.

Vielleicht macht ja dein Storage irgendwas in der Nacht, DiskScrub oder ähnliches?

Member
Beiträge: 68
Registriert: 30.06.2010, 15:16

Beitragvon Magicans » 08.07.2010, 10:09

Achso

Ja das Update 2 ist installiert.


Einen zu hohen I/O kann ich mir nicht vorstellen, da nur zwei VM´s laufen und der Rest ausgeschaltet ist.


ESXtop zeigt mir folgendes an

Bild

Uploaded with ImageShack.us

Benutzeravatar
Moderator
Beiträge: 3476
Registriert: 23.02.2005, 09:14
Wohnort: Burgberg im Allgäu
Kontaktdaten:

Beitragvon Tschoergez » 08.07.2010, 10:20

schau doch mal nach, was im vmkernel log steht. da müssten etwas detailliertere meldungen zu finden sein.

viele grüße,
jörg

Member
Beiträge: 68
Registriert: 30.06.2010, 15:16

Beitragvon Magicans » 08.07.2010, 11:29

Im Kernel Log steht, dass er den physikal data link verlieren würde.

Das ganze deckt sich aber nicht mit den logs im SAN Switch. Da steht es sei alles okay...


Vor allem -> wieso immer nur um 3 Uhr diese Logeinträge und nicht öfters, wenn das Kabel defekt ist.

Member
Beiträge: 73
Registriert: 10.11.2008, 18:35

Beitragvon barabone » 04.02.2012, 19:58

Hi,

sagt mal hat für dieses Problem schon jemand eine Lösung gefunden?
Ich habe das neuerdings auch, allerdings habe ich einen ESXI4.1 mit einem Dell Perc SATA Controller.
Das scheint immer 1-2 Woche so zu gehen und zwar völlig sporadisch und dann plötzlich friert der ganze Host ein.

Also falls jemand dazu eine Idee Lösung oder was auch immer hat, ich bin für alles dankbar.


Gruß
André

Member
Beiträge: 2
Registriert: 03.03.2014, 14:29
Wohnort: Ulm

Beitragvon jogi » 21.03.2014, 17:53

Habe offensichtlich das gleiche Problem.
2 ESX
2 Netapp
2 HP Switche
alles jeweils über Kreuz verbunden und die Switche zusammen mit Glasfaser.
Die Fehler im VCenter / esx
"Wegen Konnektivitätsproblemen kann nicht mehr auf Volume 4cd43c11-529cfe10-e2de-e41f13457b8c (esx1-local) zugegriffen
werden. Es wird versucht, eine Wiederherstellung durchzuführen. Das Ergebnis liegt demnächt vor."
und dann ....2-8 Sekunden später
Der Zugriff auf Volume 4cd43c11-529cfe10-e2de-e41f13457b8c (esx1-local) wurde wiederhergestellt.
so geht das stündlich....
Auch bei mir sieht man in den VM´s keine Einträge in der Ereignissanzeige.

Grüsse an alle und schon mal Danke fürs zuhören (lesen) :-)
Jogi

Profi
Beiträge: 982
Registriert: 31.03.2008, 17:26
Wohnort: Einzugsbereich des FC Schalke 04
Kontaktdaten:

Beitragvon kastlr » 21.03.2014, 21:22

Hallo Jogi,

nach meinem Kenntnisstand überprüft ein ESXi Server alle 3 Sekunden mit einem Heartbeat (Write) IO, ob er noch Zugriff auf einen Datastore hat.
Wenn dieser IO nicht innerhalb von 8 Sekunden beantwortet worden ist, erscheint diese Meldung.
Du solltest in den vmkernel Logs zu den entsprechenden Zeiten SCSI Fehler sehen.

Die VM's bekommen eine so kurze Unterbrechung gar nicht mit, da deren SCSI Timeout üblicherweise deutlich höher liegt (30 - 60 sec)

Aber in deinem Log Eintrag steht esx1-local, bist du sicher, das es sich hierbei um eine Netapp LUN handelt?

Gruß,
Ralf


Zurück zu „vSphere 4 / ESX 4“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast