Hallo zusammen,
wir haben (schon seit der Einrichtung vor ein paar Wochen) massive Performanceprobleme mit unserer Debian-VM auf ESXi 4.1:
- Eingaben auf der Konsole erscheinen manchmal sofort, manchmal erst Sekunden nach dem Tippen
- Netzwerk-Durchsatz per SMB/CIFS aus dem LAN auf den Server max. 6 MB/s. Kann nicht am Netz oder Client liegen, da Kopiervorgänge z.B. auf ein NAS im LAN sehr viel schneller gehen.
- Abbruch des Kopiervorgangs bei großen Dateien (ca. 2GB)
- Kopieren kleinerer Dateien ohne Abbruch, jedoch "stockend"
Aufbau/Hardware/Software:
- Storage: 1 * IBM DS3300 mit 5 * 300GB SAS-Platten im RAID6 und Dual-Controller
- iSCSI (SW, keine HBAs): VLAN eines (ich weiß: Single Point of Failure) HP Procurve 2848 Switch für die iSCSI-Anbindung per Multipathing an
- ESXi-Hosts: 2 * IBM x3550M2 (Xeon Quad 2,4GHz, 10 GB RAM, 2* 146 GB SAS im RAID1)
- Software: ESXi 4.1 und als VM auf dem einen Host ein IPCop und auf dem anderen die paedML Linux 4.05 (Musterlösung des Landes Ba-Wü für Schulen, basierend auf Debian 4, Kernel 2.6.24-8 ).
Messungen und Recherchen:
In den VMWare-Logs auf beiden Hosts sind alle 10 min. folgende Fehlermeldungen zu sehen (nur wenn die VMs up sind):
event.esx.problem.storage.connectivity.pathstatechanges
Der entsprechende VMWare Knowledgebase-Artikel dazu:
http://kb.vmware.com/selfservice/micros ... Id=1020692
Außerdem zeigt das Storage durch eine gelbe LED einen Systemfehler an (allerdings noch nicht seit der Installation, sondern erst seit ein paar Tagen). Leider komme ich nicht selbst auf das Storage, das Ganze wurde von einer externen Firma installiert und ich habe die Storage Manager Software nicht (woher bekomme ich die?)
Auf den VMs sind (noch) keine VMWare-Tools installiert (für den 2.4-Kernel des IPCop gibt es auch keine).
Ich habe festgestellt, dass bei der Erstellung der VM ein Ubuntu-Template verwendet wurde, obwohl es sich um ein Debian-System handelt. Kann die Wahl des falschen Templates einen solchen Einfluss auf die Performance der VM oder die Installation der VMWare-Tools haben? Falls ja: könnte die VM ohne Neuinstallation auf das Debian-Template migriert werden?
iperf-Messungen sowohl zwischen Host1 (IPCop) und Host2 (Debian) als auch Richtung LAN ergeben einen Durchsat von 1 Gbit/s, daran kann es also nicht liegen und ich tippe eher auf die iSCSI-Strecke Hosts <--> Storage.
Die Firma, welche uns das System eingerichtet hat, geht davon aus, dass es an fehlenden Treibern der VMs für die iSCSI-Anbindung und/oder an den fehlenden VMWare-Tools liegt. Aber die Storageanbindung müsste doch von ESXi verwaltet, für die VMs transparent und damit egal sein, ob lokal, per iSCSI oder FC, oder!?
Vielleicht könnt Ihr mich ja erhellen oder habt noch weitere Tipps, wie man das Problem eingrenzen könnte?
Vielen Dank schon mal im Voraus und viele Grüße,
cibomato
Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!
massive Performanceprobleme
Hallo
Ohne jetzt die DS3300 genauer zu kennen, behaupte ich, dass ein externes Storage System konfiguriert mit RAID6 und nur 5 Platten völliger Schwachsinn ist.
Dazu noch die Aussage dass die Storage Performance von den nicht installierten VMware Tools herrühren soll.
Ich denke, da ist eher in der Pfadkonfiguration der Storageanbindung was faul:
Wenn es sich bei der DS3300 um ein Storage mit Active/Passive Controller handelt, könnte ich mir vorstellen, dass bei ungeschickter Pathkonfig die LUN von beiden Hosts über verschiendene Controller angesprochen wird. So wird immer wieder der Controller für die LUN gewechselt und so dem zweiten ESX der Zugriff kurzzeitig entzogen.
Du könntest mal folgendes Probieren:
Entferne alle Netzwerkverbindungen zum zweiten Controller sodass vom ESX her nur noch ein Pfad vorhanden ist. Das Pathtrashing sollte somit aufhören und die Ausfälle beim Kopieren von grösseren Dateien verschwinden.
Alternativ könntest Du mal eine Problem VM auf den Local Datastore verschieben. Hierbei sollte sich die Performance auch steigern, obwohl Du bei Schreibvorgängen effektiv nur eine Spindel hast, was aber den Write Penalty auf ein RAID 6 wettmachen könnte.
hth
Chregu
Ohne jetzt die DS3300 genauer zu kennen, behaupte ich, dass ein externes Storage System konfiguriert mit RAID6 und nur 5 Platten völliger Schwachsinn ist.
Dazu noch die Aussage dass die Storage Performance von den nicht installierten VMware Tools herrühren soll.
Ich denke, da ist eher in der Pfadkonfiguration der Storageanbindung was faul:
Wenn es sich bei der DS3300 um ein Storage mit Active/Passive Controller handelt, könnte ich mir vorstellen, dass bei ungeschickter Pathkonfig die LUN von beiden Hosts über verschiendene Controller angesprochen wird. So wird immer wieder der Controller für die LUN gewechselt und so dem zweiten ESX der Zugriff kurzzeitig entzogen.
Du könntest mal folgendes Probieren:
Entferne alle Netzwerkverbindungen zum zweiten Controller sodass vom ESX her nur noch ein Pfad vorhanden ist. Das Pathtrashing sollte somit aufhören und die Ausfälle beim Kopieren von grösseren Dateien verschwinden.
Alternativ könntest Du mal eine Problem VM auf den Local Datastore verschieben. Hierbei sollte sich die Performance auch steigern, obwohl Du bei Schreibvorgängen effektiv nur eine Spindel hast, was aber den Write Penalty auf ein RAID 6 wettmachen könnte.
hth
Chregu
Hallo Chregu,
vielen Dank für Deine Antwort.
Könntest Du das etwas genauer begründen? Was könnte verbessert werden? Ganz tauschen geht jetzt vermutlich nicht mehr aber falls die bestehende Konfiguration durch Erweiterung / Umbau verbessert werden kann, bin ich für Inputs dankbar.
Das werde ich diese Woche mal zusammen mit unserer Firma versuchen. Verstehe ich das richtig: Ersteres würde testen, ob eine falsche Konfiguration vorliegt, Letzteres, ob die Performance des RAID 6 schuld ist?
Danke und Gruß,
cibomato
vielen Dank für Deine Antwort.
ch-hunn hat geschrieben:Ohne jetzt die DS3300 genauer zu kennen, behaupte ich, dass ein externes Storage System konfiguriert mit RAID6 und nur 5 Platten völliger Schwachsinn ist.
Könntest Du das etwas genauer begründen? Was könnte verbessert werden? Ganz tauschen geht jetzt vermutlich nicht mehr aber falls die bestehende Konfiguration durch Erweiterung / Umbau verbessert werden kann, bin ich für Inputs dankbar.
ch-hunn hat geschrieben:Du könntest mal folgendes Probieren:
Entferne alle Netzwerkverbindungen zum zweiten Controller sodass vom ESX her nur noch ein Pfad vorhanden ist. Das Pathtrashing sollte somit aufhören und die Ausfälle beim Kopieren von grösseren Dateien verschwinden.
Alternativ könntest Du mal eine Problem VM auf den Local Datastore verschieben. Hierbei sollte sich die Performance auch steigern, obwohl Du bei Schreibvorgängen effektiv nur eine Spindel hast, was aber den Write Penalty auf ein RAID 6 wettmachen könnte.
Das werde ich diese Woche mal zusammen mit unserer Firma versuchen. Verstehe ich das richtig: Ersteres würde testen, ob eine falsche Konfiguration vorliegt, Letzteres, ob die Performance des RAID 6 schuld ist?
Danke und Gruß,
cibomato
Wie gesagt, ich kenne die DS3300 nicht.
Was aber alle Systeme gemeinsam haben ist, dass die Performance von RAID Leveln und Platten Anzahl abhängt. Dabei ist nicht nur der reine Durchsatz gemeint. Hauptgewicht ist hierbei auf die IOps zu legen.
Weitere Infos findest Du im Netz mit den Stichworten RAID, RAID Write Penalty, Disk IOPS, iSCSI Multipathing, etc.
Dass Dein System gewechselt werden muss ist nicht nötig. Ich würde aber dem Storage ein paar Platten mehr spendieren und auf RAID 10 umstellen.
Ob das on the fly geht, oder alle LUNs neu erstellt werden müssen, kann Dir die Systemdoku verraten.
Das mit den Test hast Du richtig verstanden.
Gruss
Chregu
Was aber alle Systeme gemeinsam haben ist, dass die Performance von RAID Leveln und Platten Anzahl abhängt. Dabei ist nicht nur der reine Durchsatz gemeint. Hauptgewicht ist hierbei auf die IOps zu legen.
Weitere Infos findest Du im Netz mit den Stichworten RAID, RAID Write Penalty, Disk IOPS, iSCSI Multipathing, etc.
Dass Dein System gewechselt werden muss ist nicht nötig. Ich würde aber dem Storage ein paar Platten mehr spendieren und auf RAID 10 umstellen.
Ob das on the fly geht, oder alle LUNs neu erstellt werden müssen, kann Dir die Systemdoku verraten.
Das mit den Test hast Du richtig verstanden.
Gruss
Chregu
Und das (hab ich gerade im Manual gelesen und vermutlich bezieht sich unsere Support-Firma darauf, wenn sie von fehlenden Treibern spricht), bezieht sich doch wenn dann nur auf ESXi und nicht auf die GuestOSs, oder!?
Wenn ja, bringt ESXi diese Treiber standardmäßig mit und das sollte rennen (der Fehler liegt also woanders) oder könnte unser Problem an diesem fehlenden Treiber liegen?
[Edit]: Hm, kann es sein, dass diese Passage mit der Manager-SW zusammenhing?
Danke und Gruß,
cibomato
However, dual path configurations will only work correctly if you install the appropriate
multipath driver for your particular operating system in the host server.
Wenn ja, bringt ESXi diese Treiber standardmäßig mit und das sollte rennen (der Fehler liegt also woanders) oder könnte unser Problem an diesem fehlenden Treiber liegen?
[Edit]: Hm, kann es sein, dass diese Passage mit der Manager-SW zusammenhing?
Danke und Gruß,
cibomato
-
irix
- King of the Hill
- Beiträge: 13063
- Registriert: 02.08.2008, 15:06
- Wohnort: Hannover/Wuerzburg
- Kontaktdaten:
Also wenn diese Aussage von deiner Support Firma kommt dann habe ich so meine Zweifel was deren Kompetenz im Bereicht VMWare/vSphere angeht.
Mit vSphere kam ein natives Multipathing fuer iSCSI, man muss es nur konfigurieren. Allerdings auch wenn man das nicht hat sollte es nicht diese Performanceprobleme geben und somit gehe ich von einem technischen Problem aus.
Wenn die Abnahme der Installation noch nicht erfolgt ist dann setze die Support Firma drauf an welche euch das verkauft und installiert hat. Wenn da etwas Gelb leuchtet und keinner kann es sagen bzw. mal nachgucken dann .... nunja.
Wenn die ganze Installation nur 2 VMs hat und dann kann man schon auf die Idee kommen sich auf ein RAID6 einzulassen auch mit dem Hintergrund das die Anlagen evtl. "unbeaufsichtigt" steht und der Ausfall einer Platte evtl. unbemerkt bleibt. Performance maessig ist das bei der geringen Anzahl an Platten natuerlich schlecht.
Wenn deine Gaeste unwillig sind dann wird das daran liegen das der ESX Probleme mit dem Storage hat was sich dann in hohen Latenzen fuer den Gast ausmacht. Das sollte dann aber auch zusehen sein in den Performance Graphen bzw. "esxtop".
Gruss
Joerg
Mit vSphere kam ein natives Multipathing fuer iSCSI, man muss es nur konfigurieren. Allerdings auch wenn man das nicht hat sollte es nicht diese Performanceprobleme geben und somit gehe ich von einem technischen Problem aus.
Wenn die Abnahme der Installation noch nicht erfolgt ist dann setze die Support Firma drauf an welche euch das verkauft und installiert hat. Wenn da etwas Gelb leuchtet und keinner kann es sagen bzw. mal nachgucken dann .... nunja.
Wenn die ganze Installation nur 2 VMs hat und dann kann man schon auf die Idee kommen sich auf ein RAID6 einzulassen auch mit dem Hintergrund das die Anlagen evtl. "unbeaufsichtigt" steht und der Ausfall einer Platte evtl. unbemerkt bleibt. Performance maessig ist das bei der geringen Anzahl an Platten natuerlich schlecht.
Wenn deine Gaeste unwillig sind dann wird das daran liegen das der ESX Probleme mit dem Storage hat was sich dann in hohen Latenzen fuer den Gast ausmacht. Das sollte dann aber auch zusehen sein in den Performance Graphen bzw. "esxtop".
Gruss
Joerg
Wer ist online?
Mitglieder in diesem Forum: 0 Mitglieder und 9 Gäste
