Seite 1 von 3
gelöst: HP FC Problem Durchsatz ~12MBit
Verfasst: 09.03.2012, 13:24
von j.michaelis
Hallo an alle! das ist mein erster Post hier im Forum.
Ich habe 4 HP DL 380 G6 die mit je einer Qlogic ISA 2432 (HP AE312A) an die zwei HP FC 8/8 (HP AM866A) Switche angeschlossen sind und dort an zwei HP MSA2312fc.
Über das FCNetz bekomme ich max 12 MBit?:-/
Zur Geschichte:
HP DL 380G6 geuppt auf ESxi 4.1U2 mit der HP angepassten Version (Firmware auch aktuell)
MSA2312fc neuste Firmware (M113R11) 1 Volume Raid 6 mit ca 10 LUN´s
Die Switche mit "Single HBA Centric Zoning" konfiguriert
Die HBAs (HP AE312A) mit V2.16 Firmware versehen und im Esxi den qla2xxx vers 841.k1.34.2-1wmv installiert und aktiviert.
Einstellung der Pfade sind NMP ; VMW-SATP_ALUA und VMW_PSP_MRU
Bin jetzt mit meinem Latein am Ende bei Verschieben einer Maschiene von LUN zu LUN zeigt der switch 12MBit max
VMware io Appliance bestätigt diese werte bei ca 10MBit
Das ist doch viel zuwenig oder?
HAT IRGENDWER NOCH NE IDEE?
vielen Dank für die Antworten im Voraus melde mich sobald ich`s probiert hab am Montag
Verfasst: 09.03.2012, 13:51
von stahly
Das ist viel zu wenig! Meinst Du auch wirklich MBit oder 12 Megabyte?
Das hört sich stark nach Kabeldefekt an. Sind die mal überprüft worden?
Was sagt der Log der Switche? Manchmal ein Port down?
Verfasst: 09.03.2012, 14:18
von j.michaelis
Im Switchlog sind keine disconnects zu erkennen.
Das Kabelproblem hatte ich verworfen, da ich nicht glauben wollte dass 8 Kabel von den Servern zum Switch und 4 vom Switch zu den MSAs alle defekt sein können.
vorsorglich habe ich die Biegeradien überprüft und Kabel natürlich partiell getauscht.
Mein "alter" HP DL 380 G5 mit Win2008R2, dem ich eine HP 81Q spendiert habe (ist auch ein QLogic-Clone 8GBit karte ich glaub ISA 2532) erreicht am selben fabric Durchsätze um 40-50 MB/s (MB/s so stehts in dem Swich-Fronted)
deshalb schließ ich auf ein esxi Problem..
Verfasst: 09.03.2012, 19:30
von bla!zilla
Wieviele Platten stecken in der MSA und was läuft auf den 10 Volumes innerhalb der RAID 6 Vdisk?
Verfasst: 09.03.2012, 19:36
von stahly
bla!zilla hat geschrieben:...10 Volumes innerhalb der RAID 6 Vdisk?
Ups! Das hatte ich übersehen. Da hat bla!zilla natürlich recht. Wie viele IOs gibts denn dort?
Verfasst: 09.03.2012, 20:07
von j.michaelis
In den MSAs sind je 12 1Tb Sata Platten (ich glaub seagate baracuda Firmware aktuell) wovon 10 im raid6 konfiguriert sind und 2 spare Platten.
Auf diesem Array sind mehrere LUNs mit 300gb- 2tb angelegt die als Datenspeicher für unterschiedliche Virtuelle Maschinen (VFMS3)dienen.
Verfasst: 09.03.2012, 20:10
von j.michaelis
Es sind ~15 LUN/ MSA und noch reichlich Platz
Jede VM hat eine eigenen Datenspeicher/LUN zugeordnet. Hatte ich als Versuch die waitstates ( kernellog immer mal 200-1000ms )zu killen probiert
Verfasst: 09.03.2012, 20:16
von bla!zilla
15 Volumes (LUNs sind es erst am Host) in einer Vdisk, bestehend aus 12 SATA Platten (eh schon nicht schnell) und dann auch noch als RAID 6. Also ich tippe eher auf Designfehler und nicht auf Defekt.
Verfasst: 09.03.2012, 20:25
von j.michaelis
bla!zilla hat geschrieben:15 Volumes (LUNs sind es erst am Host) in einer Vdisk, bestehend aus 12 SATA Platten (eh schon nicht schnell) und dann auch noch als RAID 6. Also ich tippe eher auf Designfehler und nicht auf Defekt.
Aber wieso dann an der win2k8r2 Maschine am selben fabric, mit einer LUN von den 15 -dann fünffache Durchsätze?
Verfasst: 09.03.2012, 20:36
von bla!zilla
Die Wege des Herren...
Wenn sich das Problem auf VMware ESXi einkreisen lässt, dann würd ich in Richtung Treiber suchen. Erfahrungsgemäß lassen sich solche Fehler schlecht per Forum lösen.
Wer hat das installiert? Habt ihr da mal Kontakt aufgenommen?
Verfasst: 10.03.2012, 23:59
von j.michaelis
bla!zilla hat geschrieben:Wenn sich das Problem auf VMware ESXi einkreisen lässt, dann würd ich in Richtung Treiber suchen.
Treiber ist der qla2xxx(wie hier gefordert
http://www.vmware.com/resources/compatibility/detail.php?deviceCategory=san&productid=5553&releaseid=158&deviceCategory=san&partner=41&releases=158&arrayTypes=2&isSVA=1&page=2&display_interval=10&sortColumn=Partner&sortOrder=Asc) hat jemand Erfahrung damit? Wo wären hier Fallstricke an welchen Stellen des Kernellogs muss ich besonders hinschauen?
Welche Stellschrauben könnte ich noch "anziehen"?
bla!zilla hat geschrieben:Erfahrungsgemäß lassen sich solche Fehler schlecht per Forum lösen.
Das wäre echt schade:cry:
bla!zilla hat geschrieben:Wer hat das installiert? Habt ihr da mal Kontakt aufgenommen?
Habe das System von meinem Vorgänger so übernommen und von esx4.0 auf esxi4.1U2 geuppt leider war der Treiber (qla2xxx) seit 4.1 nicht mehr included. Mit dem Lieferer habe ich noch keinen Kontakt aufgenommen, da der Support für den set ausgelaufen ist....
Verfasst: 11.03.2012, 18:18
von bla!zilla
abe das System von meinem Vorgänger so übernommen und von esx4.0 auf esxi4.1U2 geuppt leider war der Treiber (qla2xxx) seit 4.1 nicht mehr included
Wie bitte?? Treiber für branded QLE2462 sollen nicht mehr enthalten sein??
http://www.vmware.com/resources/compati ... tOrder=Asc
Hast du es mit dem inboxed Treiber mal versucht?
Verfasst: 11.03.2012, 20:26
von j.michaelis
Da bin ich wohl einer Fehlinfo aufgesessen
bla!zilla hat geschrieben:Hast du es mit dem inboxed Treiber mal versucht?
werd ich morgen gleich mal probieren...
schreib dann was es gebracht hat
Verfasst: 12.03.2012, 15:10
von j.michaelis
so hab auf einer Bude das Orginalimage von VM 4.1U2 HP brandet drüber gebügelt.
es gab leider keine Besserung eher eine leichte Verschlechterung beim umkopieren von LUN zu LUN 2,3MB/s
Dazu gabs im Kernellog:
Long VMFS3 rsv time on 'Zielvolume' (held for 200-600 msec)
Hat irgendwer ne Idee?

Verfasst: 12.03.2012, 17:08
von MarcelMertens
schon mal mit esxtop geschaut ob irgendwo hohe Latenzen auftreten?
Verfasst: 12.03.2012, 17:30
von bla!zilla
Long VMFS3 rsv time on 'Zielvolume' (held for 200-600 msec)
Irgendwie fühle ich mich bei meinen vermuteten Schwächen im Design nun bestätigt.
Verfasst: 12.03.2012, 18:21
von j.michaelis
schon mal mit esxtop geschaut ob irgendwo hohe Latenzen auftreten?
ja hab ich
http://dl.dropbox.com/u/38696947/esxstat.jpgDa bei mir aber alle Werte sch*** sind weiß ich nicht was gut und schlecht ist...
bla!zilla hat geschrieben:Irgendwie fühle ich mich bei meinen vermuteten Schwächen im Design nun bestätigt.
Wo sollen da Schwächen sein das Raid6 Array aus allen Platten?
oder das Fabric? Alle Ports point-to point angeschlossen und Zones definiert, in denen Sich immer nur Sender und Empfänger gegenüberstehen .. das Ganze redundant also auf 2 Switchen in unterschiedlichen Domains wo ist der Fehler. über eine konkreteren Lösungsansatz würd ich mich freuen.[/url]
Verfasst: 12.03.2012, 18:27
von stahly
j.michaelis hat geschrieben:...
Wo sollen da Schwächen sein das Raid6 Array aus allen Platten?
...[/url]
Mehr als 600 IOPS sollten da nicht drin sein. (Zumindest rein plattentechnisch... ob ein Cache irgendwo verbaut ist, weiß ich nicht)
Wieviel IOs laufen denn nun auf den 10 Platten?
Verfasst: 12.03.2012, 19:17
von j.michaelis
stahly hat geschrieben:ob ein Cache irgendwo verbaut ist, weiß ich nicht)
cache lässt sich an der MSA einstellen. Das Verfahren ist cache-back. hab den Cache auf Standart 64k gelassen, lässt sich bis auf 32 MB aufstocken.. Ist pro Logische Festplatte einstellbar? Was würdest du denken wäre hier sinnvoll?
Wieviel IOs laufen denn nun auf den 10 Platten?
Die 12 Disk sind als einziges großes RAID 6 Array mit 2 Spare konfiguriert darauf laufen zZt 16 logische Disks (später dann LUN genannt) (ich hoffe das meintest du mit IOs)[/quote]
Da ich 2 MSAs hab könnte ich natürlich mit etwas Zeitaufwand(bei 10MB/s) umkopieren und stückweise neu konfigurieren. Wenn das sinnvoll wäre.( Ich hatte in einer best Practice gelesen Raid6 wird standardmäßig für den Einsatz in ESXi empfohlen ausser für DB und Exchange da sei RAID 10 performanter ich weiß dass sich hierüber die Fachwelt streitet..)
Verfasst: 12.03.2012, 19:49
von stahly
Nein, ich meine, was sagt der Monitor des Storage?
Wie viele Lese- und Schreibvorgänge werden dort tatsächlich auf die Platten geschrieben?
z.B. könnte es so aussehen:

Verfasst: 12.03.2012, 20:03
von j.michaelis
sorry diese Information hällt die msa2312fc nicht im webinterface bereit..
hab grade alles durchsucht noch ne idee wie ich sonst rankomme an solche infos SNMP?
Verfasst: 12.03.2012, 21:50
von bla!zilla
j.michaelis hat geschrieben:Wo sollen da Schwächen sein das Raid6 Array aus allen Platten?
12 SATA Platten, pro SATA Platte ca. 75 IOPS. Dann auch noch RAID 6, ganz übel bei random IO und Short Writes (und das haben wir in virtualisierten Umgebungen nun mal recht häufig). Du hast zwei Sparedisks, also arbeiten 10 Platten effektiv. Bei einem short Write sogar effektiv nur eine Disk (Stichwort Write Penalty bei RAID 3,4,5,6).
Verfasst: 12.03.2012, 22:23
von j.michaelis
Also doch Raid 10?
Verfasst: 13.03.2012, 08:05
von bla!zilla
Wäre auf jeden Fall in deinem Konstrukt schneller. Ob 12 SATA Platten so sinnvoll sind, darüber kann man streiten. Wieviele Gäste fähst du auf den Platten?
Verfasst: 13.03.2012, 08:12
von j.michaelis
Ca 30 virtuelle Maschinen greifen meist auf eine eigene LUN zu ( um konkurrierende Zugriffe zu minimieren) die Spiewiese(testumgebung) teilt sich eine LUN.