hohe Latenzzeiten mit P4500 Lefthands

pirx · Beitragvon **pirx** » 02.03.2012, 17:04

Hallo,

gegeben sei ein Cluster aus

- 6 x ESXi 4.1 (ML 580G7, 4 x 8 Kerne, 196 GB RAM, 2 x 10 GbE iSCSI NICs, keine Jumo Frames)
- 4 x Procurve 5412nl 10 GbE iSCSI Switches (2 RZs)
- 12 x HP P4500 Lefthand (je 12x 600 SAS im RAID5, zusammen im Netzwerk RAID)

Die Latenzzeiten sind über die ESXi Hosts bei durchschnittlich 15-30 ms mit Spitzen von bis zu 200 ms. Laut VMware sollte die Latenz ja eher niedriger sein. RTT zwischen Hosts und LH Storage liegt bei ~0,200ms. Auf den Hosts laufen 20 - 40 VMs, meist W2K3 und W2K8. Die CPU und RAM Auslastung ist unkritisch.

HP hat bereits über 24 Stunden ein Performance Messung auf den Lefthands durchgeführt, dort ist die Latenz im Durchschnitt 3 ms. Switch und Lefthand Firmware ist auf dem aktuellen Stand. Ein Cluster mit einem EVA6000 SAN zeigt deutlich geringere Latenzen von unter 10 ms und das bei älterer Hardware.

Hat jemand Vergleichswerte für einen vergleichbaren Cluster, oder Tipps an welcher Stelle ich als nächstes schauen sollte?

JMcClane · Beitragvon **JMcClane** » 02.03.2012, 18:58

Ich kann dir höchstens Vergleichswerte geben für einen iSCSI Cluster der vielleicht 1/20 von dem geschätzten 500k€ Cluster gekostet hat. Der besteht aus 2 Datacore Hosts mit 2 ESX, 2 * 1GB und läuft über 2 HP Procurve 29XX. Aber selbst da habe ich nicht so hohe Latenzen. Bei der Ausstattung muss etwas falsch konfiguriert sein. Ich habe noch keine Lefthand in der Hand gehabt, aber ich vermute die Probleme in dem Umfeld, sofern das Netzwerk ordentlich verkabelt und VLans passend konfiguriert worden sind.
Wie muss ich mir denn den Storage Cluster vorstellen aus 12 Geräten mit Netzwerkraid? Ist das dann ein großer Storagepool aus dem ich mir die LUNs schnitze?

Beitragvon **irix** » 02.03.2012, 19:09

Der Peter aus Rosenheim muesste was zu diesem Thema sagen koennen weil da muss die Lefthand sogut laufen das er Zeit hat sich mit Windows 8 zubeschaeftigen

Der Georg hat auch einen Lefthand Multi SiteCluster seit laengerem im Einsatz.

Also auf einem Host mit 34 aktiven VMs welcher per 2x10GbE am SAN haengt zeigt die vSphere eigene "Datastore" 24h Statistik als max. Latenz 7ms. Allerdings kein Lefthand und auch nur "lokal" das heist ohne Replikation.

Gruss
Joerg

pirx · Beitragvon **pirx** » 02.03.2012, 21:15

JMcClane hat geschrieben:Wie muss ich mir denn den Storage Cluster vorstellen aus 12 Geräten mit Netzwerkraid? Ist das dann ein großer Storagepool aus dem ich mir die LUNs schnitze?

Im Endeffekt ja. Man sieht im Cluster Manager der Lefthands den Speicher und erzeugt daraus dann die LUNs. Die sind bei uns 2 TB groß. In Wirklichkeit werden dann aber 4 TB belegt, weil die Lefthand ja ein RAID1 zwischen den beiden RZs machten Die RZs sind 500m entfernt und es sind Singlemode Fasern verlegt (an der Stelle gab es mal Problem, die sind aber behoben).

Der Support hat sich das auch alles schon mal angeschaut, aber ist auch zu keinem Schluss bisher gekommen.

Edit:
Ich muss noch dazu sagen, dass die Performance Charts für die _Datastores_ durchaus Latenzen von nur 5 - 10 ms im Durchschnitt anzeigen. Die Disk Charts liegen bei 20 - 30 ms. Mit esxtop habe ich auch Werte von > 15 ms gesehen.

bla!zilla · Beitragvon **bla!zilla** » 03.03.2012, 11:33

Ist das ein echtes Multisite Cluster oder habt ihr ein Standard-Cluster auseinandergezogen (auch das geht...)??

Wie sieht es mit VLANs, MSTP/ RSTP, Flow-Control aus? Ich könnte mir evtl. etwas in RIchtung Queue Depth vorstellen. Hast du mal beobachtet wie viele IOs in der Queue sind? Gibt es eine positive Korrelation zwischen Latency und IOPS, also hohe Latency bei vielen IOPS?

pirx · Beitragvon **pirx** » 03.03.2012, 12:12

Was verstehst du unter "echtes Multisite Cluster"? Die LHs sind auf 2 Lokationen verteilt, es steht insg. die Hälfte des Speichers zu Verfügung und der Cluster Manager / Fail Over Manager regelt das Quorum.

Flow Control auf den Switch Ports der Lefthands ist aktiv, außerdem bei den ESX Hosts wo es geht. Die Qlogic NICs bieten mit dem aktuellen Treiber keine Möglichkeit Flow Control zu aktivieren, bei den Emulex Karten ist es aktiv. Auf den Trunk Ports zwischen den Switches ist es deaktiviert. Das iSCSI Netz ist vom restlichen Netz komplett getrennt, VLANs werden dort AFAIK nicht verwendet. Zu STP muss ich schauen, aktiv ist es natürlich, es wurde auch im Rahmen des Projekts vom Lieferanten eingerichtet.

Ich werde am Mo. einige Graphen verlinken. Was ist an der Stelle die richtige Chart, die Disk oder Datastore? Bin neu in dem Projekt, bisher wird immer auf die Graphen der Disk Performance Chart Bezug genommen.

bla!zilla · Beitragvon **bla!zilla** » 03.03.2012, 12:32

Es gibt Standard- und Multisite Cluster bei der P4000. Man kann auch ein Standard-Cluster auf zwei RZs verteilen, in dem man die Reihenfolge, in der man die Nodes ins Cluster hebt, beachtet.

pirx · Beitragvon **pirx** » 04.03.2012, 14:10

bla!zilla hat geschrieben:Es gibt Standard- und Multisite Cluster bei der P4000. Man kann auch ein Standard-Cluster auf zwei RZs verteilen, in dem man die Reihenfolge, in der man die Nodes ins Cluster hebt, beachtet.

Ich habe mich mit dem Unterschied noch nicht tief gehend beschäftigt, aber im "Running VMware vSphere 4 on HP LeftHand P4000 SAN Solutions" finde ich dazu folgendes:

Code: Alles auswählen

HP P4000 Multi-Site SANs and vSphere 4

HP P4000 Multi-Site SANs enable vSphere 4 clusters to be stretched across locations to provide multi-site VMotion, HA (High Availability), DRS (Distributed Resource Scheduler), and FT. Multi-Site SAN configurations use synchronous replication in the underlying SAN to create a single SAN that spans both location. This allows vSphere 4 clusters to act exactly the same way they do when physically located in a single location. When connecting ESX or ESXi hosts to a Multi-Site SAN each of the virtual IP addresses (VIPs) of the SAN from each site should be listed in the discovery list of the ESX or ESXi software initiator. Path selection policy for Multi-Site SAN volumes should be set to fixed (default).

Das klingt für mich nach stretched cluster. Wir haben ein Subnetz in dem sich alle Interfaces befinden.

bla!zilla · Beitragvon **bla!zilla** » 04.03.2012, 18:47

Das klingt für mich nach stretched cluster. Wir haben ein Subnetz in dem sich alle Interfaces befinden.

Kann, muss nicht. Schau bitte in die CMC. Wenn du auf das Cluster klickst kannst du auf der rechten Seite unter "Details" den Clustertyp sehen.

pirx · Beitragvon **pirx** » 04.03.2012, 19:03

bla!zilla hat geschrieben:
Das klingt für mich nach stretched cluster. Wir haben ein Subnetz in dem sich alle Interfaces befinden.

Kann, muss nicht. Schau bitte in die CMC. Wenn du auf das Cluster klickst kannst du auf der rechten Seite unter "Details" den Clustertyp sehen.

Es ist ein Multi-Site Cluster. Aus dem HP Dokument sticht der Unterschied für mich nicht so recht hervor.

bla!zilla · Beitragvon **bla!zilla** » 04.03.2012, 19:17

Gibt es eine positive Korrelation zwischen Latency und IOPS, also hohe Latency bei vielen IOPS?

pirx · Beitragvon **pirx** » 05.03.2012, 11:10

Ich habe mal 4 Graphen hochgeladen.

Die ersten zwei Graphen sind von einem Host der an einem FC SAN mit EVA hängt (DL380G6, 98 GB RAM, 26 laufende VMs).

http://www.abload.de/img/eva_host34_datastorelfccz.png
http://www.abload.de/img/eva_host34_diskggfm8.png

Die nächsten Graphen zeigen einen Host der an der iSCSI Lefthand hängt (DL580G7, 196 GB RAM, 38 laufende VMs).

http://www.abload.de/img/lefthand_host02_datascefkq.png
http://www.abload.de/img/lefthand_host02_disk0pfa1.png

Die LUNs/Datastores auf der EVA wurden noch mit 1 TB Größe angelegt, auf der Lefthand mit 2 TB.

Ich bin mir immer noch nicht sicher, ob es wirklich ein Performance Problem gibt. Die EVA Farm wird immer als Vergeich hergenommen. Da ich erst seit kurzem involviert bin, fehlt mir etwas die Vorgeschichte.

bla!zilla · Beitragvon **bla!zilla** » 05.03.2012, 11:23

Also auf den ersten Blick ist alles okay. Die hohen Latenzen treten bei hohem IO auf. Zudem geht durch die P4000 deutlich mehr durch, als durch die EVA - die lümmelt ja quasi nur rum.

So auf den ersten Blick sehe ich keine Dinge, die mich beunruhigen würden.

pirx · Beitragvon **pirx** » 05.03.2012, 11:35

bla!zilla hat geschrieben:Also auf den ersten Blick ist alles okay. Die hohen Latenzen treten bei hohem IO auf. Zudem geht durch die P4000 deutlich mehr durch, als durch die EVA - die lümmelt ja quasi nur rum.

So auf den ersten Blick sehe ich keine Dinge, die mich beunruhigen würden.

Sehe ich eigentlich ähnlich. Auf den 2 TB Datastores der LHs liegen auch deutlich mehr VMs als eigentlich empfohlen werden. Es gibt dort kaum ein DS das weniger als 15 VMs hat.

In dem Bereich (locking) gab es doch in vSphere 5 auch Verbesserungen, vlt. ein guter Grund demnächst von 4.1 weg zu gehen.

Beitragvon **irix** » 05.03.2012, 12:01

pirx hat geschrieben:
bla!zilla hat geschrieben:Also auf den ersten Blick ist alles okay. Die hohen Latenzen treten bei hohem IO auf. Zudem geht durch die P4000 deutlich mehr durch, als durch die EVA - die lümmelt ja quasi nur rum.

So auf den ersten Blick sehe ich keine Dinge, die mich beunruhigen würden.

Sehe ich eigentlich ähnlich. Auf den 2 TB Datastores der LHs liegen auch deutlich mehr VMs als eigentlich empfohlen werden. Es gibt dort kaum ein DS das weniger als 15 VMs hat.

In dem Bereich (locking) gab es doch in vSphere 5 auch Verbesserungen, vlt. ein guter Grund demnächst von 4.1 weg zu gehen.

Also das die EVA eigentlich weniger tut ist mir anhand der Graphen auch aufgefallen. Hinzu kommt das ich Glaube ihr sucht Probleme wo garkeine sind

Wenn ich die Aussage mit "Empfehlung von Anzahl VMs pro Datastore" hoere dann geht mir gleich schon das Klappmesser in der Hose auf. Hier sind deutlich mehr VMs auf einen Datastore... und der Hoechstand waren mal 53. Ich stelle es Ausserfrage das man es Verteilen sollte.... aber dazu muss man das Verhalten der VM kennen.

Ich glaube du wolltest SCSI Reserveration ansprechen mit dem Locking.... wenn ihr keine lfd. Snaps habt bzw. Thinprovisioning auf VMware Ebene einsetzt dann ist das alles kein Thema. Ja es gab Verbesserungen und ja es gibt auch VAAI und "Hardware Assisted Locking".

Gruss
Joerg

bla!zilla · Beitragvon **bla!zilla** » 05.03.2012, 12:13

Ich glaube du wolltest SCSI Reserveration ansprechen mit dem Locking....

Die P4000 können VAAI und das sollte auch aktiv sein (sofern SAN/iQ in passender Version installiert ist). Dank ATS sehe ich SCSI Reservations nicht mehr als Problem an.

Nukite2007 · Beitragvon **Nukite2007** » 05.03.2012, 13:09

hallo @all

habe jetzt mal bei uns wegen den Latenzzeiten nachgesehen..
Wir haben ja die Lefthand vor nicht all zu langer Zeit in Betrieb genommen.

http://s1.directupload.net/file/d/2820/a3wvj9b5_jpg.htm

VG
Peter

pirx · Beitragvon **pirx** » 05.03.2012, 13:40

Hier noch ein Graph von einem Host, bei dem es größere Ausrutscher bei den LH Datastores gibt. Teilweise bis zu 500 ms und beim sanvol13 und einigen anderen DS für einige Minuten > 50 ms.

http://www.abload.de/img/lefthand_host06_datasr7f6z.png

pirx · Beitragvon **pirx** » 09.03.2012, 14:24

Ich versuche gerade noch die Latenzen an verschiedenen Stellen zu messen. Den Performance Monitor der Lefthand CMC finde ich nicht so gelungen. Dort sehe ich aber folgendes für eine LUN:

IO Latency Reads: avg. 11,3 ms
IO Latency Writes: avg. 5,0 ms

Im vCenter sehe ich für das Datastore das auf der LUN liegt

Read latency: avg. 15,1 ms
Write latency: avg. 19,5 ms

Vor allem den großen Unterschied bei Write IOs kann ich mir nicht erklären. Woher kommen die Unterschiede? iSCSI Switches, ESXi NICs, VMFS? Überhaupt sehen die Graphen im Performance Monitor der Lefthand anders aus als die im vCenter. Spikes oder Perioden mit höherer Latenz fehlen teilweise in einem der Graphen.

dragoner · Beitragvon **dragoner** » 09.03.2012, 15:59

VMware-Forum

hohe Latenzzeiten mit P4500 Lefthands

hohe Latenzzeiten mit P4500 Lefthands

Wer ist online?