Schlechte Performance virtueller Maschienen

S0ftt€ch · Beitragvon **S0ftt€ch** » 24.03.2014, 15:29

Hallo zusammen

Wir haben seit etwa einem Jahr Performance Problem in unserem Rechenzentrum und da HP (Hardware Lieferant) und VMware Support uns nicht weiter helfen können wende ich mich an euch in der Hoffnung dem Problem auf die Schliche zu kommen.

Ich gebe mal kurz ein paar Daten zu unserem Setup:

Bladecenter c3000 mit 3 BL460c G1 Blades und OS 5.0 U3 (getestet wurde auch 5.1 U1)
- 12 VM's (Fileserver, Active Directory, Webserver, vCenter, Abacus Tests usw.)

Storage System MSA2024 verbunden über FC Switch und FC Modulen in den Baldes
2 VDISKS
- VDISK 1 = 10x300GB SAS Platten 10k (Produktiv Storage)
- VDISK 2 = 6x500GB SAS Platten 7k (Test Storage)

Falls noch etwas fehlt liefere ich dies gern noch nach. Alle beteiligten Komponenten wurden auf den aktuellsten Stand gebracht (Firmware, Treiber, etc.)

Nun zum Problem. Das Problem ausserst sich in sehr hohen Latenzen zu gewissen Zeiten. Zu jeder Stunde (zwischen 5 und 10 nach) tretten die Latenzen auf und sind dann wieder verschwunden. Man kann dies gut mit ESXTOP beobachten. Die VM's laufen zwar weiter, allerdings werden die Kommandos in den VM's erst nach dem abklingen der Lantenzen ausgeführt. Alles was im Cache des Servers ist wird ausgeführt aber Actionen die Daten vom Storage benötigen werden zurückgestellt.

Auffallend ist auch das Praktisch alle Werte (RAM, CPU, Speicher) zu diesem Zeitpunkt markant ansteigen. Der DAVG Wert ist zu diesem Zeitpunkt zwischen 200 -400 und der VMware Support teilte uns mit das der Storage das Problem seit. HP machte eine Analyse und sagte der Storage sei nicht ausgelastet und nicht das Problem.

Wo könnte das Problem sein das zu dieser Zeit alle VM's/Host dieses Phänomen zeigen? Die VMware Kernel Commands steigen eigentlich nicht über 5, wenn der Fehler auftritt werden die Commands allerdings gequeued weil eine solche Menge auftritt.

Hat jemand eine Idee was wir noch machen können oder wo das Problem liegen könnte?

Vielen Dank für alle Antworten.

Gruss
Rico

Beitragvon **Dayworker** » 24.03.2014, 16:22

Ich würde erstmal eruieren, welche Aufgaben stündlich um 5 bis 10 nach abgearbeitet werden. Falls ihr stündliche Backup fahrt, würde ich den Zeitpunkt bei allen laufenden VMs verschieben und so dem Storage mehr Luft lassen.

S0ftt€ch · Beitragvon **S0ftt€ch** » 24.03.2014, 17:10

Hallo Dayworker

Danke für die schnelle Antwort. Das dachte ich auch schon. Aufgaben habe ich überprüft, aber zu dem Zeitpunkt sind keine Aktiv. Backup findet nur einmal in der Nacht statt. Das einzigste was mir in den Sinn kommt sind die Definitions Updates vom Kaspersky welche vom Administrationsserver gezogen werden. Das würde aber eine solche Auslastund nicht erklären da die VM's die Updates nicht gleichzeitig ziehen.

Gruss
Rico

kastlr · Beitragvon **kastlr** » 24.03.2014, 17:21

Hallo Rico,
herzlich willkommen im Forum.

Als Schuß ins Blaue würde ich mal die HP Agenten innerhalb der ESXi Installation deaktivieren.
Deren Tools sammeln ebenfalls in regelmäßigen Abständen Daten der Umgebung ein.
Und es passiert nicht gerade selten, das dabei z.B. SCSI Anfragen an alle SCSI Devices gesendet werden, diese jedoch eigentlich nur für die internen Devices bestimmt sind.

ESXi/ESX 4.1/5.x hpsa driver reports IllegalRequest messages in the VMkernel log

Eventuell kann dein Array nämlich diese Anfragen nicht sauber bearbeiten.

Dann würde ich mal die Error Counter der FC Switche (sowohl der externen als auch die im BladeCenter) zurücksetzen und dann am nächsten Tag mal prüfen, ob die Errorcounter Auffälligkeiten anzeigen.
Falls Ihr 8 GBit in Verbindung mit älteren Brocade Switchen einsetzt solltet Ihr die PortFillword Settings überprüfen.
Eine weitere Option wäre, das extended Logging auf den HBA Treibern zu aktivieren.

Weiterhin könnten folgende Links hilfreich sein.
HP Flex-10 and Flex-Fabric Supportability
March 2014 VMware FW and Software Recipe

Generell solltet Ihr erstmal in den vmkernel Logs nachsehen, was denn überhaupt zu den entsprechenden Zeiten gemeldet wird.

Damit solltet Ihr erst einmal beschäftigt sein.

Viel Erfolg,
Ralf

S0ftt€ch · Beitragvon **S0ftt€ch** » 25.03.2014, 11:50

Hallo Ralf

Danke für deine Ausführungen und Tipps. Am Brocade Switch habe ich den Error Counter einmal zurückgesetzt mit dem Ergebnis das hier keine Fehler angezeigt werden. Da wir nur mit 4 GBit Verbindung fahren kann ich die PortFillword Settings wohl ignorieren. Extended Login werde ich beim nächsten Booten der Server aktivieren da hierfür ein Reboot des Hosts notwendig ist.

Die Log Dateien sagen mir recht wenig. Hab die Logs mal hierhochgeladen.

Gruss
Rico

kastlr · Beitragvon **kastlr** » 25.03.2014, 12:07

Hallo Rico,

aus unserem Firmennetz ist der Zugriff auf Online Speicher unterbunden.
Daher kann ich mir die erst heute abend ziehen, denn auch ein Download vom Handy schlägt fehl.

Gruß,
Ralf

blue_focus · Beitragvon **blue_focus** » 25.03.2014, 13:31

Ins Blaue geschossen, hätte ich auch mal auf nen Patternstorm vom Antivirus getippt. Bist du dir sicher, dass die nicht alle Gleichzeitig zum Werken anfangen? Unser Symantec macht das nähmlich so, wenn man ihm das nicht explizit verbietet.

Ob das Diskbackend der Storage ordentlich tut lässt sich recht leicht über ein xbeliebiges Benchmarktool ermittlen. AS SSD-Benchmark mag ich recht gerne, da man hier im vergleich zum IO-Meter nichts konfigurieren muss. Die Werte sind nicht für bare Münze zu nehmen, aber man sieht schon mal, ob man es wenigstens schafft den SAN-Bus halbwegs auszunutzen (sequenzielles Schreiben mit großer Blocksize).

Was auch noch sein kann. Wie schaut es sogenannten Quickscans vom AV ausgehend aus. Das machen AVs auch ganz gerne per default Konfig.

kastlr · Beitragvon **kastlr** » 26.03.2014, 11:30

Hallo Rico,

die Logs geben nicht wirklich was her.
Es finden sich zwar zahlreiche Einträge darüber, das sich die IO latency massiv erschlechtert hat, allerdings lassen sich dafür keine Gründe feststellen.

SCSI Fehler finden sich jedenfalls so gut wie keine, und die wenigen Fehler sind auch nicht aussagekräftig.

Ohne einen vm-support wird man wahrscheinlich nicht wirklich was finden können, im Idealfall mit Performance Daten über einen Zeitraum, der das Problem enthält.

Mal ein paar grundsätzliche Fragen.

Wie groß sind die VMFS Datastores, größer als 2TB?
Wie viele vmdk's liegen denn auf eurem "Produktiv Storage"?
Welche NMP verwendet Ihr?
Wie viele Pfade existieren zu dem/den Datastore/s?
Welche HBA's setzt Ihr mit welcher Queue Depth ein?
In esxtop, im disk device view, wie sind die Werte für DQLEN, ACTV, QUED, CMDS/s und DAVG wenn das Problem auftritt?

Ich würde den esxtop Intervall auf das Minimum von 2 Sekunden runterdrehen, um eventuell eine RampUp Phase beobachten zu können.

Hier noch ein paar Artikel, die zu einigen Meldungen in den vmkernel.log passen könnten.

vSphere 5.x hosts are unable to see logical volumes larger than 2TB on some HP RAID controllers

HP Integrated Lights-Out 2 (iLO 2) Featuring iLO Advanced - iLO 2 Becomes Unresponsive After Receiving a Frame with Ethernet Type 0x8874

Gruß,
Ralf

S0ftt€ch · Beitragvon **S0ftt€ch** » 26.03.2014, 12:04

Hallo Ralf

Vielen Dank für deine Hilfe.

Hab hier mal die Antworten zu deinen Fragen:

1. Wie groß sind die VMFS Datastores, größer als 2TB?
Wir haben 2 VMFS Datastores auf der SAN. Beide sind VMFS5 konvertiert. Der Produktiv Datastore ist 3TB gross und der Test Datastore 2TB.

2. Wie viele vmdk's liegen denn auf eurem "Produktiv Storage"?
Mit VMDK's meinst du bestimmt die Anzahl der VM's?! Also es laufen 12 VM's auf dem Storage (RAID5, 11x300GB 10k SAS). Auf dem langsamen Test Storage (RAID5 5x500GB 7k SAS) sind es 4.

3. Welche NMP verwendet Ihr?
Round Robin

4. Wie viele Pfade existieren zu dem/den Datastore/s?
2 Pfade für jeden Host, also 6. Also MSA hat 2 FC Anschlüsse zum FC Switch und von dort je ein FC Kabel pro Host über welchem beide Datastores jeweils gemapped werden.

5.Welche HBA's setzt Ihr mit welcher Queue Depth ein?
Wir haben QLogic QMH2462 4GB FC HBA's. Verwendet wird aber nur ein Port. Queue Depth ist auf 64 im Treiber und im vCenter auf dem Host eingestellt (disk.schednumreqoutstanding).

6. n esxtop, im disk device view, wie sind die Werte für DQLEN, ACTV, QUED, CMDS/s und DAVG wenn das Problem auftritt?
Ist wohl besser wenn ich ein Foto hoch lade. Hiersiehst du die Auslastung.
Das sind die Ansichten von allen 3 Hosts. Zu Spitzenzeiten werden die Anfragen sogar in die QUED verlagert weil es derart viele sind. Im Leistungsdiagramm sieht man zudem das alle Werte sich markant erhöhen (CPU, RAM, HDD)

CMD's sind verhältnismässig wenige vorhanden. Komisch ist auch das der MBRE und MBWR Wert nicht wirklich hoch ist.

Habe noch einen Test mit VMware I/O Analyser gemacht und hier erreiche ich wesentlich höhere IOPS und MBRE und MBWR Werte und habe keine Latenzen.

Kann man irgendwie analysieren wo die hohen ACTV Anfragen zu dem Zeitpunkt her kommen?

Gruss
Rico

kastlr · Beitragvon **kastlr** » 26.03.2014, 13:34

Hallo Rico,

Ich kenne die HP MSA2024 nicht und kann Sie auch nicht in der Liste der von VMware supporteten Arrays finden, aber das mal nur am Rande.
VMware Compatibility Guide -Storage/SAN-

Laut deinen Screenshoots ist auf beiden LUN's nicht wirklich was los, allerdings kann ich nicht beurteilen, ob die Screenshots zeitgleich von allen drei ESXi Server erstellt wurden oder nicht.
Die HBA Queue ist auf den Screenshots auch nie vollständig verwendet, es könnten also durchaus noch mehr IO's zeitgleich zum Array gesendet werden.

Laut deiner Aussage erfolgt das ja auch zu Spitzenzeiten, und genau dafür ist eine Queue dann auch da.
Solange sie nicht regelmäßig volläuft (größer 50%) ist das kein Problem.

Ob das Array diese dann entsprechend bedienen könnte steht aber auf einem anderem Blatt.

Was allerdings auffällt ist das der Write Anteil in deinen Screenshots fast immer deutlich höher ist als der Read Anteil.
Je nach Array Konfiguration (Cache, RAID Protection) kann eine hohe Anzahl kleiner Writes ein echtes Problem werden.
Zwar landen die üblicherweise im Cache und werden daher eigentlich extrem schnell bedient, aber das scheint in eurem Fall nicht zuzutreffen.
Kann daran liegen, das eure Cache z.B. 32 oder 64 kB Blöcke bereitstellt, aber kleinere IO's belegen halt trotzdem immer einen Cache Slot.
Somit ist auch ein großer Cache eventuell ganz schnell aus dem Spiel.

Viele kleine IO's erklären auch die niedrigen Transferraten, denn es müssen halt verhältnismäßig wenige Daten transferiert werden.

Du kannst dir die Verursacher der IO's auch in esxtop anzeigen lassen, wechsel einfach in den virtual Disk View.
Und da wirst du dann auch die Anzahl der vmdks sehen können, denn meine Frage bezog sich eben nicht auf die Anzahl der VM's.
Die hattest du ja schon in deinem erstem Thread beantwortet.

Gruß,
Ralf

S0ftt€ch · Beitragvon **S0ftt€ch** » 26.03.2014, 15:26

Hallo Ralf

Also MSA2024 ist das Chassis. Es müsste natürlich MSA2324fc heissen. Das ist der Controller und der ist in der VMware supporteten Array Liste zu finden. :-)

Hier noch die Anzahl der VMDK's: 21

Die Blockgrösse auf dem Storage ist auf 64k eingestellt und Cache Einstellung Write Back.

Gruss
Rico

kastlr · Beitragvon **kastlr** » 26.03.2014, 21:23

Hallo Rico,

jetzt muss ich doch mal nachfragen.

Wenn du mit IO Meter testest hast du sicherlich ganz andere Werte, aber dabei tritt das Problem wirklich nicht auf?
Wie haben sich denn die 12 VM's während eurer IO Meter Tests verhalten, waren die durch die zusätzliche Last beeinträchtigt?

Wie genau äußert sich denn euer Problem, sind die 12 VM's in diesen Zeiten extrem langsam oder sind nur diese Meldungen in den Logs?

Gruß,
Ralf

S0ftt€ch · Beitragvon **S0ftt€ch** » 27.03.2014, 08:58

Hallo Ralf

Genau, die Werte die ich mit dem IO Analyser erreiche sind bei weitem höher. Ich stelle beim durchführen der Tests auch keine Latenz fest. Alles läuft normal ohne Probleme.

Wenn das Problem auftritt, ist es in allen VM's spürbar. Anmeldevorgänge sind währenddessen nicht möglich (bis zu 5min), wenn man angemeldet ist und auf dem Server arbeitet sind auf einmal keine Aktionen welche auf den Storage zugreifen mehr möglich. Das Öffnen des Arbeitsplatzes dauert allein schon 3 min (jeder Klick eine Minute). Funktionen welche einmal in den Cache des Servers geladen wurden gehen etwas zügiger.

Gruss
Rico

Supi · Beitragvon **Supi** » 27.03.2014, 09:25

Sind hier zu viele SCSI reservation denkbar?
http://kb.vmware.com/selfservice/micros ... Id=1002293
Stecke da nicht so drin, aber dazu folgenden Denkanstoss:

Nur 2 Lun (Vidsk), sprich je Controller 1 Lun (Dual Controller angenommen). Auf der einen (Produktiv)Lun laufen alle I/Os.

Edit: Wieviel Volumes sind denn auf der Prod-Vdisk?

Bei Raid-5 kann da ein größerer Schreibprozess alles nach unten ziehen, damit merkst du das dann halt auch in allen VM's.
Lässt die höhere I/O Last nicht einer/meheren VM zuordnen über das Vcenter? Dein Bild von Dir zeigt ja nur die LUN und nicht die VM(s), die den Traffic generiert.
Bei nur 2 LUN's ist das wenig zielführend.

S0ftt€ch · Beitragvon **S0ftt€ch** » 27.03.2014, 09:48

Hallo Stefan

Also es sind 2 Lun auf der MSA mit je einem Volume. Lun 1 hat das Produktive Volume und Lun 2 das Test Volume. Beide Volume sind über einen Controller verbunden (haben keine Dual Controller Config).

Gruss
Rico

pirx · Beitragvon **pirx** » 27.03.2014, 10:50

Ich will den Thread nicht entführen, aber ich habe gerade auch meine liebe Mühe reale Probleme im Storage Bereich mit Iometer nachzustellen.

Bei uns ist es ein Konstrukt aus 2 HP EVAs die über eine EMC VPLEX den Speicher als sync. Spiegel zur Verfügung stellen. Im Tagesbetrieb treten immer wieder Latenzen >30ms auf. Recht einfach nachvollziehen kann ich es über ein Installation einer W2K8 VM, bei uns wird dies über das MS WDT durchgeführt wird. Dabei werden Daten vom Deployment Server auf die Ziel VM kopiert. Das dauert in den meisten Clustern nur 2 Min, in dem EVA/VPLEX Cluster ~10Min. mit max. 200 write IOPS. Vergleiche ich unterschiedliche Iometer Tests (Max Write IOPS, Max seq IO, real world) zwischen EVA mit und ohne VPLEX sind die Ergebnisse praktisch identisch. Teste ich ein Installation, sieht man sofort einen Unterschied von Faktor 4-5 (gleiche VM, gleiche Netzanbindung, nur anderes DS).

Ich kann nicht nachvollziehen welches IO Pattern für diese Unterschiede sorgt.

Supi · Beitragvon **Supi** » 27.03.2014, 11:18

S0ftt€ch hat geschrieben:Hallo Stefan

Also es sind 2 Lun auf der MSA mit je einem Volume. Lun 1 hat das Produktive Volume und Lun 2 das Test Volume. Beide Volume sind über einen Controller verbunden (haben keine Dual Controller Config).

Gruss
Rico

Also verteilt sich die Last beider Vdisk und nach deiner Aussage in Summe 2 Volumes auf einen Controller? Unglücklich. Wieso nur 1 Controller?

Da heißt aber auch, schauen, was in den Zeiten auf den Testsystem in den Problem-Zeiten gemacht wird.
Ich kann nich sagen, wie der Controller mit 2 R5 parallel skaliert, aber wenn das R5 auf den 7.2K Platten am arbeiten ist, müssen dieso I/Os ja erst mal abgearbeitet worden sein.

Und die vielen Pfade nützen so leider auch nix, da sich alle 3 Blades bei dem Controller anmelden, ihre I/Os abzuarbeiten.
Eine richtige Lastverteilung kann da nur begrenzt stattfinden.
Ebenso spricht wohl noch mehr für die SCSI Reservation Problematik meiner Meinnung nach.
Aber da gibt es sicher besser HP Spezis als mich . (hab ja auch nur Dell im Einsatz

)

kastlr · Beitragvon **kastlr** » 27.03.2014, 13:14

Hallo Rico,

also fassen wir mal zusammen.

IO Meter Tests zeigen, dass das Array durchaus eine deutlich höhere Last mit geringer Latenz bedienen kann
wenn das Problem zuschlägt, betrifft es alle VM's auf dem produktivem Storage, egal auf welchem ESXi Server sie gerade betrieben werden
wenn das Problem auftritt, seht Ihr hohe Latenzen für die IO's und die HBA Queue läuft voll

Habe ich hier etwas vergessen?

Punkt 1 bestätigt die Aussage des HP Supports, dass sich das Array eigentlich langweilt.
Aber trotzdem sind da die Hinweise auf hohe Latenzen.

Setzt Ihr vielleicht

VAAI
SIOC
Shares & Reservations oder ähnliches

ein?

Falls ja, würde ich das zumindest temporär mal deaktivieren, um festzustellen, ob sich das Verhalten ändert.
Gleiches gilt für disk.schednumreqoutstanding, das kann auch Auswirkungen auf des Problem haben.

Ansonsten würde ich mal von allen drei ESXi Servern ein vm-support inklusive Performance Daten ziehen.
Collecting performance data for ESXi5.x hosts via the vSphere client

Natürlich sollte das dann einen Zeitraum abdecken, in der das Problem aufgetreten ist.
Deshalb wirst du wohl die Collection Duration anpassen müssen, dafür brauchst du die vCenter und Client Information nicht zu sammeln.

Allerdings können die Files ziemlich groß werden, also solltest du darauf achten, das dein Ziellaufwerk über ausreichend frei Diskkapazität verfügt.

Gruß,
Ralf

kastlr · Beitragvon **kastlr** » 27.03.2014, 13:24

Hallo pirx,

meiner Meinung nach ist es sinnvoll, dafür enen neuen Thread zu öffnen.

VPLEX erhöht die Sicherheit, und Sicherheit kostet immer Performance.
Schließlich müssen Writes von der VPLEX an zwei Arrays gesendet werden und erst wenn beide den IO bestätigt haben, erhält der Host sein Acknowledge.
Nichts wird daduch schneller das man es zweimal macht.

Dann kann das SAN Design ebenfalls von Bedeutung sein, setzt Ihr z.B. Cross Site Zoning ein oder nicht.
Wie hoch ist die Distanz zwischen den beiden Standorten?
Welche VMware NMP setzt ihr ein?
Verwendet Ihr Affinity Rules, so das alle VM's auf einem distributed Volume bevorzugt innerhalb eines Standortes betrieben werden?

Aus meiner Sicht viel zu viele Fragen und Möglichkeiten, um diese in einem fremden Thread zu behandeln.

Gruß,
Ralf

kastlr · Beitragvon **kastlr** » 27.03.2014, 17:12

Hallo pirx,

du kannst ja die VM bei der Windows Installation mal mit vscsiStats überwachen lassen.
Das Tool sammelt alle möglichen Informationen bezüglich

IO Anzahl
Anzahl Read IO's
Anzahl Write IO's
IO Size
Random or Sequentiell IO's
usw

ein.
Diese Informationen kannst du dann für deine IO Meter Tests verwenden.

Gruß,
Ralf

S0ftt€ch · Beitragvon **S0ftt€ch** » 01.04.2014, 09:29

Hallo @all

Wir haben letzte Woche noch einige Analysen an den Systemen durchgeführt. Wir konnten dabei feststellen, dass das verwendete AntiVirus (Kaspersky Anti Virus 8 für Server) die hohen Latenzen verursacht.

Danke @blue_focus

Zu dem Zeitpunkt wo der Fehler auftritt aktualisiert der AntiVirus die Datenbanken (parallel auf 7-8 VM's). Zudem ist noch ein Fehler im AntiVirus vorhanden welchen wir noch beheben müssen (der AntiVirus ignoriert die Einstellungen vom Kaspersky Management Server).

Für uns stellen sich nun noch folgende Fragen: Wie können wir diesen Engpass verhindern? Haben wir einen Fehler im Design? Wie können wir die Kennzahlen ermitteln wann unserer Storage System an die Auslastungsgrenze gelangt?

Hast du vielleicht ein paar Tipps dazu wie wir dies Berechnen oder Analysieren können?

Gruss
Rico

Beitragvon **Dayworker** » 02.04.2014, 18:40

S0ftt€ch hat geschrieben:Zudem ist noch ein Fehler im AntiVirus vorhanden welchen wir noch beheben müssen (der AntiVirus ignoriert die Einstellungen vom Kaspersky Management Server).

Dieses Problem haben wir recht einfach gelöst und den Hersteller gewechselt. Wir hatten damit öfter mal BSODs auf den Clients oder die Signatur-Updates scheiterten ohne ersichtlichen Grund.

S0ftt€ch · Beitragvon **S0ftt€ch** » 03.04.2014, 08:01

Der Kaspersky (und das Backup) ist glaub nur die Spitze des Problems. Ich habe mal noch vCops installiert und wenn ich mir diese Grafik anschaue, dann liegt das Problem eher bei den Einstellungen des Controllers/Volumes.

Gruss
Rico

Beitragvon **Dayworker** » 03.04.2014, 18:35

Hmm. Wenn ihr kein Blade samt Storage hättet, würde aufgrund das beim Lesen im Gegensatz zum Schreiben sowohl IO- als auch Durchsatz-technisch kaum Auslastung erreicht wird, entweder der BBU-Cache (so er denn konfigurierbar ist und sich das Cache-Verhältnis zwischen Lesen und Schreiben beeinflussen läßt) ungünstig eingestellt sein oder der BBU-Cache ist aufgrund zu schwacher BBU-Kapazität überhaupt nicht mehr aktiv. Aber wie gesagt, du hast ja ein Blade samt Storage.

Was ist mit den für "kastlr" zu sammelnden Informationen?

VMware-Forum

Schlechte Performance virtueller Maschienen

Schlechte Performance virtueller Maschienen

Wer ist online?