Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!

Linux VM HD-IO sporadisch extrem langsam ...

Moderatoren: irix, Dayworker

Member
Beiträge: 98
Registriert: 23.07.2008, 18:11

Linux VM HD-IO sporadisch extrem langsam ...

Beitragvon lynckmeister » 30.07.2015, 10:49

Hallo Forum ,

ich habe das Problem, dass seit einiger Zeit bei einer VM die Lese und Schreibzugriffe auf meine virtuelle Festplatte extrem langsam sind.

Der Servr ist ein Corei7 , mit einem HP Controller und Raid 5 unter 4 2 TB Platten. Das Raid schafft auf der ESXI VMFS Ebene so um die 70 MB/s.

Wenn meine Linux VM ( sie ist etwas älter und schon lang in Betrieb ) einige Tagegelaufen ist, sind die IO Zugriffe auf die virtuelle Festplatte extreeem langsam.

wenn ich zb mit :

time dd if=/dev/zero of=./test.txt bs=50k count=10000

ein Testfile schreibe, wird es garnicht mehr feritig, Bei kürzeren Files komm ich auf 412 bytes/s ... Im Server sehe ich keine nennenswerte Auslastung in den Diagrammen. Aber vielleicht interpretiere ich das auch nicht richtig ...
Gleichzeitig bringt der serlbse Test auf der ESXI Ebene aber volle Leistung.

Ich bräuchte mal Hilfe bei der Fehlersuche.

vielen Dank,

Filip

King of the Hill
Beiträge: 13561
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Beitragvon Dayworker » 30.07.2015, 11:42

Raid5 ist schon von Hause aus nie sehr schnell. Du sagst aber leider weder etwas dazu, ob die VM noch Snapshots mit sich rumschleppt noch ob der Write-Cache deines HP-Controllers aktiviert ist und wieviele VMs sich neben der Linux-VM noch auf dem DS rumtummeln.

Member
Beiträge: 98
Registriert: 23.07.2008, 18:11

Beitragvon lynckmeister » 30.07.2015, 12:07

Hi Dayworker,
danke für deine Antwort, also der writecache ist an , einen Snapshot hat die VM nicht. Auf dem Server laufen noch ein paar weitere VMs insgesamt 8 , die aber laut den ESXI Statistiken nicht viel traffic ( also weder Speicher IO noch RAID ) verbrauchen. Das merkwürdige ist, dass die ganzen Diagrame keine nennenswerten Ausschläge anzeigen. Daher bin ich nicht sicher, ob das überhaupt so funktioniert wie ich mir das vorstelle.
Ich habe jetzt mal die VM Hardware von V4 auf die aktuelle V9 geupdatet.. kann das was bringen ? Nach einem Neustart der VM ist sie ja eh wieder schnell ...

Member
Beiträge: 98
Registriert: 23.07.2008, 18:11

Beitragvon lynckmeister » 30.07.2015, 12:12

.. ich vermisse eine einfache Ansicht, in der ich sehen kann, welche Last gerade auf dem RAID liegt. - also wieviel MB /S schreiben oder lesen gerade alle VMs zusammen. Dann wär natürlich noch toll zu sehen wieviel Last die einzelene VM verursacht.

Wenn ich in den Diagrammen auf Datenspeicher klicke sehe ich aber nur für mein RAID Volume eine Reaktionszeit in MS, also Latenz. Gehe ich auf Festplatte sehe ich die einzelnen Platten. Da kann man sich zwar was zusammen reimen aber so einen schnellen übrblick krieg ich dadurch irgendwie nicht...

@Dayworker: Für das nächste NAS würdest du wohl eher Raid 10 empfehlen ?

Guru
Beiträge: 2731
Registriert: 23.02.2012, 12:26

Beitragvon ~thc » 30.07.2015, 12:58

Solche detaillierten Daten schaue ich mir immer in der "Disk-I/O"-Ansicht von esxtop auf der SSH-Konsole des ESXi an. Dort stehen zwar nicht die VMs, aber immerhin alle HBAs des Hosts.

Member
Beiträge: 206
Registriert: 09.09.2010, 14:12

Beitragvon Sven_B1982 » 30.07.2015, 12:59

mhm 8 VMs mit einem i7? könnte durchaus sein das es probleme mit wartezeiten auf die CPU-Zuteilung gibt und das wiederum den Zugriff auf den Controller ausbremst

Member
Beiträge: 98
Registriert: 23.07.2008, 18:11

Beitragvon lynckmeister » 30.07.2015, 13:18

@Sven_B1982:danke für den Tip, das könnte schon ein paar infos liefern... werde mir esxtop mal genauer ansehen...

Experte
Beiträge: 1823
Registriert: 04.10.2011, 14:06

Beitragvon JustMe » 30.07.2015, 18:05

Auch, wenn Du es vielleicht nicht gerne lesen magst, aber bei
Wenn meine Linux VM [...] einige Tagegelaufen ist, sind die IO Zugriffe auf die virtuelle Festplatte extreeem langsam.

waere es vielleicht nicht so ganz sinnlos, sich mal INNERHALB der VM (d.h. im Gast-OS) umzuschauen, und nicht im Hypervisor...

Trifft denn das "Problem" eine bestimmte VM, oder die anderen 7 ebenfalls; falls ja, evtl. auch noch zur selben Zeit?

Member
Beiträge: 98
Registriert: 23.07.2008, 18:11

Beitragvon lynckmeister » 30.07.2015, 20:31

@JustMe : danke für deine Gedanken, wenn es hilf lese ich jede IDee gern;)
Also in der VM schaue ich natürlich auch, aber die Auslastungsdaten mit Top und free etc geben nix her ...
ja du hast recht in einer zweiten VM habe ich heute zur Gleichen Zeit etwas ähnliches beobachtet, auch sie war auf der hw Version 4 , ich hab beide geupdated..

An was denkst du ?

King of the Hill
Beiträge: 13561
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Beitragvon Dayworker » 31.07.2015, 06:16

Ein Update der v.HW-Version bringt dir geschwindigkeitstechnisch überhaupt nichts und besonders der Wechsel von 4 auf 7 ändert grundlegende HW innerhalb einer VM. Aus diesem Grund müssen aktivierungspflichtige OS dann nach dem Einspielen der VMware-Tools auch wieder reaktiviert werden. Bei Linux betrifft dies jedoch nicht, verbessert deine Lage aber auch nicht.

Ein Raid10 in einem NAS halte ich für Verschwendung. Ein NAS kann zwar sequenziell sehr hohe Werte beim Schreiben und Lesen erreichen, nur nutzt dir das absolut rein garnichts, wenn die Zugriffe zufällig und in 4KB-Häppchen erfolgen. Genau diese wahlfreien Zugriffe sind die Regel in der Virtualisierung.

Du schriebst, "Das Raid schafft auf der ESXI VMFS Ebene so um die 70 MB/s". Ist dies ein Schreibwert oder nur der Lesewert?
Weil rein schreibtechnisch wäre das für ein Raid5 aus vermutlich nur 3 oder 4 Platten nicht so schlecht. Sollte dieser Wert jedoch nur beim Lesen erreicht werden, bremst irgendetwas dein Raid aus.

Member
Beiträge: 98
Registriert: 23.07.2008, 18:11

Beitragvon lynckmeister » 31.07.2015, 10:06

Servus Dayworker,

danke für deine Erklärungen. Wenn Raid 10 also ungeeignet ist und Raid6 langsam, was benutzt du dann , was empfiehlst du ?
Mein Raid schafft im Schreiben mit dem oben genannten DD Befehl diese Rate...

Guru
Beiträge: 2731
Registriert: 23.02.2012, 12:26

Beitragvon ~thc » 31.07.2015, 11:25

Ich möchte das alles mal etwas relativieren. Platte ist nicht gleich Platte. Controller ist nicht gleich Controller. RAID10 ist nicht per se "ungeeignet" und der Server von lynckmeister ist kein NAS.

1. Performance

Über einen gut funktionierenden 1GBit-Link lassen sich ~105 MB pro Sekunde Dauerleistung erzielen. Egal ob NAS oder lokales RAID - eine Leistung unterhalb dieses Wertes finde ich inakzeptabel. Hier mal die Werte meines Debian-Servers mit einem 4 x 2TB RAID5 an einem 3Ware/AMCC-Controller:

Code: Alles auswählen

thc@finn:/srv$ dd if=/dev/zero of=./test bs=1M count=10240
10240+0 records in
10240+0 records out
10737418240 bytes (11 GB) copied, 35.8387 s, 300 MB/s
thc@finn:/srv$ dd if=./test of=/dev/null
20971520+0 records in
20971520+0 records out
10737418240 bytes (11 GB) copied, 31.4567 s, 341 MB/s
thc@finn:/srv$ dd if=/dev/zero of=./test bs=1M count=20480
20480+0 records in
20480+0 records out
21474836480 bytes (21 GB) copied, 86.3948 s, 249 MB/s
thc@finn:/srv$ dd if=./test of=/dev/null
41943040+0 records in
41943040+0 records out
21474836480 bytes (21 GB) copied, 55.7009 s, 386 MB/s


Ich würde mir deinen Controller also noch mal genauer anschauen.

2. RAID

RAID10 zeigt die auch bei mir sichtbare "Write-Penalty" beim Schreiben von RAID5 nicht. Ob das in (d)einem Einsatzszenario einen definitive Rolle spielt, hängt von so vielen Faktoren ab, dass sich pauschal keine Aussage treffen lässt. "Langsam" ist relativ.

3. Platten

Haben deine Platten nativ 512-Byte-Sektoren? Wenn nicht, können RAID-Controller und ESXi darüber stolpern.

4. Flaschenhälse

Das du zunächst mal auf die Disk-I/O-Werte des ESXi schaust, ist nachvollziehbar. Vergiss aber andere Engpässe (Memory, CPU) nicht.

Member
Beiträge: 98
Registriert: 23.07.2008, 18:11

Beitragvon lynckmeister » 31.07.2015, 11:41

@THC :

also das ist schon ne Menge mehr.. ich hab beim schreiben tatsächlich nur 70 MB/s.
Allerdings verwende ich auch 4 Seagate Ecogreen mit nur 5400 Umdreheungen. Bei dr Produktbeschreibung steht : 4KB Sektoren mit Emulation (512e). Du meinst das ist der Grund? Kann ich da was optimieren beim ESXI, sodass er sich drauf einstellt ?

Die Platte wird hier beschrieben :

http://www.heise.de/preisvergleich/seag ... 67146.html

Experte
Beiträge: 1823
Registriert: 04.10.2011, 14:06

Beitragvon JustMe » 31.07.2015, 11:43

@lynckmeister:
Fuer mich scheint der Hinweis, dass das Problem erst nach einigen Tagen Laufzeit auftaucht, interessant.
Wenn die VM bis dahin tagelang "schnell" ist, dann geht meiner Ansicht nach diese ganze Diskussion RAID10/5/6/Controller/Plattenperformance am Thema vorbei, denn grundsaetzlich scheint ja alles zumindest in der "Anfangsphase" zufriedenstellend zu funktionieren...

Deswegen mal die konkretere Nachfrage:
Waren ALLE VMs betroffen, oder nur die (heute) beiden?
Lassen sich die Gast-OS zum Zeitpunkt des langsamen Betriebs "normal" bedienen (also z.B. ein iperf/jperf von /dev/zero (bzw. nach /dev/null) ueber's Netzwerk), oder ist die ganze VM dann langsam?

Natuerlich ist ein Parameter bs=50k beim Platten-Leistungstest nicht unbedingt sinnvoll; da sollte man eher Vielfache von 4k oder so nehmen, weil die allermeisten Gast-OS das wohl auch eher so tun.

Guru
Beiträge: 2731
Registriert: 23.02.2012, 12:26

Beitragvon ~thc » 31.07.2015, 11:45

Also ich hatte vorher genau diese Platten (1 TB Eco Green 5400 - aber mit nativen 512-Byte-Sektoren) an diesem Controller und hatte Werte zwischen 230 bis 260 MB/s. An den inneren Leistungsdaten der Platten liegt es also nicht.

Optimieren kannst du da nix:
Does current GA version of vSphere and VSAN support 512e drives?
No. 512e drives are not supported with the current versions of vSphere and VSAN due to potential performance issues when using these drives.


Quelle: Support statement for 512e and 4K Native drives for VMware vSphere and VSAN (2091600)

King of the Hill
Beiträge: 13561
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Beitragvon Dayworker » 31.07.2015, 11:51

Ein Raid10 ist per se nicht verkehrt. Wenn du aber nur das für ein Raid10 benötigte Plattenminimum von 4 zur Verfügung hast, bemerkst du keine Verbesserung. Ein Raid10 will einfach deutlich mehr Spindeln sehen und unter 8 Platten würde ich kein Raid10 einsetzen oder zumindest keines, welches nur aus HDDs besteht. SSDs sind da ein ganz anderes Kaliber, aber normale Consumer-SSDs sind aufgrund ihrer ungleichmäßigen Schreiblatenz auch keine idealen Partner für ein Raid.

Du testest deine Performance über das Script "time dd if=/dev/zero of=./test.txt bs=50k count=10000". Genau dieser bs-Wert ist in meinen Augen ungünstig, da dies weder für HDDs noch SSDs ein "runder" Wert ist. Teste doch zumindest mal mit 64K oder auch 1M und 2M. Da dürftest du ganz andere Werte sehen oder laß den bs-Wert einfach mal weg.

Member
Beiträge: 98
Registriert: 23.07.2008, 18:11

Beitragvon lynckmeister » 01.08.2015, 16:00

@thc: strange , also ich hab jetzt mal mit 1M und 2M gemessen, bei 1M komm ich auf 115 MB/s und bei 2 M nur noch auf 70MB/s...

alles jedenfalls weit weg von deinen 200-300 mb/s ... ich habe einen HP410 Controller mit WC an drin...habt ihr ne Idee woran das liegen kann ?!

@Justme: Also es trat in zwei bestimmten VMs auf bei den anderen ist mir nichts aufgefallen , ganz sicher bin ich aber grad nicht. Ich hatte auch trouble mit einem Veeam Backup job der beim drüberlaufen immer hängen geblieben ist. Ich dachte zunächst, dass der backupjob wegen der langsamen IO hängen bleibt, aber mittlerweile bin ich da nicht mehr so sicher, vielleicht hat auch der BAckupjob beim ESXI etwas verrückt?!
Jedenfalls funktioniert jetz das Backup wieder normal und die Schreibperformance ist nicht mehr so zusammen gebrochen.
Ich werds weiter beobachten, mir gehts hier natürlcih in erster Linie darum Anregungen zu sammeln woran es liegen könnte , wie man besser messen kann und was euch dazu noch so einfällt und in soweit hab ich schon ne Menge mitgenommen ;)

Guru
Beiträge: 2731
Registriert: 23.02.2012, 12:26

Beitragvon ~thc » 01.08.2015, 16:22

Abgesehen davon, dass 512e-Festplatten unter ESXi nicht unterstützt werden, vermute ich, dass die Firmware des Controllers mit solchen Festplatten auch nicht zurecht kommt.

King of the Hill
Beiträge: 13561
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Beitragvon Dayworker » 01.08.2015, 16:30

Über wieviel Controller-Cache reden wir eigentlich?
Wie ist das Cache-Verhältnis zwischen Lesen und Schreiben?
Ist die Firmware aktuell?

Unabhängig davon scheint der 410i, ausgehend von vielen Suchmaschinen-Einträgen, auch nicht der Schnellste zu sein. Eventuell hängt es auch damit zusammen, daß der Controller nicht in einem HP-Serversystem läuft und HP-Controller sind da sehr eigen. Deine Angabe von "Der Servr ist ein Corei7 , mit einem HP Controller und Raid 5 unter 4 2 TB Platten" läßt sich natürlich auch fehlinterpretieren.


Hast du rausbekommen, weshalb der Backup-Job immer hängenblieb?
Vielleicht solltest du auch mal in diese Richtung suchen.

Member
Beiträge: 98
Registriert: 23.07.2008, 18:11

Beitragvon lynckmeister » 01.08.2015, 17:21

also es ist ein Smart Array P410 BBWC mit 512 MB Cache... Die Firmware ist wohl älter 3.5.1 , ich betreibe das Ding nicht in einem HP Server... das knnte natürlich auch das Problem sein... vielleicht sollte ich den mal tauschen gegen einen der auch direkt von ESXI unterstüzt wird..... kannst du einen empfehlen ? LSI ?

King of the Hill
Beiträge: 13561
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Beitragvon Dayworker » 01.08.2015, 19:14

Ich würde erstmal die FW aktualisieren und vielleicht kommt der 410i dann auch bzw besser mit 512e-Platten klar.

Member
Beiträge: 98
Registriert: 23.07.2008, 18:11

Beitragvon lynckmeister » 02.08.2015, 08:28

@Dayworker: das stimmt sicher, aber ich habe die befürchtung, dass anschliessend mein p410 garnicht mehr funktioniert, weil evtl in neueren Firmwares er noch mehr Proliant getrimmt ist. Oder ich muss wieder meinen ESXI neu patchen und bis ich da die richtigen patchfiles habe ... urgs...

vielleicht ist es doch besser ein anderes Teil zu kaufen ...

Member
Beiträge: 98
Registriert: 23.07.2008, 18:11

Beitragvon lynckmeister » 05.08.2015, 09:48

also der Fehler ist jetzt wieder aufgetreten und ich habe jetzt bemerkt, dass das Lesen das Problem zu sein scheint. Wenn ich auf der ESXI Console

time dd if=test of=/dev/null bs=512k count=10000

einlese liest er mit 6 MB / s ... es dauert nun einige Zeit , dann erholt sich das Array und es ght wieder flott weiter... findet da eine Korrektur /Resturation des Array statt ?

Guru
Beiträge: 3081
Registriert: 27.12.2004, 22:17

Beitragvon rprengel » 05.08.2015, 09:59

lynckmeister hat geschrieben:also der Fehler ist jetzt wieder aufgetreten und ich habe jetzt bemerkt, dass das Lesen das Problem zu sein scheint. Wenn ich auf der ESXI Console

time dd if=test of=/dev/null bs=512k count=10000

einlese liest er mit 6 MB / s ... es dauert nun einige Zeit , dann erholt sich das Array und es ght wieder flott weiter... findet da eine Korrektur /Resturation des Array statt ?


Das wirst du nur durch Tools des Bios auf dem Controlesnach einem reboot sehen sofern der Controller keine Managmentkonsole hat die per IP ereichbar ist oder es Konsolentools für ESX gibt.

Gruss

Experte
Beiträge: 1006
Registriert: 30.10.2004, 12:41

Beitragvon mbreidenbach » 05.08.2015, 10:02

Konsolentools gibts von HP.

Auf ESXi Systemen die mit dem HP ESXi image installiert wurden (oder wo die entsprechenden Tools nachinstalliert wurden) kann man HPSA via CLI abfragen/bedienen. Konfiguration abfragen geht z.B. mit:

Code: Alles auswählen

~ # /opt/hp/hpssacli/bin/hpssacli ctrl all show config

Smart Array P420 in Slot 4                (sn: vorhanden)
   array A (SATA, Unused Space: 0  MB)
      logicaldrive 1 (32.0 GB, RAID 5, OK)
      logicaldrive 2 (1.3 TB, RAID 5, OK)
      logicaldrive 3 (1.3 TB, RAID 5, OK)
      physicaldrive 1I:0:5 (port 1I:box 0:bay 5, SATA, 1 TB, OK)
      physicaldrive 1I:0:6 (port 1I:box 0:bay 6, SATA, 1 TB, OK)
      physicaldrive 1I:0:7 (port 1I:box 0:bay 7, SATA, 1 TB, OK)
      physicaldrive 1I:0:8 (port 1I:box 0:bay 8, SATA, 1 TB, OK)
   SEP (Vendor ID PMCSIERA, Model SRCv8x6G) 380 (WWID: 5001438024F5668F)
~ #


Wenn da eine Platte weggeflogen ist oder ein Rebuild läuft sollte das da angezeigt werden.

Mit

Code: Alles auswählen

/opt/hp/hpssacli/bin/hpssacli ctrl all show config detail


wirds richtig geschwätzig.

(Anlegen mehrere logischen Laufwerke: mit HP ACU Offline CD booten)

Früher (so zu ESXi 4.x Zeiten) gabs in nicht-HP Servern mit den HP Tools ein Problem (kurzt nach dem Booten PSOD) das man mit kreativer Textverarbeitung in irgendwelchen Dateien beheben konnte. Mein oller unsupporteter ML110G5 mit E200 und ESXi 5.5 benimmt sich hier friedlich.


Zurück zu „vSphere 5 / ESXi 5 und 5.1“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 11 Gäste