ESXI Host wird immer langsamer

H-net · Beitragvon **H-net** » 23.04.2016, 20:05

hallo,

ich habe mir vor kurzem einen neuen home-server zugelegt. darauf läuft: VMware ESXi 6.0.0 Update 1 build-3029758
hardware:

Code: Alles auswählen

Controller:2x LSI 9260-8i (Always WRITE BACK):
    ein array raid 5 mit 5 HGST-SAS-Platten(1 monat alt)
    ein array raid 1 mit 2 HGST-SATA-Platten(1 monat alt)
Mainbard: Intel S5500BC mit 2x XEON 5056 (6kern 2,6ghz) [offitiel nur bis esxi 5.5u3 supported]
Arbeitsspeicher: 32G

das komische ist, dass je länger er läuft desto langsamer wird er.
direkt nach dem booten habe ich lesegeschwindigkeiten von ca 600-700mb/s.
wenn der host dann einige stunden gelaufen ist, geht die lesegeschwindigkeit runter bis auf 2mb/s!!!!! (hdparm -t /dev/sda in den vm´s)
wenn ich hdparm mehrmals ausführe wird es langsam wieder schneller bis ca 25mb/s. (er wird praktisch im leerlauf immer langsamer)
darauf hin habe ich ich auch auf dem host angefangen dateien hin und her zu kopieren. hier habe ich auf beiden festplatten arrays (die ja auch auf 2 verschiedenen controllern laufen) ca die gleichen geschwindigkeiten (SATA etwas langsamer).

das komische ist, dass es manchmal auch passiert dass es plötzlich wieder schneller wird (also hdparm wieder lesegeschwindigkeiten von 200mb pro sekunde erreicht). habe das gefühl dass es nach dem neustart aller vms wieder schneller geht, aber nicht so schnell wie direkt nach dem booten des hosts.

in der vmkernel.log finde ich solche sachen:

Code: Alles auswählen

2016-04-21T06:49:06.916Z cpu5:32868)NMP: nmp_ThrottleLogForDevice:3178: Cmd 0x1a (0x439dc03113c0, 0) to dev "naa.600605b0016da0201e76182e2a7f7b1d" on path "vmhba3:C2:T1:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE
2016-04-21T06:49:06.941Z cpu5:32868)ScsiDeviceIO: 2645: Cmd(0x439dc03113c0) 0x1a, CmdSN 0xe157 from world 0 to dev "naa.600605b0016da0201e76182e2a7f7b1d" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.
2016-04-21T06:49:06.943Z cpu11:33085)ScsiDeviceIO: 2645: Cmd(0x439dc03113c0) 0x1a, CmdSN 0xe162 from world 0 to dev "naa.600605b0016da0201e75fd1b264f78ef" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.
2016-04-21T06:49:06.944Z cpu11:33085)NMP: nmp_ThrottleLogForDevice:3178: Cmd 0x85 (0x439dc03113c0, 34423) to dev "naa.600605b0016da0201e75fd1b264f78ef" on path "vmhba2:C2:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE
2016-04-21T16:12:14.056Z cpu22:834457)User: 3816: wantCoreDump:sfcb-LSIESG_SMI signal:6 exitCode:0 coredump:disabled
2016-04-21T19:06:09.987Z cpu3:841243)User: 3816: wantCoreDump:sfcb-hhrc signal:6 exitCode:0 coredump:disabled
2016-04-23T09:19:43.005Z cpu4:33762)<6>megasas_service_aen[1]: aen received
2016-04-23T09:19:43.005Z cpu10:33235)<6>megasas_hotplug_work[1]: event code 0x0041
2016-04-23T09:19:43.014Z cpu10:33235)<6>megasas_hotplug_work[1]: aen registered

und in der vmwarning.log sowas:

Code: Alles auswählen

2016-03-15T21:04:19.537Z cpu13:33455)WARNING: LinScsi: SCSILinuxQueueCommand:1252: queuecommand failed with status = 0x1055 Host Busy vmhba2:2:0:0 (driver name: LSI Logic SAS based MegaRAID
2016-03-16T10:24:20.734Z cpu13:32859)WARNING: SP: 1523: Smashing barrier dealloc-Barrier.
2016-03-16T10:54:43.613Z cpu7:37014)WARNING: ScsiDeviceIO: 1243: Device naa.600605b0016da0201e75fd1b264f78ef performance has deteriorated. I/O latency increased from average value of 126 microseconds to 30749 microseconds

nützliche informationen sollten einem ja diese "Valid sense data: 0x5 0x20 0x0" geben. aber das sagt mir nur das es ein festplatten overload ist. (aber der server hat absolut NICHTS zu tun).
man sieht auch das diese fehlermeldung von beiden arrays kommt. (also ist doch ein hardware-fehler relativ unwahrscheinlich oder?)
treiber für die controller sind standard (also noch nicht der neuste):

Code: Alles auswählen

scsi-megaraid-sas 6.603.55.00-2vmw.600.0.0.2494585 VMware VMwareCertified 2016-03-15

mittlerweile ist es auch schon vorgekommen das in einer vm eine lesegeschwindigkeit von 30mb/s war, und in einer anderen VM 450mb/s und auf dem host nur ca 180mb/s.(WIE KANN DAS AUF DEM GLEICHEN ARRAY MÖGLICH SEIN?)

des weiteren ist mir auch aufgefallen dass in tty0 (also hauptkonsole der vm´s) manchmal dinge solcher art stehen:

Code: Alles auswählen

BUG: soft lockup - CPU#1 stuck for 22s (in irgendeinem thread, z.b. samba)

die vm´s laufen unter debian 8.4

ich wäre um jeden ratschlag dankbar!
ich weis nicht mehr was ich tun soll um rauszufinden was da faul ist.

das einzige was nicht mehr offiziell von esxi6 unterstützt wird ist da mainboard, (das wurde blos bis 5.5 unterstützt), kann es daran liegen?

(nebenbei: die übertragung von dateien übers netzwerk von VM zu VM geht auch nur mit etwas mehr als 100Mbit (ca 16mb/s auch wenn die platten zu dem zeitpunkt noch schnell sind) obwohl ich vmxnet3 (10gbit) karten habe )

ICH BITTE UM HILFE!
falls hier jemand beruflich esxi-spetialist ist, wäre ich auch gerne bereit für hilfe zu zahlen(ICH BIN AM VERZWEIFELN)

mfg
H-net
(entschuldigung für die rechtschreibung)

~thc · Beitragvon **~thc** » 23.04.2016, 20:44

Meine Konfiguration unter 5.5U3 zum Vergleich:

Code: Alles auswählen

Controller: LSI 9260-4i (Always WRITE BACK):
    ein array raid 10 mit 4 SAS-Platten
Mainbard: Intel S5500BC mit 2x XEON E5630 (2,4ghz)
Arbeitsspeicher: 32G

Die Debian-8.4-VM (Haupt-Fileserver) läuft ohne Probleme.

Supi · Beitragvon **Supi** » 24.04.2016, 09:41

Hallo H-net,

Zuerst willkommen hier im Forum.

Den entscheidenden Tipp hätte ich auch erst mal nicht, würde aber etwas methodischer vorgehen.
Versuche zunächst ein reproduzierbares Szenario zu schaffen.

Dann könntest du über Änderungen/Korrekturen nachdenken, um das Problem zu beheben.

Grundsätzliches:
Bei vielen SAN oder DAS wird vom gleichzeitigen Betrieb von SAS und SATA abgeraten.
Hast du mal nur mit den SATA oder nur mit dem SAS raid getestet?
Wieviele VM's mit welcher Konfiguration laufen denn auf dem esxi? Nicht das du zuviele vcpu vergeben hast und der Host das speicherinterface ausbremst.
Das gleiche gilt für den RAM der VMs. (VM haben zusammen mehr RAM als der Host)

Wenn dann mit Swapping angefangen wird, kann das auch so passieren. Gerade das es nach einem reboot erst mal ok ist, spricht in diese Richtung.

Idealerweise auch mit nur 1-2 aktiven VM testen.

Beitragvon **Dayworker** » 24.04.2016, 13:24

Dein Intel-MB unterstützt 4x PCI Express Lanes, davon sind 3x PCIe x8 Gen 2.x und 1x PCIe x4 Gen 1.x. Der LSI-Controller paßt mit "x8 lane PCI Express 2.0 Compliant" eigentlich auch dazu.

Bist du dir sicher, daß die BBU keine Probleme hat und das die Umgebungstemperatur im Server die im Manual spezifierten 44.5°C nicht überschreitet?
Hast du irgendwelche Energiesparoptionen im Recher-Bios/FW aktiviert?

H-net · Beitragvon **H-net** » 24.04.2016, 17:16

hallo,

zunächst vielen dank für die antworten.

reprodizierbar habe ich es bis jetzt noch nicht geschafft(d.h. es ist eigentlich reprodizierbar, weil es immer wieder passiert, aber ich weis nicht wann und warum -> irgendwie random(1tag) )

SATA und SAS werde ich demnächst mal getrennt testen. (wobei ich, falls das das problem ist, es von technischer seite her nicht verstehen würde, da ich ja extra 2 controller habe, ein einem SAS und am anderen SATA)

auf meinem esxi laufen nur 3 vm´s (router, vpn-gateway und datenserver). ich habe nur 30 von 32gb ram und 20 von 24cpu´s auf die vm´s verteilt, der hauptspeicher ist auch nahezu leer. (wie gesagt, das teil ist als homeserver eigentlich viel zu viel und sollte sich eigentlich dauer-langweilen).

jeder der controller hat zwar eine bbu´s, aber die sind kaputt (bzw die eine bei 2% ladung, die andere funktioniert garnicht mehr). habe bereits neue bestellt, müssten demnächst ankommen. ich glaube aber nicht dass es daran liegt, da ich ja extra auf ALWAYS WRITE BACK gestellt hab, und der MegaRaid-Storage-Manager zeigt auch an das der aktuelle zustand WRITE BACK ist. -> aber das werde ich bald wissen.

das mit den 44,5°C weis ich gerade nicht, aber werde ich nochmal überprüfen, allerdings habe ich beim "zusammen-klemptnern" schon bemerkt das die controller so richtig "schwitzen" können. deswegen habe ich zwischen den karten extra 1 steckplatz frei gelassen und direkt 2 radial lüfter davor gesetzt die die heiße luft absaugen. allerdings sind die immernoch relativ warm. (aber man kann die kühlkörper längere zeit anfassen ohne eine brandblase zu bekommen, die wirkliche temperatur kann ich momentan nicht nachschauen)

der tipp mit dem energiesparmodus ist vieleicht eine spur, ich kann mich drann erinnern das ich bei der configuration ausgewählt habe, dass er auch "runtertackten" darf um zu kühlen, allerdings wird er nicht besonders warm (da er ja nichts zu tun hat, und ich viel "liebe" in die kühlung gesteckt habe :-)

) --> das werde ich auf jeden fall ausprobieren, sobald ich zuhause bin.(danke, daran habe ich garnicht mehr gedacht)

für wie warscheinlich haltet ihr es, dass es wirklich an der inkompatibilität von ESXI6 und dem INTEL S5500BC liegt? (es taucht immerhin hier in der umsupportet list von esxi6 auf: http://www.virten.net/2015/09/vmware-es ... l-vendors/ )
ich würde ja sofort auf 5.5u3 umsteigen, aber da gibt es ja keine kostenlose version mehr oder?(als heimserver wollte ich mir gerne die lizenzkosten ersparen. )

freue mich weiterhin über vorschläge

mfg
H-net
(weiterhin entschuldigung für meine rechtschreibung -> legastheniker)

kastlr · Beitragvon **kastlr** » 24.04.2016, 22:28

Hallo,

die SCSI Fehlermeldungen kannst du hiermit auswerten.
SCSI Common Codes & Values

Code: Alles auswählen

SCSI Opcode
      Cmd 0x1a -> Mode Sense
      Cmd 0x85 -> ATA Pass trough

Status Code 
      D:0x2    -> Device, Check Condition

Valid sense data: 
      0x5      -> Illegal Request

Additional Sense Data
      0x20 0x0 -> Invalid Command Operation Code

Ich denke aber nicht, dass diese SCSI Codes mit deinem Problem zusammen hängen.
Meiner Erfahrung nach ist irgendein Agent auf dem Server dafür verantwortlich, der in regelmäßigen Intervallen die Hardware abfragt.

Schau stattdessen mal in den vobd.log, dort erscheinen u. a. Meldungen über Latenzen beim Zugriff auf vmfs Datastores.
Alternativ kannst du beim Auftreten des Problems mal esxtop starten und dann wechsle mal mit u in den Disk Modus.
Sieh dir dort die unter DAVG aufgeführten Werte an, sie sollten 25ms nicht überschreiten.

Dann sehen wir weiter.

Gruß,
Ralf

~thc · Beitragvon **~thc** » 25.04.2016, 08:35

H-net hat geschrieben:ich habe nur 30 von 32gb ram und 20 von 24cpu´s auf die vm´s verteilt

Wie hast du das denn hinbekommen? Hast du dem Fileserver alleine 16 vCPUs spendiert?

Probiere bitte aus, wie der Server läuft, wenn die beiden kleinen VMs eine und der Filserver zwei vCPUs haben...

H-net · Beitragvon **H-net** » 29.04.2016, 16:46

hallo,

ich habe nun neue BBU´s eingebaut und die besagte throttling im bios deaktiviert.
nun scheint es zu laufen :-)

(2 tage bis jetzt)

vielen dank für die vielen antworten.

mfg

VMware-Forum

ESXI Host wird immer langsamer

Woran liegt es? (was meint ihr)

ESXI Host wird immer langsamer

Wer ist online?