ich habe mir vor kurzem einen neuen home-server zugelegt. darauf läuft: VMware ESXi 6.0.0 Update 1 build-3029758
hardware:
Code: Alles auswählen
Controller:2x LSI 9260-8i (Always WRITE BACK):
ein array raid 5 mit 5 HGST-SAS-Platten(1 monat alt)
ein array raid 1 mit 2 HGST-SATA-Platten(1 monat alt)
Mainbard: Intel S5500BC mit 2x XEON 5056 (6kern 2,6ghz) [offitiel nur bis esxi 5.5u3 supported]
Arbeitsspeicher: 32G
das komische ist, dass je länger er läuft desto langsamer wird er.
direkt nach dem booten habe ich lesegeschwindigkeiten von ca 600-700mb/s.
wenn der host dann einige stunden gelaufen ist, geht die lesegeschwindigkeit runter bis auf 2mb/s!!!!! (hdparm -t /dev/sda in den vm´s)
wenn ich hdparm mehrmals ausführe wird es langsam wieder schneller bis ca 25mb/s. (er wird praktisch im leerlauf immer langsamer)
darauf hin habe ich ich auch auf dem host angefangen dateien hin und her zu kopieren. hier habe ich auf beiden festplatten arrays (die ja auch auf 2 verschiedenen controllern laufen) ca die gleichen geschwindigkeiten (SATA etwas langsamer).
das komische ist, dass es manchmal auch passiert dass es plötzlich wieder schneller wird (also hdparm wieder lesegeschwindigkeiten von 200mb pro sekunde erreicht). habe das gefühl dass es nach dem neustart aller vms wieder schneller geht, aber nicht so schnell wie direkt nach dem booten des hosts.
in der vmkernel.log finde ich solche sachen:
Code: Alles auswählen
2016-04-21T06:49:06.916Z cpu5:32868)NMP: nmp_ThrottleLogForDevice:3178: Cmd 0x1a (0x439dc03113c0, 0) to dev "naa.600605b0016da0201e76182e2a7f7b1d" on path "vmhba3:C2:T1:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE
2016-04-21T06:49:06.941Z cpu5:32868)ScsiDeviceIO: 2645: Cmd(0x439dc03113c0) 0x1a, CmdSN 0xe157 from world 0 to dev "naa.600605b0016da0201e76182e2a7f7b1d" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.
2016-04-21T06:49:06.943Z cpu11:33085)ScsiDeviceIO: 2645: Cmd(0x439dc03113c0) 0x1a, CmdSN 0xe162 from world 0 to dev "naa.600605b0016da0201e75fd1b264f78ef" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.
2016-04-21T06:49:06.944Z cpu11:33085)NMP: nmp_ThrottleLogForDevice:3178: Cmd 0x85 (0x439dc03113c0, 34423) to dev "naa.600605b0016da0201e75fd1b264f78ef" on path "vmhba2:C2:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE
2016-04-21T16:12:14.056Z cpu22:834457)User: 3816: wantCoreDump:sfcb-LSIESG_SMI signal:6 exitCode:0 coredump:disabled
2016-04-21T19:06:09.987Z cpu3:841243)User: 3816: wantCoreDump:sfcb-hhrc signal:6 exitCode:0 coredump:disabled
2016-04-23T09:19:43.005Z cpu4:33762)<6>megasas_service_aen[1]: aen received
2016-04-23T09:19:43.005Z cpu10:33235)<6>megasas_hotplug_work[1]: event code 0x0041
2016-04-23T09:19:43.014Z cpu10:33235)<6>megasas_hotplug_work[1]: aen registered
und in der vmwarning.log sowas:
Code: Alles auswählen
2016-03-15T21:04:19.537Z cpu13:33455)WARNING: LinScsi: SCSILinuxQueueCommand:1252: queuecommand failed with status = 0x1055 Host Busy vmhba2:2:0:0 (driver name: LSI Logic SAS based MegaRAID
2016-03-16T10:24:20.734Z cpu13:32859)WARNING: SP: 1523: Smashing barrier dealloc-Barrier.
2016-03-16T10:54:43.613Z cpu7:37014)WARNING: ScsiDeviceIO: 1243: Device naa.600605b0016da0201e75fd1b264f78ef performance has deteriorated. I/O latency increased from average value of 126 microseconds to 30749 microseconds
nützliche informationen sollten einem ja diese "Valid sense data: 0x5 0x20 0x0" geben. aber das sagt mir nur das es ein festplatten overload ist. (aber der server hat absolut NICHTS zu tun).
man sieht auch das diese fehlermeldung von beiden arrays kommt. (also ist doch ein hardware-fehler relativ unwahrscheinlich oder?)
treiber für die controller sind standard (also noch nicht der neuste):
Code: Alles auswählen
scsi-megaraid-sas 6.603.55.00-2vmw.600.0.0.2494585 VMware VMwareCertified 2016-03-15
mittlerweile ist es auch schon vorgekommen das in einer vm eine lesegeschwindigkeit von 30mb/s war, und in einer anderen VM 450mb/s und auf dem host nur ca 180mb/s.(WIE KANN DAS AUF DEM GLEICHEN ARRAY MÖGLICH SEIN?)
des weiteren ist mir auch aufgefallen dass in tty0 (also hauptkonsole der vm´s) manchmal dinge solcher art stehen:
Code: Alles auswählen
BUG: soft lockup - CPU#1 stuck for 22s (in irgendeinem thread, z.b. samba)
die vm´s laufen unter debian 8.4
ich wäre um jeden ratschlag dankbar!
ich weis nicht mehr was ich tun soll um rauszufinden was da faul ist.
das einzige was nicht mehr offiziell von esxi6 unterstützt wird ist da mainboard, (das wurde blos bis 5.5 unterstützt), kann es daran liegen?
(nebenbei: die übertragung von dateien übers netzwerk von VM zu VM geht auch nur mit etwas mehr als 100Mbit (ca 16mb/s auch wenn die platten zu dem zeitpunkt noch schnell sind) obwohl ich vmxnet3 (10gbit) karten habe )
ICH BITTE UM HILFE!
falls hier jemand beruflich esxi-spetialist ist, wäre ich auch gerne bereit für hilfe zu zahlen(ICH BIN AM VERZWEIFELN)
mfg
H-net
(entschuldigung für die rechtschreibung)