Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!

ESXi & Whitebox - ARRRGHHH!

Alles zum Thema vSphere 6, ESXi 6.0 und vCenter Server.

Moderatoren: irix, Dayworker

Member
Beiträge: 12
Registriert: 28.01.2017, 23:44

ESXi & Whitebox - ARRRGHHH!

Beitragvon Digi-Quick » 29.01.2017, 22:30

Was ist an ESXi eigentlich so besonderes, daß es auch mit "Standardhardware" so rum zickt? *scnr*


Folgende Hardware:

- ASRock Rack EPC612D4U-2T8R
LSI 3008 SAS/SATA Controller (auf IT-Mode geflasht, FW P12 ohne BIOS)
2x 10 GBE (Intel X540)
1x GB-LAN IPMI
- 1x Intel Xeon E5-2630 v4, 10x 2.20 GHz (2. CPU soll bei Bedarf nachgerüstet werden)
- 4x LRDIMM 32GB, DDR4-2133
- 10 Samsung Pro 850 (256 GB – 512 GB)

Das Ganze in einem „Chenbro RM41300“ Gehäuse mit einer „Jou Jye Computer JJ-1012M-SS“ Backplane und versorgt durch ein „Sea Sonic S12II-520Bronze“

Konfiguration:
ESXi 6.0.0 Update 2 (Build 4192238) auf 256 GB SSD an SATA (C612) inkl. Datastore1
Auf Datastore1 ist NAS4Free als Storage-VM mit durchgereichtem LSI3008 installiert.
- 8 vCores / 64 GB RAM


Das Ganze basiert eigentlich auf dem Konzept „Napp-In-One“ von Gea.


Der ESXi Datenträger ist per DD auf eine 2. SSD als Backup „gespiegelt“
(N4F ist hier scheinbar nicht wirklich ein gute Wahl gewesen – die AD Anbindung bzw. der SMB Zugriff via AD Benutzer hakelt zumindest von einem Host aus)


N4F hat 4 ZFS Pools mit jeweils 1 Mirror VDEV.
1. 2x 512 GB für VMs und wird per NFS in ESXi als VM-Datastore gemountet.
2. 2x 512 GB für SMB/CIFS Freigabe
3. 2x 256 GB via iSCSi an Exchange-VM für Exchange Daten
4. 2x 256 GB via iSCSi an Exchange-VM für Exchange Log


Vom VM-Datastore werden folgende VMs gestartet
1. Server 2012 als Domaincontroller
- 2 vCores / 4 GB RAM
2. Server 2008 mit Exchange
- 8 vCores / 32 GB RAM
3. Windows 2003 als Terminalserver (Da hängen noch andere Projekte in der Luft)
- 4 vCores / 8GB RAM
4. Debian mit MySQL
- 4 vCores / 8GB RAM
5. Ubuntu / Incinga
- 2 vCores / 4GB RAM


Fragen:
Sind die Samsung 850 Pro doch nicht so toll wie alle Testberichte etc. suggerieren?
"Taucht" die Backplane nix? (hat die schonaml jemand im Einsatz - gehabt)
Sind irgendwelche Probleme mit dem LSI 3008 bekannt?
Anmerkung: der LSI 3008 hat einen kleinen Lüfter spendiert bekommen, da der schon bei der Inbetriebnahme und den ersten Tests unter Windows sehr heiss wurde und dann die "Karten gelegt hat sowie auch nur ein bischen Last drauf kam. Mit dem Lüfter trat aber kein "thermischer Ausstieg" mehr auf.
Habe ich das Netzteil mit 520 Watt eventuell zu schwach gewählt?


Problem(e)

1. Alle Paar Tage verliert der ESXi den Kontakt zum "VM-Datastore" via NFS, so z.B. letzte Nacht - oder auch zum "Datastore1" auf dem Systemlaufwerk (siehe 23.1.2017).

vodb.log

Code: Alles auswählen

2017-01-22T00:31:07.907Z: [cpuCorrelator] 23418537960us: [vob.cpu.mce.log] MCE bank 10: status:0x8c00004a000800c1 misc:0x91082000200148c addr:0x19eefd1140
2017-01-23T05:47:44.998Z: [scsiCorrelator] 128811951504us: [vob.scsi.scsipath.add] Add path: vmhba41:C0:T0:L0
2017-01-23T05:47:45.000Z: [scsiCorrelator] 128811953276us: [vob.scsi.scsipath.pathstate.on] scsiPath vmhba41:C0:T0:L0 changed state from dead
2017-01-23T05:47:49.953Z: [APDCorrelator] 128816906042us: [vob.storage.apd.start] Device or filesystem with identifier [mpx.vmhba41:C0:T0:L0] has entered the All Paths Down state.
2017-01-23T05:47:49.953Z: [APDCorrelator] 128821402944us: [esx.problem.storage.apd.start] Device or filesystem with identifier [mpx.vmhba41:C0:T0:L0] has entered the All Paths Down state.
2017-01-23T05:47:49.953Z: [scsiCorrelator] 128816905988us: [vob.scsi.scsipath.pathstate.dead] scsiPath vmhba41:C0:T0:L0 changed state from on
2017-01-23T05:47:49.953Z: [scsiCorrelator] 128816906169us: [vob.scsi.scsipath.remove] Remove path: vmhba41:C0:T0:L0
2017-01-23T13:56:29.085Z: [vmfsCorrelator] 158140534927us: [esx.problem.vmfs.heartbeat.timedout] 57475f3d-2eac05c6-17ae-d05099c056ee datastore1
2017-01-23T13:56:30.561Z: [vmfsCorrelator] 158142010543us: [esx.problem.vmfs.heartbeat.recovered] 57475f3d-2eac05c6-17ae-d05099c056ee datastore1
2017-01-23T20:08:47.100Z: [cpuCorrelator] 180472251735us: [vob.cpu.mce.log] MCE bank 10: status:0x8c00004a000800c1 misc:0x91082000200148c addr:0x19eefd1140
2017-01-27T17:05:17.281Z: [netCorrelator] 515050750601us: [vob.net.firewall.disabled] Firewall has been disabled.
2017-01-27T17:05:17.281Z: [netCorrelator] 515068730626us: [esx.audit.net.firewall.disabled] Firewall has been disabled.
2017-01-27T17:05:53.183Z: [netCorrelator] 515086651986us: [vob.net.firewall.port.removed] Port vmk0 is not protected with Firewall now.
2017-01-27T17:05:53.183Z: [netCorrelator] 515104633228us: [esx.audit.net.firewall.port.removed] Port vmk0 is not protected with Firewall now.
2017-01-28T22:42:19.217Z: [APDCorrelator] 621668954159us: [vob.storage.apd.start] Device or filesystem with identifier [b8d846e4-5eac0063] has entered the All Paths Down state.
2017-01-28T22:42:19.217Z: [APDCorrelator] 621690666813us: [esx.problem.storage.apd.start] Device or filesystem with identifier [b8d846e4-5eac0063] has entered the All Paths Down state.
2017-01-28T22:43:43.220Z: [vmfsCorrelator] 621774669799us: [esx.problem.vmfs.nfs.server.disconnect] 192.168.20.53 /mnt/Pool-VM-Storage/DS-VM-Storage b8d846e4-5eac0063-0000-000000000000 VM-Datastore
2017-01-28T22:44:39.223Z: [APDCorrelator] 621808955162us: [vob.storage.apd.timeout] Device or filesystem with identifier [b8d846e4-5eac0063] has entered the All Paths Down Timeout state after being in the All Paths Down state for 140 seconds. I/Os will now be fast failed.
2017-01-28T22:44:39.223Z: [APDCorrelator] 621830672968us: [esx.problem.storage.apd.timeout] Device or filesystem with identifier [b8d846e4-5eac0063] has entered the All Paths Down Timeout state after being in the All Paths Down state for 140 seconds. I/Os will now be fast failed.
2017-01-28T23:33:18.388Z: [vmfsCorrelator] 624749837894us: [esx.problem.vmfs.heartbeat.timedout] 57475f3d-2eac05c6-17ae-d05099c056ee datastore1
2017-01-28T23:33:19.499Z: [vmfsCorrelator] 624750949217us: [esx.problem.vmfs.heartbeat.recovered] 57475f3d-2eac05c6-17ae-d05099c056ee datastore1
2017-01-28T23:40:26.114Z: [vmfsCorrelator] 625177564212us: [esx.problem.vmfs.nfs.server.restored] 192.168.20.53 /mnt/Pool-VM-Storage/DS-VM-Storage b8d846e4-5eac0063-0000-000000000000 VM-Datastore
2017-01-28T23:40:26.114Z: [APDCorrelator] 625155726197us: [vob.storage.apd.exit] Device or filesystem with identifier [b8d846e4-5eac0063] has exited the All Paths Down state.
2017-01-28T23:40:26.114Z: [APDCorrelator] 625177564375us: [esx.clear.storage.apd.exit] Device or filesystem with identifier [b8d846e4-5eac0063] has exited the All Paths Down state.
2017-01-28T23:44:43.351Z: [APDCorrelator] 625412954243us: [vob.storage.apd.start] Device or filesystem with identifier [b8d846e4-5eac0063] has entered the All Paths Down state.
2017-01-28T23:44:43.352Z: [APDCorrelator] 625434801544us: [esx.problem.storage.apd.start] Device or filesystem with identifier [b8d846e4-5eac0063] has entered the All Paths Down state.
2017-01-28T23:46:07.356Z: [vmfsCorrelator] 625518806259us: [esx.problem.vmfs.nfs.server.disconnect] 192.168.20.53 /mnt/Pool-VM-Storage/DS-VM-Storage b8d846e4-5eac0063-0000-000000000000 VM-Datastore
2017-01-28T23:47:03.358Z: [APDCorrelator] 625552955837us: [vob.storage.apd.timeout] Device or filesystem with identifier [b8d846e4-5eac0063] has entered the All Paths Down Timeout state after being in the All Paths Down state for 140 seconds. I/Os will now be fast failed.
2017-01-28T23:47:03.358Z: [APDCorrelator] 625574808204us: [esx.problem.storage.apd.timeout] Device or filesystem with identifier [b8d846e4-5eac0063] has entered the All Paths Down Timeout state after being in the All Paths Down state for 140 seconds. I/Os will now be fast failed.
2017-01-28T23:53:26.258Z: [APDCorrelator] 625935841690us: [vob.storage.apd.exit] Device or filesystem with identifier [b8d846e4-5eac0063] has exited the All Paths Down state.
2017-01-28T23:53:26.258Z: [APDCorrelator] 625957707791us: [esx.clear.storage.apd.exit] Device or filesystem with identifier [b8d846e4-5eac0063] has exited the All Paths Down state.
2017-01-28T23:53:26.258Z: [vmfsCorrelator] 625957707813us: [esx.problem.vmfs.nfs.server.restored] 192.168.20.53 /mnt/Pool-VM-Storage/DS-VM-Storage b8d846e4-5eac0063-0000-000000000000 VM-Datastore
2017-01-29T00:43:00.433Z: [UserLevelCorrelator] 628931883417us: [vob.user.coredump.configured2] At least one coredump target is enabled.
2017-01-29T00:43:00.434Z: [GenericCorrelator] 628931883417us: [vob.user.coredump.configured2] At least one coredump target is enabled.
2017-01-29T00:43:00.434Z: [UserLevelCorrelator] 628931883586us: [esx.clear.coredump.configured2] At least one coredump target has been configured. Host core dumps will be saved.
2017-01-29T01:05:58.373Z: [GenericCorrelator] 630309823230us: [vob.user.coredump.configured2] At least one coredump target is enabled.
2017-01-29T01:05:58.373Z: [UserLevelCorrelator] 630309823230us: [vob.user.coredump.configured2] At least one coredump target is enabled.
2017-01-29T01:05:58.373Z: [UserLevelCorrelator] 630309823389us: [esx.clear.coredump.configured2] At least one coredump target has been configured. Host core dumps will be saved.
2017-01-29T01:13:46.420Z: [scsiCorrelator] 630755831514us: [vob.scsi.scsipath.add] Add path: vmhba41:C0:T0:L0
2017-01-29T01:13:46.420Z: [scsiCorrelator] 630755832396us: [vob.scsi.scsipath.pathstate.on] scsiPath vmhba41:C0:T0:L0 changed state from dead


Die vmkernel.log und vmkwarnins.log hänge ich mal gezipt an

Interessanterweise gibt es im Syslog von der NAS4Free-VM keinerlei Korrelierenden Einträge in dem betreffenden Zeitraum (1h Zeitversatz zwischen den Logs)

Code: Alles auswählen

Jan 28 19:33:24 apl-storage winbindd[8523]:   Reducing LDAP page size from 1000 to 500 due to IO_TIMEOUT
Jan 28 23:43:25 apl-storage winbindd[8523]: [2017/01/28 23:43:25.899217,  1] ../source3/winbindd/winbindd_cm.c:3159(cm_connect_lsa)
Jan 28 23:43:25 apl-storage winbindd[8523]:   Unwilling to make LSA connection to domain APL24without connection level security, must set 'winbind sealed pipes = false' and 'require strong key = false' to proceed: NT_STATUS_DOWNGRADE_DETECTED



2. Scheinbar hat eines der Ram Module ein Problem

Aktuell aus vmkernel.log

Code: Alles auswählen

2017-01-29T04:33:37.198Z cpu16:33065)MCE: 1012: cpu16: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-01-29T04:33:37.199Z cpu16:33065)MCE: 190: cpu16: bank10: status=0x8c00004a000800c1: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x19eefd1140 (valid), Misc:0x91082000200148c (valid)
2017-01-29T04:33:37.199Z cpu16:33065)MCE: 199: cpu16: bank10: MCA recoverable error (CE): "Memory Controller Scrubbing Error on Channel 1."
2017-01-29T09:38:29.666Z cpu13:32907)MCE: 1012: cpu13: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-01-29T09:38:29.667Z cpu13:32907)MCE: 190: cpu13: bank10: status=0x8c00004a000800c1: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x19eefd1140 (valid), Misc:0x91082000200148c (valid)
2017-01-29T09:38:29.667Z cpu13:32907)MCE: 199: cpu13: bank10: MCA recoverable error (CE): "Memory Controller Scrubbing Error on Channel 1."


Einen derartigen Log eintrag hatte ich vor ein Paar Tagen schon einmal, im Fehlerspeicher des Mainboards gibt es keinen korrelierenden Eintrag.
Einmalig hätte ich den tendenziell eher ignoriert nach der Maßgabe, daß ECC Fehler mit einer gewissen statistischen Wahrscheinlichkeit aufteten können, aber jetzt 3 Fehler innerhalb von ca. 14 Tagen sehe ich durchaus als kritisch.


3. Erklärungen gesucht

z.B. um welche Devices geht das bei diesen Einträgen und was kann/soll/muß/darf ich daraus ableiten:

Code: Alles auswählen

2017-01-21T19:02:01.887Z cpu0:37881)WARNING: PCI: 157: 0000:00:00.0: Bypassing non-ACS capable device in hierarchy

2017-01-21T18:04:54.943Z cpu8:35713)WARNING: NetDVS: 660: portAlias is NULL

0:00:00:08.880 cpu0:32768)WARNING: PCI: 1275: No resources for device: 0000:ff:1e.3, BAR[0]: 0x10, size: 16, type: 0x3, flags: 0x6




Was soll mir das sagen:

Code: Alles auswählen

2017-01-21T19:01:53.393Z cpu0:37881)WARNING: NFS41: NFS41_VSIGetMaxQueueDepth:3509: Invalid arg count! (0): Usage <FS>
2017-01-21T19:01:53.393Z cpu0:37881)WARNING: NFS41: NFS41_VSIGetShares:3385: Invalid arg count! (0): Usage <FS> <worldID>



Welcher USB Storage, es ist keiner angeschlossen:

Code: Alles auswählen

2017-01-23T05:47:43.994Z cpu0:33265)WARNING: LinScsiLLD: scsi_add_host:573: vmkAdapter (usb-storage) sgMaxEntries rounded to 255. Reported size was 65535
2017-01-23T05:47:44.226Z cpu12:33265)WARNING: LinScsiLLD: scsi_add_host:573: vmkAdapter (usb-storage) sgMaxEntries rounded to 255. Reported size was 65535
2017-01-23T05:47:44.458Z cpu1:33265)WARNING: LinScsiLLD: scsi_add_host:573: vmkAdapter (usb-storage) sgMaxEntries rounded to 255. Reported size was 65535


Sind hier zu viele Dateien auf dem ESXi göffnet und wenn ja, warum?

Code: Alles auswählen

2017-01-21T18:01:23.743Z cpu4:33506)WARNING: MaxFileHandles: 9600, Prealloc 1, Prealloc limit: 32 GB, Host scaling factor: 1


4. keine Netzwerkkonnektivität

Ich habe am Samstag Nachmittag in einem anderen Server den Speicher getauscht, dafür mußte ich den Switch umpositionieren, da der auf dem Serverdeckel lag.
Dafür habe ich die beiden Netzwerkkabel vom ESXi kurfristig gezogen.
Der ESXi ist mit beiden 10GBE Ports an einem 10GBE-Switch (D-Link DXS-1210-10TS 10GbE Smart Managed Switch) angeschlossen, auf dem Switch selbst ist kein Trunking eingerichtet.
Der Kollge, der das eingerichtet hat meinte DAS würde den internen v-switch beschleunigen - ich frage mich allerdings wie das gehen soll.
Extern ist eigentlich nur ein NAS mit 10 GBE zu "füttern" (Online-Datensicherung), der andere Server hat nur GBit und benötigt kaum Transferleistung und dann ist da noch das Internet mit max 32 MBit.
Ein 10 GBE Link wird zu keiner Zeit mehr als ca. 30% ausgelastet

Ich habe die Netzwerkkabel wieder angeschlossen, am 2. Server den Speicher getauscht (Es stellte sich im Nachhinein heraus, daß die Programmabstürze durch was ganz anderes verursacht wurden.).
Die Netzwerkzugriffe (SMB, Datenbank etc.) liefen alle.

Ich kann nicht mehr genau sagen, wann es losging, da die vmkwarnings.log bereits komplett voll war als ich geschaut habe, es muß etwa 10-30 Minuten Später losgegangen sein, daß der ESXi sämtliche externen Netzverbindungen totgelegt hat.
Erschreckenderweise war auch der BMC/IPMI via dedicated LAN Port nicht mehr erreichbar.
Direkt auf der ESXi Konsole konnte ich die IP Adressen der VMs anpingen, aber keine IP-Adresse ausserhalb (Switch, Router/Gateway, NAS etc.)

Code: Alles auswählen

2017-01-21T17:50:46.230Z cpu15:33219)WARNING: LinNet: netdev_watchdog:3680: NETDEV WATCHDOG: vmnic0: transmit timed out
2017-01-21T17:50:47.233Z cpu18:33223)WARNING: LinNet: netdev_watchdog:3680: NETDEV WATCHDOG: vmnic1: transmit timed out

Unterbrochen wurde die Eintrags-Flut ab und an durch Meldungen dieser Art:

Code: Alles auswählen

cpu17:33208)<6>ixgbe 0000:03:00.0: vmnic0: Fake Tx hang detected with timeout of 160 seconds
33223)<4>ixgbe 0000:03:00.0: vmnic0: -1 Spoofed packets detected"


Meine Vermutung: Ich habe die Kabel beim wiederanschliessen vertauscht und ESXi hat das erkannt und daraufhin die Netzverbindungen wegen vermutetem Hackerangriff gekappt.
Ich frage mich allerdings, wie ESXi den BMC ebenfalls abschotten kann.

Als Maßnahme habe ich derzeit die Firewall deaktiviert und entladen.

P.S.: Google ist bei der Lösung der Probleme scheinbar nicht mein Freund :)
Zu vielen Fehlermeldungen bekommt man z.B. zu Lesen, daß dise mit Version xyz, die vor unssere Installierten Version liegt behoben wurde, oder aber es geht um was ganz anderes.

P.P.S.
Hier noch die Smartwerte von der System SSD

Code: Alles auswählen

[root@esxisvrl01:~] esxcli storage core device smart get -d t10.ATA_____Samsung_SSD_850_PRO_256GB_______________S251NXAH243118A_____
Parameter                     Value  Threshold  Worst
----------------------------  -----  ---------  -----
Health Status                 OK     N/A        N/A
Media Wearout Indicator       N/A    N/A        N/A
Write Error Count             N/A    N/A        N/A
Read Error Count              N/A    N/A        N/A
Power-on Hours                99     0          99
Power Cycle Count             99     0          99
Reallocated Sector Count      100    10         100
Raw Read Error Rate           N/A    N/A        N/A
Drive Temperature             N/A    N/A        N/A
Driver Rated Max Temperature  77     0          60
Write Sectors TOT Count       99     0          99
Read Sectors TOT Count        N/A    N/A        N/A
Initial Bad Block Count       N/A    N/A        N/A
Dateianhänge
pack.zip
(20.78 KiB) 258-mal heruntergeladen

King of the Hill
Beiträge: 13561
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon Dayworker » 30.01.2017, 02:22

Versteh den ESXi nicht als normales OS sondern stell ihn dir als Firmware vor. Du kannst auch nicht irgendeine FW auf irgendein Gerät draufbügeln und dann eine Funktion erwarten.

Die Samsung 850 Evo/Pro sind in meinen Augen reine Desktop-SSDs und bei diesen schwankt die Write-Latenz stark. Sowas kann Raid-Controller an den Rand ihrer Möglichkeiten bzw auch komplett aus dem Tritt bringen. Bei Intels Server-SSD S3700 wird nicht umsonst beworben, daß 99% aller Write-IOs innerhalb 1ms abgeschlossen sind.

ZFS wurde bei SUN bzw jetzt bei Oracle auf 2GB RAM ausgelegt. Deine NAS-4-Free-VM benötigt sicherlich auch keine 8 vCPUs bzw Cores, über die 64GB vRAM freut sich dagegen jedes auf ZFS aufbauende System, da der LARC dann entsprechend vergrössert und dadurch mehr Anfragen aus dem Cache anstatt von den Datenträgern bedient werden können.

Das Problem NFS-Datastore könnte durch die Desktop-SSDs oder im Zusammenspiel mit dem LSI-Controller bzw dessen Firmware verursacht werden. Lies mal bitte bei N4F nach, welche Treiberversion darin enthalten ist. Je nachdem mußt du dann auch die LSI-FW entsprechend up- oder downgraden.

Der Zeitversatz zwischen ESXi- und N4F-Log erklärt sich aus der Zeitzone. Der ESXi läuft immer UTC.

Der Speicherfehler könnte durch für das MB nicht freigegeben RAM-Module verursacht werden oder du hast wirklich ein fehlerhaftes Modul erwischt. Von Memtest86-Läufen kann ich in diesem Zusammenhang nur abraten. Die sind einfach nutzlos, da ein Fehler nicht verifizierbar ist, weil die Fehleradresse bei jedem erneuten Durchlauf woanders liegt und das ist auch jedem Händler bekannt. Kein Händler tauscht aufgrund einer Memtest86-Fehlermeldung ein DIMM aus, er liefert dir eher ein Fehlerprotokoll, daß dein DIMM fehlerfrei arbeitet. Boote daher einfach ein Live-Linux und laß den Streßtest von Prime95 laufen. Speicherfehler sind damit zumeist innerhalb weniger Sekunden gefunden und im Gegensatz zu Memtest86 auch verifizierbar. Logisch eine Primzahl ist entweder Prim oder nicht und jede Abweichung davon ist automatisch sprich immer ein Fehler.

Du setzt den Switch "D-Link DXS-1210-10TS 10GbE Smart Managed Switch" ein. Wir haben auch einen unmanaged Dlink-Switch im Einsatz, der ungefragt irgendeinen MAC/Port-Filter aktiviert. Steckt man da die Kabel um, geht erstmal nix mehr, bis man den Switch einmal stromlos gemacht hat. Danach gibt es keine Probleme mehr.

Die ausgelesenen SMART-Werte sind leider nutzlos, da die Parameter nicht festgeschrieben sind und jeder SSD-Hersteller da sein eigenes Gebräuch fabriziert. Selbst die Hersteller-Tools tappen stellenweise komplett im Dunkeln, da sich die Bedeutung von Parametern anscheinend auch zwischen den FW-Versionen verändern können. Stimmen tuen daher meist nur die Parameter "Power-on Hours" sprich Laufzeit, "Power Cycle Count" sprich Anzahl der Einschaltvorgänge und "Driver Rated Max Temperature" sprich Laufwerkstemperatur. Letztere scheint mit 77°C deutlich über der max zulässigen Temperatur von 60°C zu liegen. Allerdings wundert mich dann, daß du keine entsprechende Warnung im vkernel.log hast. Der Parameter "Write Sectors TOT Count" könnte die runter bis auf Null gehende Lebensdauer in Prozent anzeigen oder der Parameter wird vom ESXi falsch interpretiert.

Member
Beiträge: 12
Registriert: 28.01.2017, 23:44

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon Digi-Quick » 30.01.2017, 04:24

Erstmal Danke für deine ausführliche Antwort.

FW/OS:
Das Mainboard ist laut Spezifikation mit ESXi 5.5 kompatibel, heisst das jetzt, daß wir da mit ESXi 6.0 einen Fehler machen?
Ob Das Mainboard auch "zertifiziert" ist kann ich nicht sagen (werden nicht nur komplette Systeme zertifiziert?)
Ich hatte die Idee, daß ESXi 5.5 eventuell noch nicht mit dem Broadwell-EP (e5-26xx-v4) und dem LSI3008 klarkommt, wobei der LSI eh an die Storage-VM durchgereicht wird.

SSD Latenz:
Soweit ich gelesen habe wird der "Hearbeat" ca, alle 3s ausgeführt, wobei die Schreibanforderung innerhalb von 8 Sekunden commited sein soll, es werden weitere 8s gewartet, bevor der Timeout erfolgt, also hat eine Schreibanaforderung insgesamt länger als 16s gedauert.
Hier hat die Schreibanforderung folglich ca. 17,5s gedauert.

Code: Alles auswählen

2017-01-23T13:56:29.085Z: [vmfsCorrelator] 158140534927us: [esx.problem.vmfs.heartbeat.timedout] 57475f3d-2eac05c6-17ae-d05099c056ee datastore1
2017-01-23T13:56:30.561Z: [vmfsCorrelator] 158142010543us: [esx.problem.vmfs.heartbeat.recovered] 57475f3d-2eac05c6-17ae-d05099c056ee datastore1

Demnach wären die Samsung SM863 oder die Kingston DC400 wohl so ziemlich die preiswertesten Enterprise SSDs (nach meiner kurzen Recherche), und sind beides Hersteller von Flash Bausteinen.
Anzumerken hätte ich da aber auch, daß - angeblich - weder ESXi noch N4F angeblich besonders Schreibintensiv sein sollen. Beide Systeme laufen nach dem Boot eigentlich im RAM. Die einzigen Schreiboperationen erfolgen durchs Logging (bei N4F auch erst nach Anpassung). In so fern wundert es mich schon ein wenig, daß ausgerechnet die System SSD den heartbeat verliert. Unter dem Aspekt, daß ESXi auch von einem USB Stick starten kann und mitlerweile auch ein Datastore auf dem USB-Stick offiziell supported ist, ist das schon fast befremdlich.

Die 8 vCPUs habe ich eingerichtet, nachdem ich festgestellt habe, daß während das Backup von Exchange läuft die CPU Auslastung der Storage-VM in ESXi bei 100% klebte (die CPU-Last in der VM Selbst wurde von N4F gleichzeitig bei 30-50% gesehen), Ursprünglich waren es 4 vCores. Die 64 GB hat die VM weil der RAM da ist, ursprünglich hatte ich geplant dem Exchange etwas mehr zu geben, aber beim Standardserver von Windows ist ja bei 32 GB Schluss.

Die FW/Treiberversion müsste passen, zumindest die Hauptversion stimmt.

Code: Alles auswählen

mpr0: <Avago Technologies (LSI) SAS3008> port 0x5000-0x50ff mem 0xfd4f0000-0xfd4fffff,0xfd480000-0xfd4bffff irq 19 at device 0.0 on pci11
mpr0: IOCFacts   :
   MsgVersion: 0x205
   HeaderVersion: 0x2400
   IOCNumber: 0
   IOCExceptions: 0x0
   MaxChainDepth: 128
   NumberOfPorts: 1
   RequestCredit: 3072
   ProductID: 0x2221
   IOCRequestFrameSize: 32
   MaxInitiators: 1
   MaxTargets: 256
   MaxSasExpanders: 48
   MaxEnclosures: 16
   HighPriorityCredit: 128
   MaxReplyDescriptorPostQueueDepth: 65504
   ReplyFrameSize: 32
   MaxVolumes: 0
   MaxDevHandle: 313
   MaxPersistentEntries: 128
mpr0:[b] Firmware: 09.00.00.00, Driver: 09.255.01.00-fbsd[/b]
mpr0: IOCCapabilities: 7a85c<ScsiTaskFull,DiagTrace,SnapBuf,EEDP,TransRetry,EventReplay,MSIXIndex,HostDisc>


Das mit dem Zeitversatz war auch nur als Hinweis gedacht.

Also ich war von den Einstellmöglichkeiten des Switches eigentlich Beeindruckt, wenn das "Smart Management" ist, was ist denn dann "richtiges Management" :)
Ich habe da eigentlich gar nicht allzuviel eingestellt, steht soweit eigentlich alles auf Standardwerten. Der Hunweis, daß der Switch die Ports dichtgemacht haben könnte ist auf jeden Fall ein guter Hinweis, an die Möglichkeit habe ich gar nicht gedacht, werde ich mir anschauen.

Das Prime95 besser zum Speichertesten geeignet ist als Memtest86 hätte ich jetzt nicht gedacht, danke für den Hinweis. Der Speicherfehler ist demnach kein ECC Fehler? (Es macht mich halt stutzig, daß im Fehlerprotokoll vom Mainboard nichts von einem korrigiertem ECC Feher steht)

Die laut Smart hohe Temp der SSD könnte daran liegen, daß wir letztes Jahr im Sommer eine Saunatemperatur von 38° hatten, da stieg das Mainboard komplett aus (bis 39° max angegeben), da haben wir dann Wochenlang nichts machen können bevor da ein Klimagerät reinkam.
(Die alten Server waren da robuster, die liefen einfach - nicht schön, aber seltsam)

Guru
Beiträge: 2731
Registriert: 23.02.2012, 12:26

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon ~thc » 30.01.2017, 08:25

Die VMWare-HCL liefert über den System Search für 5.5U3 nur ein Asrock-System (2U4N-F) und für 6.0 keines. Das kann funktionieren - muss aber nicht.

Zum Vergleich: Ich habe auf einem System, das nur auf der HCL für 5.0 steht, 5.5 installiert - danach war kein USB-Gerät mehr sicht- und nutzbar.

Du hast in einem System mit 10 pCores (HT zählt nicht) 28 vCPUs vergeben - da ist durchaus denkbar, dass die VMs sich dermaßen um die CPUs prügeln, dass dem ESXi und einigen VMs die Luft weg bleibt...

King of the Hill
Beiträge: 13561
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon Dayworker » 30.01.2017, 12:22

ESXi ist wirklich nicht schreibintensiv. Es werden lediglich die ESXi-Config und Änderungen an den VMs auf den Datenträger geschrieben und wenn man USB-Stick/SD-Karte als Bootmedium einsetzt und keine Logger-Partition anlegt, landet ein Log-Großteil im RAM. Wie das bei N4F aussieht, keine Ahnung. ZFS sammelt ja den Random-IO und arbeitet diesen dann als Sequentiell-IO ab. Was N4F sonst noch so treibt oder loggt, keine Ahnung.

Die hohe CPU-Auslastung der Storage-VM deutet für mich entweder auf eine LSI-Unverträglichkeit mit den SSDs, zu hohe Temperaturen oder auf Deduplikation hin und das ist bekanntlich extrem RAM- sowie CPU-intensiv.

Im Normalfall kommunizieren HW und SW über Speicherfehler. Deine HW ist jedoch eventuell nicht offiziell supportet bzw kenne ich keinen Server, der dein MB als Grundlage bewirbt. Daher ist es also durchaus möglich, daß die Speicherfehler nicht geloggt werden.

Die gemeldete, hohe SMART-Temperatur könnte bereits zu bleibenden Schäden am Material geführt haben. Schnelle SSDs erwärmen sich unter Last dank einer Leistungsaufnahme zwischen 5-10W stellenweise innerhalb kürzester Zeit. Nicht nur SSDs sondern auch HDDs bestrafen hohe Temperaturen zudem mit einer gewissen Langsamkeit, damit die Temperaturen wieder absinken können. Eine Lüfter könnte da für Abhilfe sorgen.

Member
Beiträge: 12
Registriert: 28.01.2017, 23:44

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon Digi-Quick » 30.01.2017, 21:21

Moin,
Erstmal vorweg die Info, daß wir die sowieso geplante Anschaffung eines 2. Servers vorgezogen haben - allerdings jetzt mit deutlich bessere Ausstattung als Ursprünglich angedacht. Der sollte nur als Cold-Standby-Notsystem zur Verfügung stehen, wenn das Hauptsystem ausfällt.
Nun gut, jetzt ist das halt eine ähnlich ausgestatte Maschine.
Basis ist ein Lenovo-x3650-m5-e5-2660-v3-10c-64gb mit 8 Lenovo Enterprise SSDs.

Damit wird die jetzt laufende Whitebox zum Reservesystem degradiert, wenn ich sie denn mal zum fliegen bekomme.

@thc
die VMWare HCL listet ja nur komplette Systeme auf und mals Hersteller "kauft" man sich da quasi rein - über die mit hoher Wahrscheinlichkeit kostenpflichtige Zertifizierung seitens VMWARE.

Bei eine Whitebox kann man also nur schauen, ob
- der Hersteller die Komponente grundsätzlich mit ESXi kompatibel sieht
- ob die komponente in bereits zertifizierten ystem verbaut wurd.

Gerade der 2. Punkt ist bei Systemen von HP, Fujitsu, Dell, Lenovo etc nahezu unmöglich, da die komponetne nur oberflächlich aufgelistet sind.

ASrockrack sagt ESXi 5.5!

Normalerweise kann man sagen daß neuere Hardware besser von neuren OSses unterstützt wird bzw. dieTreiber eher für neure OSSes optimiert werden, bei ESXi gilt diese Weisheit damit wohl eher nicht.

CPU-Lasttechnisch schaukelt sich das Teil überwiegend die Eier, ich habe bisher nur diesen einen Leistungsengpass der Storage-VM gesehen - was wiederum mit den Samsung Pro zusammenhängen könnte. Oder einem latent defektem LSI Controller, oder Beidem.
Deduplikation haben wir nicht am Start.


"Unknown BMC Firmware (node 0) 46:10000 7.15" dürfte demnach ein Indiz für fehlende Kommunikation ESXi/Mainboard sein?

King of the Hill
Beiträge: 13561
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon Dayworker » 31.01.2017, 01:24

Jein, der BMC ist Teil des https://de.wikipedia.org/wiki/Intelligent_Platform_Management_Interface und ist im Endeffekt ein Rechner im Rechner. Sobald die Server-HW mit Spannung versorgt wird, startet der BMC und gestattet bereits weitreichende Administration der Server-HW noch bevor BIOS/UEFI bzw die restliche HW überhaupt eingeschaltet werden. Je nach BMC-Version öffnet sich damit eine bisweilen sehr umfangreiche Remote-Funktionalität, damit der Admin nicht im klimatisierten RZ im Warm- oder Kaltgang zubringen muß, nur weil ein FW-Update ansteht. Das kann er damit in Ruhe am Arbeitsplatz machen. Jeder Server-Hersteller nennt sein Produkt etwas anders. Was iDRAC dem Dell ist iLO für HPE usw.

Guru
Beiträge: 2731
Registriert: 23.02.2012, 12:26

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon ~thc » 31.01.2017, 16:09

Digi-Quick hat geschrieben:ASrockrack sagt ESXi 5.5!

Hast du es denn mal mit 5.5 probiert?
Digi-Quick hat geschrieben:Normalerweise kann man sagen daß neuere Hardware besser von neuren OSses unterstützt wird bzw. dieTreiber eher für neure OSSes optimiert werden, bei ESXi gilt diese Weisheit damit wohl eher nicht.

Grundsätzlich ist das wohl so - aber wenn du ein 5.5er-System hast, kannst du nicht einfach 6.0 oder 6.5 nehmen...

Member
Beiträge: 12
Registriert: 28.01.2017, 23:44

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon Digi-Quick » 31.01.2017, 23:20

Ich weiss wozu der BMC da ist. Es ging ja darum, daß im Systemlog des Mainboards kein ECC Fehler verzeichnet ist.

ESXi 5.5 hatten wir erst installiert, und auf 6.0 hochgezogen wegen der Annahme daß möglicherweise der Broadwell-EP nicht von ESXi 5.5 unterstützt wird.

Member
Beiträge: 12
Registriert: 28.01.2017, 23:44

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon Digi-Quick » 13.02.2017, 14:59

Update;
Nachdem am letzten Sonntag die letzte VM auf den neuen Server umgezogen ist, kann ich mit Testen anfangen.

ca. 22h geprimelt (Custom. 120 GB Ram genutzt) >> Keine Fehler

20 Minuten Memtest86+ Pro : 3 ECC Fehler in Channel 1/Slot 0 (Test Nr. 4)

Ich werde die Kiste also demnächst mal zu mir holen, um da mit wechselnden Konfigurationen testen zu können.

King of the Hill
Beiträge: 13561
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon Dayworker » 13.02.2017, 16:05

Ganz ehrlich, vergiß den Memtest86-Lauf. Mit Memtest86 kannst du jedes gewünschte Ergebnis erhalten, nur keinen reproduzierbaren Fehler und von daher nutze einfach den Streßtest von Prime95. Ob dir Memtest86 nun meldet, das das Datum 0xfafafafa geschrieben werden konnte oder nicht, ist für eine reale Anwendung völlig nebensächlich und könnte auch durch den CPU-Cache zustande gekommen sein. Primzahlen sind entweder Prim oder nicht und alle Abweichungen sind immer ein Fehler. Von daher ist der Fehler immer reproduzierbar und genau das willst du haben.

Member
Beiträge: 12
Registriert: 28.01.2017, 23:44

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon Digi-Quick » 16.02.2017, 09:23

Ich tippe mal, daß Prime von einem ECC Fehler im Speicher nichts mitbekommt, wenn ECC Speicher verwendet wird, da Single-Bit Fehler automatisch korrigiert werden..
Dem Primetest nach zu Urteilen ist das System tendenziell 100% Prime Stable.

King of the Hill
Beiträge: 13561
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon Dayworker » 17.02.2017, 01:57

Wenn der Streßtest von Prime95 ohne Fehler durchläuft und danach im UEFI/BIOS keine Fehler geloggt sind, würde ich von stabil ausgehen. Keine Ahnung was dann Memtest86 da vermeintlich gefunden haben will...
Prime95 nutzt jedenfalls beim Streßtest je nach Einstellung (Blend) sämtlichen Speicher und deshalb fallen dort fehlerhafte DIMMs sehr schnell auf. In meinem damaligen Fall noch mit DDR2-UDIMM auf einem Core2Duo mit 4GB RAM meckerte Prime95 bereits nach 3sec und brach den Test ab.

Member
Beiträge: 12
Registriert: 28.01.2017, 23:44

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon Digi-Quick » 19.02.2017, 02:49

nunja, für den C2D (so775) gabs ja kaum Mainboards deren Memorycontroller ECC-Speicher unterstützte.

Member
Beiträge: 12
Registriert: 28.01.2017, 23:44

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon Digi-Quick » 27.02.2017, 11:30

kleines Update!

Ich hab die Kiste letzte Woche zu mir geholt.

Ram Module aus Slot C & D entnommen: ECC Fehler in Bank 1
Ram Module aus Slot B entnommen: ECC Fehler in Bank 1

Damit war das "matschige" Modul identifiziert
die verbleibenden 3 Module einzeln in Slot A durchgetestet: kein weiterer Fehler

nun wollte ich das "matschige" Modul verifizieren!
habe dazu das Modul in Slot B gesteckt -zu dem bereits getestetem Modul: Kein Fehler
die beiden anderen Module dazugesteckt (Slot C & D), ca. 48 h gestestet (4 Läufe insgesamt) : Kein Fehler

Das Modul fühlte sich also offenbar nicht wohl im Slot A ..... *himmelsacra....*

Damit hat sich das Problem Speicher erst einmal vaporisiert!


Nächster Step:
ESXi 5.5 U2 neu installiert, alle Updates/Patches installiert.
Napp-In-One (napp-it ToGo VM) aus OVA Template installiert (OmniOS mit Napp-IT Storage Appliance)
2 ZFS Raidz1 Volumes neu eingerichtet.
4 TestVMs (Windows Server 2008 R2) installiert (Raidz1 Nr1 via NFS an ESXi angebunden) - und Feuer Frei
in 2 VMs lief jeweils "PassMark BurnInTest" (CPU, RAM, HDD/SSD und Netzwerk auf 100 %)
in der 3. "VM PassMark PerformanceTest"
Die 4. VM hat das zweite ZFS Dateisystem (SMB Freigabe als Laufwerk gemapt) beackert - h2WTest.

Nachdem der "Cache"/RAM der Storage VM voll war brach die Schreibleistung auf dem 2. ZFS massiv ein, von 400 MB/s auf 30 MB/s und darunter, für ein Raidz1 aus 4 SSDs unterirdisch. Die HDD/SSD Performance auf den ersten beiden VMs war auch nicht berauschend zu nennen
Mein Verdacht, daß der LSI3008 einen Schuß hat sich massiv erhärtet, denn im ggs. zu N4F bekomme ich von OmniOS entsprechende Einträge in den Logs

Code: Alles auswählen

...snip
Feb 26 03:10:04 napp-it-san scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci15ad,7a0@16/pci15d9,808@0 (mpt_sas7):
Feb 26 03:10:04 napp-it-san    [b]MPT Firmware Fault, code: 26b5[/b]
Feb 26 03:10:06 napp-it-san scsi: [ID 365881 kern.info] /pci@0,0/pci15ad,7a0@16/pci15d9,808@0 (mpt_sas7):
Feb 26 03:10:06 napp-it-san    MPT Firmware version v9.0.0.0 (SAS3008)
Feb 26 03:10:06 napp-it-san scsi: [ID 365881 kern.info] /pci@0,0/pci15ad,7a0@16/pci15d9,808@0 (mpt_sas7):
Feb 26 03:10:06 napp-it-san    mpt_sas7 SAS 3 Supported
Feb 26 03:10:06 napp-it-san scsi: [ID 365881 kern.info] /pci@0,0/pci15ad,7a0@16/pci15d9,808@0 (mpt_sas7):
Feb 26 03:10:06 napp-it-san    mpt7: IOC Operational.
Feb 26 03:10:13 napp-it-san scsi: [ID 243001 kern.info]    w4433221100000000 FastPath Capable but Disabled
Feb 26 03:10:13 napp-it-san scsi: [ID 243001 kern.info]    w4433221101000000 FastPath Capable but Disabled
Feb 26 03:10:13 napp-it-san scsi: [ID 243001 kern.info]    w4433221102000000 FastPath Capable but Disabled
Feb 26 03:10:13 napp-it-san scsi: [ID 243001 kern.info]    w4433221103000000 FastPath Capable but Disabled
Feb 26 03:10:13 napp-it-san scsi: [ID 243001 kern.info]    w4433221104000000 FastPath Capable but Disabled
Feb 26 03:10:14 napp-it-san scsi: [ID 243001 kern.info]    w4433221105000000 FastPath Capable but Disabled
Feb 26 03:10:14 napp-it-san scsi: [ID 243001 kern.info]    w4433221106000000 FastPath Capable but Disabled
Feb 26 03:10:14 napp-it-san scsi: [ID 243001 kern.info]    w4433221107000000 FastPath Capable but Disabled
Feb 26 03:10:16 napp-it-san scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci15ad,7a0@16/pci15d9,808@0 (mpt_sas7):
Feb 26 03:10:16 napp-it-san    [b]MPT Firmware Fault, code: 26b5[/b]
Feb 26 03:10:18 napp-it-san scsi: [ID 365881 kern.info] /pci@0,0/pci15ad,7a0@16/pci15d9,808@0 (mpt_sas7):
Feb 26 03:10:18 napp-it-san    MPT Firmware version v9.0.0.0 (SAS3008)
Feb 26 03:10:18 napp-it-san scsi: [ID 365881 kern.info] /pci@0,0/pci15ad,7a0@16/pci15d9,808@0 (mpt_sas7):
Feb 26 03:10:18 napp-it-san    mpt_sas7 SAS 3 Supported
Feb 26 03:10:18 napp-it-san scsi: [ID 365881 kern.info] /pci@0,0/pci15ad,7a0@16/pci15d9,808@0 (mpt_sas7):
Feb 26 03:10:18 napp-it-san    mpt7: IOC Operational.
Feb 26 03:10:25 napp-it-san scsi: [ID 243001 kern.info]    w4433221100000000 FastPath Capable but Disabled
Feb 26 03:10:25 napp-it-san scsi: [ID 243001 kern.info]    w4433221101000000 FastPath Capable but Disabled
Feb 26 03:10:25 napp-it-san scsi: [ID 243001 kern.info]    w4433221102000000 FastPath Capable but Disabled
Feb 26 03:10:25 napp-it-san scsi: [ID 243001 kern.info]    w4433221103000000 FastPath Capable but Disabled
Feb 26 03:10:26 napp-it-san scsi: [ID 243001 kern.info]    w4433221104000000 FastPath Capable but Disabled
Feb 26 03:10:26 napp-it-san scsi: [ID 243001 kern.info]    w4433221105000000 FastPath Capable but Disabled
Feb 26 03:10:26 napp-it-san scsi: [ID 243001 kern.info]    w4433221106000000 FastPath Capable but Disabled
Feb 26 03:10:26 napp-it-san scsi: [ID 243001 kern.info]    w4433221107000000 FastPath Capable but Disabled
Feb 26 03:10:28 napp-it-san scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci15ad,7a0@16/pci15d9,808@0 (mpt_sas7):
Feb 26 03:10:28 napp-it-san    [b]MPT Firmware Fault, code: 26b5[/b]
Feb 26 03:10:29 napp-it-san scsi: [ID 365881 kern.info] /pci@0,0/pci15ad,7a0@16/pci15d9,808@0 (mpt_sas7):
Feb 26 03:10:29 napp-it-san    MPT Firmware version v9.0.0.0 (SAS3008)
Feb 26 03:10:29 napp-it-san scsi: [ID 365881 kern.info] /pci@0,0/pci15ad,7a0@16/pci15d9,808@0 (mpt_sas7):
Feb 26 03:10:29 napp-it-san    mpt_sas7 SAS 3 Supported
Feb 26 03:10:29 napp-it-san scsi: [ID 365881 kern.info] /pci@0,0/pci15ad,7a0@16/pci15d9,808@0 (mpt_sas7):
Feb 26 03:10:29 napp-it-san    mpt7: IOC Operational.
snip...

Ein Update auf Firmware P14 brachte keine Veränderung/Besserung


Noch ein Test!

Controller auf IR Firmware inkl. BIOS etc. umgeflashed (P14) und 2 "Hardware" Raid 10 im Webbios erstellt.
Auf der Single-Boot-SSD (an SATA) von ESXi 'ne W2K8R2- VM eingerichtet.
Controller an diese VM per Passthrough durchgereicht.
Treiber und Megaraid Storage Manager installiert.
Im Gerätemanager als "LSI-Adapter, SAS 3000-Serie, 8-Port mit 1068" und "SAS-Controller" gelistet (wieso eigentlich 2 Geräte?)
Im MSM dann nur noch als "(Bus 3, Dev 0)" bezeichnet, angeschlossene Laufwerke oder Raidkonfigursationen werden nicht aufgeführt.

Entweder PCIe Passthrough unter ESXi für Windows VMs funktioniert generell nicht richtig oder die propagierte ESXi Kompatibilität von dem Mainboard ist Makulatur - papier ist geduldig.

(Eine Eicon 8BRI Karte bekomme ich auch nicht funktionierend an eine Windows VM durchgereicht - das habe ich gerade gestern auf einer Haswell Xeon Plattform gegengeprüft. Es könnte allerdings auch durchaus sein, daß die Karte generell nicht für PCIe Passthrough geeignet ist.)

Ich werde jetzt jedenfalls das MB reklamieren.

Zwichenschritt:
Da ich wissen wollte, ob ein iSCSi-Target mitwandern kann (von N4F nach OmniOS) habe ich erstmal mit den alten ZFS Volumes "gespielt"
Es geht, das zVol wird mit den ZFS Pool importiert und kann als iSCSi Target eingerichtet werden und das Dateisystem (hier NTFS) steht allem Anschein nach wieder Fehlerfrei zur Verfügung

Member
Beiträge: 12
Registriert: 28.01.2017, 23:44

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon Digi-Quick » 20.07.2017, 18:45

Mal wieder ein Update!

Ich mußte das Mainboard doch tatsächlich 2 mal reklamieren - beim ersten mal kam es szusagen ungeprüft zurück von wegen "keine Fehler feststellbar"!
Da hat woh irgenein Azubi das Mainboard auf die Workbench geschnallt, gesehen, daß das Board startet und daher kein Fehler feststellbar.

Ich hatte zwar diverse Logs mitgeschickt, das schien aber niemanden zu interessieren. Das Board lief weiterhin instabil - genauer gesagt der LSI Controller. Sowie Last auf das Speichersubsystem kam, hagelte es Fehlermeldungen, komplett unabhängig vom Betriebssystem (OmniOS, Windows, ESXI ohne StrorageVM.

Nach der 2. Reklamation habe ich jetzt ein Neues Board bekommen - natürlich wieder mit alter Firmware, die den Broadwell nicht kennt und somit nicht bootet. Also auch da erstmal wieder auf einen neuen BIOS-Chip gewartet *grrrr*

24h Dauerlast auf dem Controller via h2wtest im Dauertest hat das Board schnonmal ohne Fehler mitgemacht.
Dabei ist anzumerken, daß diesmal kein zusätzlicher Lüfter auf dem Kühlkörper des Controllerchips von mir angebracht wurde.
(Der Techniker von dem Systemhaus, wo ich das Board gekauft habe meinte, daß der Kühlkörper möglicherweise falsch montiert war - z.B. Luftblase)

Zur Zeit bin ich dabei das ganze unter ESXi mit Storage.VM und diversen Windows VMs unter Last zu testen - ein erster Anlauf ist gestern auf Gund eines grandiosen Rechenfehlers meinerseits nach mehreren Stunden gegen die Wand gelaufen.
4x120GiB = 480 GiB >>> passt auf eine Volume von 512 GB.....
1. 512 GB sind nur etwa 476 GiB
2. 10% Reserve im ZFS Dataset = ca. 430GiB

Also erstmal die TestVms kleiner anlegen.

Update:
Test läuft seit gut 17h
ESXi 6U2
StrorageVM: OpenIndiana mit Napp-It als Stroage Appliance
4 ZFS Pools mit jeweils 2 SSDs im Mirror
Pool 1: VM Storage via NFS an EsXi
Pool2: CIFS/SMB Freigeb
Pool3 & 4: iSCSI Targets

4 VMs W2k8r2
1VM hat den CIFS/SMB Share als Laufwerk gemappt bekommen
1 weiter VM hat die beiden iSCSI Targets als zusätzliche Laufwerke bekommen

In allen VMs läuft "Passmark Burn In Test" im Dauerbetrieb (100% CPU Last, 100% HDD LAst auf jeweils allen Laufwerken, 100% Speicherlast, und 100 % Netzwerklast/Loopback)
Die durchschnittliche Auslastung der Cores laut ESXi liegt bei etwa 45-55 % - Package bei ca. 107%
Weder in den ESXi Logs noch im Log der StorageVM oder Windows Systemlogs tauchen irgendwelche Meldungen auf, die auf ein Problem mit dem Speichersubsystem hinweisen.

Vermutlich werde ich das Thema RAM nochmal angehen müssen:

VODB.LOG

Code: Alles auswählen

2017-07-20T19:55:48.771Z: [cpuCorrelator] 28487413741us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x150525286 addr:0x138f3dccc0
2017-07-20T19:55:51.746Z: [cpuCorrelator] 28490388118us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x504ccc00 addr:0x138f3dccc0
2017-07-20T19:55:55.707Z: [cpuCorrelator] 28494349257us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x505a5a00 addr:0x138f3dccc0
2017-07-20T19:56:29.107Z: [cpuCorrelator] 28527747770us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x504e4e00 addr:0x138f3dccc0
2017-07-20T19:56:30.107Z: [cpuCorrelator] 28528747777us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x150525200 addr:0x138f3dccc0
2017-07-20T19:56:49.740Z: [cpuCorrelator] 28548380803us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x505a5a00 addr:0x138f3dccc0
2017-07-20T19:56:50.608Z: [cpuCorrelator] 28549247761us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x1504ccc00 addr:0x138f3dccc0
2017-07-20T19:56:52.607Z: [cpuCorrelator] 28551247768us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x505a5a00 addr:0x138f3dccc0
2017-07-20T19:57:12.358Z: [cpuCorrelator] 28570997769us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x504ccc00 addr:0x138f3dccc0
2017-07-20T19:57:16.358Z: [cpuCorrelator] 28574997801us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x1504e4e00 addr:0x138f3dccc0
2017-07-20T19:57:19.361Z: [cpuCorrelator] 28577997769us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x505e5e00 addr:0x138f3dccc0
2017-07-20T19:57:34.137Z: [cpuCorrelator] 28592775338us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x1504ccc00 addr:0x138f3dccc0
2017-07-20T19:57:37.137Z: [cpuCorrelator] 28595775266us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x50525200 addr:0x138f3dccc0
2017-07-20T19:57:42.359Z: [cpuCorrelator] 28600997814us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x150525200 addr:0x138f3dccc0
2017-07-20T19:57:45.360Z: [cpuCorrelator] 28603997766us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x505e5e00 addr:0x138f3dccc0
2017-07-20T19:57:46.359Z: [cpuCorrelator] 28604997761us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x15058d800 addr:0x138f3dccc0
2017-07-20T19:57:47.859Z: [cpuCorrelator] 28606497764us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x504e4e00 addr:0x138f3dccc0
2017-07-20T19:57:53.861Z: [cpuCorrelator] 28612497761us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x1505a5a00 addr:0x138f3dccc0
2017-07-20T19:57:55.860Z: [cpuCorrelator] 28614497786us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x505e5e00 addr:0x138f3dccc0
2017-07-20T19:58:00.360Z: [cpuCorrelator] 28618997768us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x1504e4e00 addr:0x138f3dccc0
2017-07-20T19:58:03.361Z: [cpuCorrelator] 28621997837us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x5058d800 addr:0x138f3dccc0
2017-07-20T19:58:04.860Z: [cpuCorrelator] 28623497753us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x1505cdc00 addr:0x138f3dccc0
2017-07-20T19:58:06.610Z: [cpuCorrelator] 28625247771us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x505cdc00 addr:0x138f3dccc0
2017-07-20T19:58:14.110Z: [cpuCorrelator] 28632747795us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x504e4e00 addr:0x138f3dccc0
2017-07-20T19:58:18.611Z: [cpuCorrelator] 28637247764us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x15058d800 addr:0x138f3dccc0
2017-07-20T19:58:22.981Z: [cpuCorrelator] 28641618166us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x5050d000 addr:0x138f3dccc0
2017-07-20T19:58:23.716Z: [cpuCorrelator] 28642353388us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x1504ccc00 addr:0x138f3dccc0
2017-07-20T19:58:25.583Z: [cpuCorrelator] 28644219816us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x5058d800 addr:0x138f3dccc0
2017-07-20T19:58:29.367Z: [cpuCorrelator] 28648003710us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x15058d800 addr:0x138f3dccc0
2017-07-20T19:58:31.861Z: [cpuCorrelator] 28650497750us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x504a4a00 addr:0x138f3dccc0
2017-07-20T19:58:38.861Z: [cpuCorrelator] 28657497751us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x150565600 addr:0x138f3dccc0
2017-07-20T19:58:41.611Z: [cpuCorrelator] 28660247764us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x5054d400 addr:0x138f3dccc0
2017-07-20T19:58:42.611Z: [cpuCorrelator] 28661247770us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x150565600 addr:0x138f3dccc0
2017-07-20T19:58:44.612Z: [cpuCorrelator] 28663247769us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x504e4e00 addr:0x138f3dccc0
2017-07-20T19:58:50.362Z: [cpuCorrelator] 28668997752us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x1504ccc00 addr:0x138f3dccc0
2017-07-20T19:58:52.112Z: [cpuCorrelator] 28670747778us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x505cdc00 addr:0x138f3dccc0
2017-07-20T19:58:56.112Z: [cpuCorrelator] 28674747779us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x15054d400 addr:0x138f3dccc0
2017-07-20T19:58:59.112Z: [cpuCorrelator] 28677747768us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x504a4a00 addr:0x138f3dccc0
2017-07-20T19:59:00.113Z: [cpuCorrelator] 28678747768us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x15054d400 addr:0x138f3dccc0
2017-07-20T19:59:03.362Z: [cpuCorrelator] 28681997760us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x505a5a00 addr:0x138f3dccc0
2017-07-20T19:59:07.113Z: [cpuCorrelator] 28685747766us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x150525200 addr:0x138f3dccc0
2017-07-20T19:59:10.364Z: [cpuCorrelator] 28688997754us: [vob.cpu.mce.log] MCE bank 7: status:0x8c00004000010090 misc:0x504e4e00 addr:0x138f3dccc0
2017-07-20T19:59:10.365Z: [pageretireCorrelator] 28689000553us: [vob.pageretire.selectedmpnthreshold.host.exceeded] Number of MPNs selected for retirement is 1



VMKERNEL.LOG

Code: Alles auswählen

2017-07-20T19:55:48.771Z cpu13:49366)MCE: 1012: cpu13: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:55:48.771Z cpu13:49366)MCE: 190: cpu13: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x150525286 (valid)
2017-07-20T19:55:48.771Z cpu13:49366)MCE: 199: cpu13: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:55:51.745Z cpu3:49363)MCE: 1012: cpu3: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:55:51.745Z cpu3:49363)MCE: 190: cpu3: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x504ccc00 (valid)
2017-07-20T19:55:51.745Z cpu3:49363)MCE: 199: cpu3: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:55:55.706Z cpu7:33319)MCE: 1012: cpu7: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:55:55.706Z cpu7:33319)MCE: 190: cpu7: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x505a5a00 (valid)
2017-07-20T19:55:55.706Z cpu7:33319)MCE: 199: cpu7: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:56:29.106Z cpu11:49358)MCE: 1012: cpu11: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:56:29.106Z cpu11:49358)MCE: 190: cpu11: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x504e4e00 (valid)
2017-07-20T19:56:29.106Z cpu11:49358)MCE: 199: cpu11: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:56:30.106Z cpu15:49363)MCE: 1012: cpu15: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:56:30.106Z cpu15:49363)MCE: 190: cpu15: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x150525200 (valid)
2017-07-20T19:56:30.106Z cpu15:49363)MCE: 199: cpu15: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:56:49.740Z cpu6:32798)MCE: 1012: cpu6: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:56:49.740Z cpu6:32798)MCE: 190: cpu6: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x505a5a00 (valid)
2017-07-20T19:56:49.740Z cpu6:32798)MCE: 199: cpu6: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:56:50.607Z cpu17:49367)MCE: 1012: cpu17: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:56:50.607Z cpu17:49367)MCE: 190: cpu17: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x1504ccc00 (valid)
2017-07-20T19:56:50.607Z cpu17:49367)MCE: 199: cpu17: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:56:52.607Z cpu5:49367)MCE: 1012: cpu5: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:56:52.607Z cpu5:49367)MCE: 190: cpu5: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x505a5a00 (valid)
2017-07-20T19:56:52.607Z cpu5:49367)MCE: 199: cpu5: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:57:12.358Z cpu4:35456)MCE: 1012: cpu4: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:57:12.358Z cpu4:35456)MCE: 190: cpu4: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x504ccc00 (valid)
2017-07-20T19:57:12.358Z cpu4:35456)MCE: 199: cpu4: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:57:16.358Z cpu0:33139)MCE: 1012: cpu0: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:57:16.358Z cpu0:33139)MCE: 190: cpu0: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x1504e4e00 (valid)
2017-07-20T19:57:16.358Z cpu0:33139)MCE: 199: cpu0: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:57:19.358Z cpu12:49363)MCE: 1012: cpu12: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:57:19.358Z cpu12:49363)MCE: 190: cpu12: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x505e5e00 (valid)
2017-07-20T19:57:19.358Z cpu12:49363)MCE: 199: cpu12: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:57:34.136Z cpu11:49371)MCE: 1012: cpu11: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:57:34.136Z cpu11:49371)MCE: 190: cpu11: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x1504ccc00 (valid)
2017-07-20T19:57:34.136Z cpu11:49371)MCE: 199: cpu11: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:57:37.136Z cpu15:49366)MCE: 1012: cpu15: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:57:37.136Z cpu15:49366)MCE: 190: cpu15: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x50525200 (valid)
2017-07-20T19:57:37.136Z cpu15:49366)MCE: 199: cpu15: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:57:42.359Z cpu4:49355)MCE: 1012: cpu4: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:57:42.359Z cpu4:49355)MCE: 190: cpu4: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x150525200 (valid)
2017-07-20T19:57:42.359Z cpu4:49355)MCE: 199: cpu4: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:57:45.359Z cpu16:49351)MCE: 1012: cpu16: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:57:45.359Z cpu16:49351)MCE: 190: cpu16: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x505e5e00 (valid)
2017-07-20T19:57:45.359Z cpu16:49351)MCE: 199: cpu16: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:57:46.359Z cpu0:49356)MCE: 1012: cpu0: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:57:46.359Z cpu0:49356)MCE: 190: cpu0: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x15058d800 (valid)
2017-07-20T19:57:46.359Z cpu0:49356)MCE: 199: cpu0: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:57:47.859Z cpu6:49363)MCE: 1012: cpu6: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:57:47.859Z cpu6:49363)MCE: 190: cpu6: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x504e4e00 (valid)
2017-07-20T19:57:47.859Z cpu6:49363)MCE: 199: cpu6: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:57:53.859Z cpu10:49358)MCE: 1012: cpu10: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:57:53.859Z cpu10:49358)MCE: 190: cpu10: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x1505a5a00 (valid)
2017-07-20T19:57:53.859Z cpu10:49358)MCE: 199: cpu10: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:57:55.859Z cpu18:49369)MCE: 1012: cpu18: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:57:55.859Z cpu18:49369)MCE: 190: cpu18: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x505e5e00 (valid)
2017-07-20T19:57:55.859Z cpu18:49369)MCE: 199: cpu18: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:00.360Z cpu16:49367)MCE: 1012: cpu16: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:00.360Z cpu16:49367)MCE: 190: cpu16: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x1504e4e00 (valid)
2017-07-20T19:58:00.360Z cpu16:49367)MCE: 199: cpu16: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:03.360Z cpu8:35456)MCE: 1012: cpu8: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:03.360Z cpu8:35456)MCE: 190: cpu8: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x5058d800 (valid)
2017-07-20T19:58:03.360Z cpu8:35456)MCE: 199: cpu8: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:04.860Z cpu14:49359)MCE: 1012: cpu14: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:04.860Z cpu14:49359)MCE: 190: cpu14: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x1505cdc00 (valid)
2017-07-20T19:58:04.860Z cpu14:49359)MCE: 199: cpu14: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:06.610Z cpu1:49358)MCE: 1012: cpu1: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:06.610Z cpu1:49358)MCE: 190: cpu1: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x505cdc00 (valid)
2017-07-20T19:58:06.610Z cpu1:49358)MCE: 199: cpu1: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:14.110Z cpu11:35456)MCE: 1012: cpu11: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:14.110Z cpu11:35456)MCE: 190: cpu11: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x504e4e00 (valid)
2017-07-20T19:58:14.110Z cpu11:35456)MCE: 199: cpu11: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:18.610Z cpu9:49363)MCE: 1012: cpu9: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:18.610Z cpu9:49363)MCE: 190: cpu9: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x15058d800 (valid)
2017-07-20T19:58:18.610Z cpu9:49363)MCE: 199: cpu9: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:22.981Z cpu2:34862)MCE: 1012: cpu2: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:22.981Z cpu2:34862)MCE: 190: cpu2: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x5050d000 (valid)
2017-07-20T19:58:22.981Z cpu2:34862)MCE: 199: cpu2: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:23.716Z cpu7:49358)MCE: 1012: cpu7: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:23.716Z cpu7:49358)MCE: 190: cpu7: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x1504ccc00 (valid)
2017-07-20T19:58:23.716Z cpu7:49358)MCE: 199: cpu7: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:25.582Z cpu15:35456)MCE: 1012: cpu15: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:25.583Z cpu15:35456)MCE: 190: cpu15: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x5058d800 (valid)
2017-07-20T19:58:25.583Z cpu15:35456)MCE: 199: cpu15: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:29.367Z cpu17:49372)MCE: 1012: cpu17: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:29.367Z cpu17:49372)MCE: 190: cpu17: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x15058d800 (valid)
2017-07-20T19:58:29.367Z cpu17:49372)MCE: 199: cpu17: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:31.861Z cpu2:49354)MCE: 1012: cpu2: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:31.861Z cpu2:49354)MCE: 190: cpu2: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x504a4a00 (valid)
2017-07-20T19:58:31.861Z cpu2:49354)MCE: 199: cpu2: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:38.861Z cpu10:49360)MCE: 1012: cpu10: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:38.861Z cpu10:49360)MCE: 190: cpu10: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x150565600 (valid)
2017-07-20T19:58:38.861Z cpu10:49360)MCE: 199: cpu10: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:41.611Z cpu1:49371)MCE: 1012: cpu1: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:41.611Z cpu1:49371)MCE: 190: cpu1: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x5054d400 (valid)
2017-07-20T19:58:41.611Z cpu1:49371)MCE: 199: cpu1: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:42.611Z cpu5:49360)MCE: 1012: cpu5: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:42.611Z cpu5:49360)MCE: 190: cpu5: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x150565600 (valid)
2017-07-20T19:58:42.611Z cpu5:49360)MCE: 199: cpu5: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:44.611Z cpu13:49356)MCE: 1012: cpu13: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:44.611Z cpu13:49356)MCE: 190: cpu13: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x504e4e00 (valid)
2017-07-20T19:58:44.611Z cpu13:49356)MCE: 199: cpu13: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:50.361Z cpu16:49367)MCE: 1012: cpu16: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:50.361Z cpu16:49367)MCE: 190: cpu16: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x1504ccc00 (valid)
2017-07-20T19:58:50.361Z cpu16:49367)MCE: 199: cpu16: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:52.111Z cpu3:49373)MCE: 1012: cpu3: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:52.111Z cpu3:49373)MCE: 190: cpu3: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x505cdc00 (valid)
2017-07-20T19:58:52.111Z cpu3:49373)MCE: 199: cpu3: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:56.112Z cpu19:49353)MCE: 1012: cpu19: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:56.112Z cpu19:49353)MCE: 190: cpu19: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x15054d400 (valid)
2017-07-20T19:58:56.112Z cpu19:49353)MCE: 199: cpu19: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:58:59.112Z cpu11:49355)MCE: 1012: cpu11: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:58:59.112Z cpu11:49355)MCE: 190: cpu11: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x504a4a00 (valid)
2017-07-20T19:58:59.112Z cpu11:49355)MCE: 199: cpu11: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:59:00.112Z cpu15:49358)MCE: 1012: cpu15: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:59:00.112Z cpu15:49358)MCE: 190: cpu15: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x15054d400 (valid)
2017-07-20T19:59:00.112Z cpu15:49358)MCE: 199: cpu15: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:59:03.362Z cpu8:49351)MCE: 1012: cpu8: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:59:03.362Z cpu8:49351)MCE: 190: cpu8: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x505a5a00 (valid)
2017-07-20T19:59:03.362Z cpu8:49351)MCE: 199: cpu8: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:59:07.112Z cpu3:49367)MCE: 1012: cpu3: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:59:07.112Z cpu3:49367)MCE: 190: cpu3: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x150525200 (valid)
2017-07-20T19:59:07.112Z cpu3:49367)MCE: 199: cpu3: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."
2017-07-20T19:59:10.362Z cpu16:49363)MCE: 1012: cpu16: MCA error detected via Polling (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-07-20T19:59:10.362Z cpu16:49363)MCE: 190: cpu16: bank7: status=0x8c00004000010090: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x138f3dccc0 (valid), Misc:0x504e4e00 (valid)
2017-07-20T19:59:10.362Z cpu16:49363)MCE: 199: cpu16: bank7: MCA recoverable error (CE): "Memory Controller Read Error on Channel 0."

Ich lese daraus, daß eine bestimmte Speicherzelle/Speicheradresse in Bank7 (vermutlich Slot C) nicht gelesen werden kann.
Es wundert mich allerdings, daß dieser Fehler nur etwa 5 Minuten lang aufttrat und dann nicht mehr.
- Ist die Speucheradressevon ESXi ausgebelendet worden, oder trat der Fehler tatsächlich nicht wieder auf?

In den Logs vom Mainboard ist nichts verzeichnete

Aktuell dazugekommen:
VMKERNEL.LOG

Code: Alles auswählen

2017-07-21T10:36:20.771Z cpu9:32888)VmMemCow: 1644: p2m update: cannot reserve - cur 1279 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:20.771Z cpu9:32888)P2MCache: 383: vm 49353: GetPhysMemRange failed for PPN 0x2c636b canBlock 0 count 95 status Out of slots
2017-07-21T10:36:20.771Z cpu0:94538)VmMemCow: 1644: p2m update: cannot reserve - cur 1279 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:20.771Z cpu0:94538)P2MCache: 383: vm 49353: GetPhysMemRange failed for PPN 0x2c636b canBlock 1 count 96 status Out of slots
2017-07-21T10:36:20.771Z cpu0:94538)VmMemCow: 1644: p2m update: cannot reserve - cur 1279 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:20.771Z cpu0:94538)P2MCache: 383: vm 49353: GetPhysMemRange failed for PPN 0x401089 canBlock 1 count 97 status Out of slots
2017-07-21T10:36:20.771Z cpu0:94538)VmMemCow: 1644: p2m update: cannot reserve - cur 1279 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:20.771Z cpu0:94538)P2MCache: 383: vm 49353: GetPhysMemRange failed for PPN 0x1c3388 canBlock 1 count 98 status Out of slots
2017-07-21T10:36:20.771Z cpu0:94538)VmMemCow: 1644: p2m update: cannot reserve - cur 1279 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:20.771Z cpu0:94538)P2MCache: 383: vm 49353: GetPhysMemRange failed for PPN 0x21ba87 canBlock 1 count 99 status Out of slots
2017-07-21T10:36:20.771Z cpu0:94538)VmMemCow: 1644: p2m update: cannot reserve - cur 1279 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:20.771Z cpu0:94538)VmMemCow: 1644: p2m update: cannot reserve - cur 1279 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu1:32797)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu1:32797)P2MCache: 383: vm 49351: GetPhysMemRange failed for PPN 0x226887 canBlock 0 count 95 status Out of slots
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)P2MCache: 383: vm 49351: GetPhysMemRange failed for PPN 0x226887 canBlock 1 count 96 status Out of slots
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)P2MCache: 383: vm 49351: GetPhysMemRange failed for PPN 0x225d71 canBlock 1 count 97 status Out of slots
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)P2MCache: 383: vm 49351: GetPhysMemRange failed for PPN 0x22a674 canBlock 1 count 98 status Out of slots
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)P2MCache: 383: vm 49351: GetPhysMemRange failed for PPN 0x221e75 canBlock 1 count 99 status Out of slots
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:25.209Z cpu0:32968)VmMemCow: 1644: p2m update: cannot reserve - cur 1179 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:33.843Z cpu2:33319)VmMemCow: 1644: p2m update: cannot reserve - cur 1228 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:33.843Z cpu2:33319)P2MCache: 383: vm 49363: GetPhysMemRange failed for PPN 0x817cd canBlock 0 count 95 status Out of slots
2017-07-21T10:36:33.844Z cpu3:94696)VmMemCow: 1644: p2m update: cannot reserve - cur 1228 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:33.844Z cpu3:94696)P2MCache: 383: vm 49363: GetPhysMemRange failed for PPN 0x817cd canBlock 1 count 96 status Out of slots
2017-07-21T10:36:33.844Z cpu3:94696)VmMemCow: 1644: p2m update: cannot reserve - cur 1228 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:33.844Z cpu3:94696)P2MCache: 383: vm 49363: GetPhysMemRange failed for PPN 0x2ee56c canBlock 1 count 97 status Out of slots
2017-07-21T10:36:33.844Z cpu3:94696)VmMemCow: 1644: p2m update: cannot reserve - cur 1228 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:33.844Z cpu3:94696)P2MCache: 383: vm 49363: GetPhysMemRange failed for PPN 0x7e86b canBlock 1 count 98 status Out of slots
2017-07-21T10:36:33.844Z cpu3:94696)VmMemCow: 1644: p2m update: cannot reserve - cur 1228 1279 rsvd 0 req 1 avail 1279
2017-07-21T10:36:33.844Z cpu3:94696)P2MCache: 383: vm 49363: GetPhysMemRange failed for PPN 0xaa66e canBlock 1 count 99 status Out of slots
2017-07-21T10:36:33.844Z cpu3:94696)VmMemCow: 1644: p2m update: cannot reserve - cur 1228 1279 rsvd 0 req 1 avail 1279

Google spuckt mir dazu auf die Schnelle keine verwertbare Info aus

Ich melde mich wieder

Member
Beiträge: 12
Registriert: 28.01.2017, 23:44

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon Digi-Quick » 24.07.2017, 23:19

Noch'n Update,
Die Kiste rennt seit nunmehr 100 Stunden ohne einen einzigen Fehler im Speichersubsystem vom LSI Controller.

Allerdings ist einige Male die die System SSD (ESXi & Storgae VM) am Intel Controller kurz "weg" gewesen (Reset erfolgte).
Da die Smartfähigkeit von ESXI mMn ungenügend ist (mehr N/A als sinnvoll interpretierbares und der relativ wichtige Wert C5 - "pending Sectors" wird gar nicht aufgeführt) werde ich die SSD die nächsten Tage mal an meinem System überprüfen.
Es könnte natürlich auch das SATA-Kabel sein.!

Des weiteren werde ich natürlich nochmals die RAM Module prüfen (insbesondere das eine, welches eine nicht lesbare Row hatte laut ESXi)

NACHTRAG:
beim Letzten Ausstieg der System SSD hat wohl auch die Strogae-VM was davon mitbekommen!

VOB.LOG

Code: Alles auswählen

2017-07-22T11:01:12.252Z: [vmfsCorrelator] 169211934051us: [esx.problem.vmfs.heartbeat.timedout] 596e8699-d8d2ace4-6631-d05099c05676 datastore1
2017-07-22T11:01:12.351Z: [vmfsCorrelator] 169212032372us: [esx.problem.vmfs.heartbeat.recovered] 596e8699-d8d2ace4-6631-d05099c05676 datastore1
2017-07-22T11:46:09.350Z: [vmfsCorrelator] 171909032043us: [esx.problem.vmfs.heartbeat.timedout] 596e8699-d8d2ace4-6631-d05099c05676 datastore1
2017-07-22T11:46:09.452Z: [vmfsCorrelator] 171909133582us: [esx.problem.vmfs.heartbeat.recovered] 596e8699-d8d2ace4-6631-d05099c05676 datastore1
2017-07-24T04:01:11.659Z: [vmfsCorrelator] 316811340485us: [esx.problem.vmfs.heartbeat.timedout] 596e8699-d8d2ace4-6631-d05099c05676 datastore1
2017-07-24T04:01:12.943Z: [vmfsCorrelator] 316812625081us: [esx.problem.vmfs.heartbeat.recovered] 596e8699-d8d2ace4-6631-d05099c05676 datastore1
2017-07-24T22:59:23.166Z: [vmfsCorrelator] 385102847915us: [esx.problem.vmfs.heartbeat.timedout] 596e8699-d8d2ace4-6631-d05099c05676 datastore1
2017-07-24T22:59:23.874Z: [vmfsCorrelator] 385103555542us: [esx.problem.vmfs.heartbeat.recovered] 596e8699-d8d2ace4-6631-d05099c05676 datastore1



VMKWARNINGS.LOG

Code: Alles auswählen

2017-07-24T22:59:13.330Z cpu0:33347)<3>ata5.00: exception Emask 0x10 SAct 0x1 SErr 0x400100 action 0x6 frozen
2017-07-24T22:59:13.330Z cpu0:33347)<3>ata5.00: irq_stat 0x08000000, interface fatal error
2017-07-24T22:59:13.330Z cpu0:33347)<3>ata5: SError: { UnrecovData Handshk }
2017-07-24T22:59:13.330Z cpu0:33347)<3>ata5.00: cmd 61/80:00:a2:25:6c/00:00:00:00:00/40 tag 0 ncq 65536 out
         res 40/00:00:a2:25:6c/00:00:00:00:00/40 Emask 0x10 (ATA bus error)
2017-07-24T22:59:13.330Z cpu0:33347)<3>ata5.00: status: { DRDY }
2017-07-24T22:59:13.330Z cpu0:33347)<6>ata5: hard resetting link
2017-07-24T22:59:18.895Z cpu10:33347)<4>ata5: port is slow to respond, please be patient (Status 0x80)
2017-07-24T22:59:22.166Z cpu8:32811)NMP: nmp_ThrottleLogForDevice:3298: Cmd 0x2a (0x439dd4be2800, 32794) to dev "t10.ATA_____Samsung_SSD_850_PRO_256GB_______________S39KNX0J124833B_____" on path "vmhba1:C0:T0:L0" Failed: H:0x5 D:0x0 P:0x0 Possible sense$
2017-07-24T22:59:22.166Z cpu8:32811)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "t10.ATA_____Samsung_SSD_850_PRO_256GB_______________S39KNX0J124833B_____" state in doubt; requested fast path state update...
2017-07-24T22:59:22.166Z cpu8:32811)ScsiDeviceIO: 2651: Cmd(0x439dd4be2800) 0x2a, CmdSN 0x2dc88 from world 32794 to dev "t10.ATA_____Samsung_SSD_850_PRO_256GB_______________S39KNX0J124833B_____" failed H:0x5 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.
2017-07-24T22:59:23.166Z cpu1:32804)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "t10.ATA_____Samsung_SSD_850_PRO_256GB_______________S39KNX0J124833B_____" state in doubt; requested fast path state update...
2017-07-24T22:59:23.166Z cpu1:32804)ScsiDeviceIO: 2651: Cmd(0x439dd4793ac0) 0x2a, CmdSN 0x2dc8a from world 32794 to dev "t10.ATA_____Samsung_SSD_850_PRO_256GB_______________S39KNX0J124833B_____" failed H:0x5 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.
2017-07-24T22:59:23.166Z cpu5:32808)NMP: nmp_ThrottleLogForDevice:3298: Cmd 0x2a (0x439dc12d3d00, 32946) to dev "t10.ATA_____Samsung_SSD_850_PRO_256GB_______________S39KNX0J124833B_____" on path "vmhba1:C0:T0:L0" Failed: H:0x8 D:0x0 P:0x0 Possible sense$
2017-07-24T22:59:23.166Z cpu5:32808)ScsiDeviceIO: 2595: Cmd(0x439dc12d3d00) 0x2a, CmdSN 0x2dc89 from world 32946 to dev "t10.ATA_____Samsung_SSD_850_PRO_256GB_______________S39KNX0J124833B_____" failed H:0x8 D:0x0 P:0x0
2017-07-24T22:59:23.166Z cpu6:32946)HBX: 2802: 'datastore1': HB at offset 3297280 - Waiting for timed out HB:
2017-07-24T22:59:23.166Z cpu6:32946)  [HB state abcdef02 offset 3297280 gen 81 stampUS 385076748430 uuid 59709b9c-a866de08-dbf5-d05099c05676 jrnl <FB 36209> drv 14.61 lockImpl 3]
2017-07-24T22:59:23.348Z cpu2:33347)<3>ata5: COMRESET failed (errno=-16)
2017-07-24T22:59:23.348Z cpu2:33347)<6>ata5: hard resetting link
2017-07-24T22:59:23.864Z cpu5:33347)<6>ata5: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
2017-07-24T22:59:23.868Z cpu5:33347)<4>ata5.00: supports DRM functions and may not be fully accessable.
2017-07-24T22:59:23.868Z cpu5:33347)<4>ata5.00: supports DRM functions and may not be fully accessable.
2017-07-24T22:59:23.868Z cpu5:33347)<6>ata5.00: configured for UDMA/133
2017-07-24T22:59:23.868Z cpu5:33347)<6>ata5: EH complete
2017-07-24T22:59:23.869Z cpu14:33221)NMP: nmp_ThrottleLogForDevice:3298: Cmd 0x2a (0x439dc11c4480, 33139) to dev "t10.ATA_____Samsung_SSD_850_PRO_256GB_______________S39KNX0J124833B_____" on path "vmhba1:C0:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense d$
2017-07-24T22:59:23.869Z cpu14:33221)ScsiDeviceIO: 2613: Cmd(0x439dc11c4480) 0x2a, CmdSN 0x96afe from world 33139 to dev "t10.ATA_____Samsung_SSD_850_PRO_256GB_______________S39KNX0J124833B_____" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0xb 0x0 0x0.
2017-07-24T22:59:23.873Z cpu6:32833)HBX: 276: 'datastore1': HB at offset 3297280 - Reclaimed heartbeat [Timeout]:
2017-07-24T22:59:23.873Z cpu6:32833)  [HB state abcdef02 offset 3297280 gen 81 stampUS 385089455518 uuid 59709b9c-a866de08-dbf5-d05099c05676 jrnl <FB 36209> drv 14.61 lockImpl 3]
2017-07-24T22:59:23.875Z cpu14:32833)FS3Misc: 1759: Long VMFS rsv time on 'datastore1' (held for 709 msecs). # R: 1, # W: 1 bytesXfer: 2 sectors
2017-07-24T22:59:23.885Z cpu5:32946)WARNING: J3: 3361: Error committing txn callerID: 0xc1d0000f to slot 0: IO was aborted by VMFS via a virt-reset on the device



VMKERNEL.LOG (nur ein Event gepostet, die anderen waren im Prinzip gleich)

Code: Alles auswählen

2017-07-24T20:13:44.028Z cpu0:33347)<3>ata5.00: exception Emask 0x10 SAct 0x1 SErr 0x400100 action 0x6 frozen
2017-07-24T20:13:44.028Z cpu0:33347)<3>ata5.00: irq_stat 0x08000000, interface fatal error
2017-07-24T20:13:44.028Z cpu0:33347)<3>ata5: SError: { UnrecovData Handshk }
2017-07-24T20:13:44.028Z cpu0:33347)<3>ata5.00: cmd 61/80:00:a2:25:6c/00:00:00:00:00/40 tag 0 ncq 65536 out
         res 40/00:00:a2:25:6c/00:00:00:00:00/40 Emask 0x10 (ATA bus error)
2017-07-24T20:13:44.028Z cpu0:33347)<3>ata5.00: status: { DRDY }
2017-07-24T20:13:44.028Z cpu0:33347)<6>ata5: hard resetting link
2017-07-24T20:13:49.577Z cpu9:33347)<4>ata5: port is slow to respond, please be patient (Status 0x80)
2017-07-24T20:13:54.079Z cpu3:33347)<3>ata5: COMRESET failed (errno=-16)
2017-07-24T20:13:54.079Z cpu3:33347)<6>ata5: hard resetting link
2017-07-24T20:13:54.598Z cpu7:33347)<6>ata5: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
2017-07-24T20:13:54.600Z cpu7:33347)<4>ata5.00: supports DRM functions and may not be fully accessable.
2017-07-24T20:13:54.600Z cpu7:33347)<4>ata5.00: supports DRM functions and may not be fully accessable.
2017-07-24T20:13:54.600Z cpu7:33347)<6>ata5.00: configured for UDMA/133
2017-07-24T20:13:54.600Z cpu7:33347)<6>ata5: EH complete
2017-07-24T20:13:54.600Z cpu7:33207)NMP: nmp_ThrottleLogForDevice:3298: Cmd 0x2a (0x439dc12643c0, 32946) to dev "t10.ATA_____Samsung_SSD_850_PRO_256GB_______________S39KNX0J124833B_____" on path "vmhba1:C0:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense da$
2017-07-24T20:13:54.600Z cpu7:33207)ScsiDeviceIO: 2613: Cmd(0x439dc12643c0) 0x2a, CmdSN 0x92e42 from world 32946 to dev "t10.ATA_____Samsung_SSD_850_PRO_256GB_______________S39KNX0J124833B_____" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0xb 0x0 0x0.


MESSAGES (OpenIndiana / Napp-It)

Code: Alles auswählen

Jul 24 12:51:33 oi2017.04 console-kit-daemon[1587]: [ID 702911 daemon.crit] GLib-GObject-CRITICAL: g_object_ref: assertion 'G_IS_OBJECT (object)' failed
Jul 24 12:51:34 oi2017.04 mate-session[1810]: [ID 702911 daemon.warning] WARNING: Unable to find provider '' of required component 'dock'
Jul 24 12:51:36 oi2017.04 mate-session[1810]: [ID 702911 daemon.warning] WARNING: Could not launch application 'print-applet.desktop': Unable to start application: Failed to execute child process "/usr/lib/system-config-printer/system-config-printer-applet" (No such file or directory)
Jul 24 12:56:34 oi2017.04 mate-session[1810]: [ID 702911 daemon.warning] Gdk-WARNING: mate-session: Fatal IO error 11 (Resource temporarily unavailable) on X server :1.

Member
Beiträge: 12
Registriert: 28.01.2017, 23:44

Re: ESXi & Whitebox - ARRRGHHH!

Beitragvon Digi-Quick » 27.02.2020, 19:02

Moin, Stelle gerade fest, daß ich hier nicht mehr weiter berichtet habe!

Das 2. Mainboard durfte ich leider ebenfalls reklamieren, da von den 4 RAM-Steckplätzen nur 3 nutzbar waren, der 4. Steckplatz wurde bereits beim Selbsttest deaktiviert - egal welches der 4 Module drinsteckte (Alle 4 funktionierten in den anderen Steckplätzen einwandfrei).

Das 3. Mainboard wiederum legte das gleiche Verhalten vom 1. Mainboard an den Tag....

Ende vom Lied: Das System wurde eingestampft und durch einen gekauften Server ersetzt auf dem jetzt nur ESXi ohne ZFS Storage-VM läuft.
Das Mainboard wurde Retourniert und die restliche Hardware unter erheblichen Verlust verkauft.

Ärgern tut mich vor Allem, daß ich ASRockRack den Vorzug vor Supermicro gegeben habe.
Auch die Samsung SSDs waren sicherlich nicht beste Wahl - und wären sicherlich später ausgetauscht worden, wenn das System insgesamt vernünftig gelaufen wäre


Zurück zu „vSphere 6.0“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 20 Gäste