Folgende Hardware:
- ASRock Rack EPC612D4U-2T8R
LSI 3008 SAS/SATA Controller (auf IT-Mode geflasht, FW P12 ohne BIOS)
2x 10 GBE (Intel X540)
1x GB-LAN IPMI
- 1x Intel Xeon E5-2630 v4, 10x 2.20 GHz (2. CPU soll bei Bedarf nachgerüstet werden)
- 4x LRDIMM 32GB, DDR4-2133
- 10 Samsung Pro 850 (256 GB – 512 GB)
Das Ganze in einem „Chenbro RM41300“ Gehäuse mit einer „Jou Jye Computer JJ-1012M-SS“ Backplane und versorgt durch ein „Sea Sonic S12II-520Bronze“
Konfiguration:
ESXi 6.0.0 Update 2 (Build 4192238) auf 256 GB SSD an SATA (C612) inkl. Datastore1
Auf Datastore1 ist NAS4Free als Storage-VM mit durchgereichtem LSI3008 installiert.
- 8 vCores / 64 GB RAM
Das Ganze basiert eigentlich auf dem Konzept „Napp-In-One“ von Gea.
Der ESXi Datenträger ist per DD auf eine 2. SSD als Backup „gespiegelt“
(N4F ist hier scheinbar nicht wirklich ein gute Wahl gewesen – die AD Anbindung bzw. der SMB Zugriff via AD Benutzer hakelt zumindest von einem Host aus)
N4F hat 4 ZFS Pools mit jeweils 1 Mirror VDEV.
1. 2x 512 GB für VMs und wird per NFS in ESXi als VM-Datastore gemountet.
2. 2x 512 GB für SMB/CIFS Freigabe
3. 2x 256 GB via iSCSi an Exchange-VM für Exchange Daten
4. 2x 256 GB via iSCSi an Exchange-VM für Exchange Log
Vom VM-Datastore werden folgende VMs gestartet
1. Server 2012 als Domaincontroller
- 2 vCores / 4 GB RAM
2. Server 2008 mit Exchange
- 8 vCores / 32 GB RAM
3. Windows 2003 als Terminalserver (Da hängen noch andere Projekte in der Luft)
- 4 vCores / 8GB RAM
4. Debian mit MySQL
- 4 vCores / 8GB RAM
5. Ubuntu / Incinga
- 2 vCores / 4GB RAM
Fragen:
Sind die Samsung 850 Pro doch nicht so toll wie alle Testberichte etc. suggerieren?
"Taucht" die Backplane nix? (hat die schonaml jemand im Einsatz - gehabt)
Sind irgendwelche Probleme mit dem LSI 3008 bekannt?
Anmerkung: der LSI 3008 hat einen kleinen Lüfter spendiert bekommen, da der schon bei der Inbetriebnahme und den ersten Tests unter Windows sehr heiss wurde und dann die "Karten gelegt hat sowie auch nur ein bischen Last drauf kam. Mit dem Lüfter trat aber kein "thermischer Ausstieg" mehr auf.
Habe ich das Netzteil mit 520 Watt eventuell zu schwach gewählt?
Problem(e)
1. Alle Paar Tage verliert der ESXi den Kontakt zum "VM-Datastore" via NFS, so z.B. letzte Nacht - oder auch zum "Datastore1" auf dem Systemlaufwerk (siehe 23.1.2017).
vodb.log
Code: Alles auswählen
2017-01-22T00:31:07.907Z: [cpuCorrelator] 23418537960us: [vob.cpu.mce.log] MCE bank 10: status:0x8c00004a000800c1 misc:0x91082000200148c addr:0x19eefd1140
2017-01-23T05:47:44.998Z: [scsiCorrelator] 128811951504us: [vob.scsi.scsipath.add] Add path: vmhba41:C0:T0:L0
2017-01-23T05:47:45.000Z: [scsiCorrelator] 128811953276us: [vob.scsi.scsipath.pathstate.on] scsiPath vmhba41:C0:T0:L0 changed state from dead
2017-01-23T05:47:49.953Z: [APDCorrelator] 128816906042us: [vob.storage.apd.start] Device or filesystem with identifier [mpx.vmhba41:C0:T0:L0] has entered the All Paths Down state.
2017-01-23T05:47:49.953Z: [APDCorrelator] 128821402944us: [esx.problem.storage.apd.start] Device or filesystem with identifier [mpx.vmhba41:C0:T0:L0] has entered the All Paths Down state.
2017-01-23T05:47:49.953Z: [scsiCorrelator] 128816905988us: [vob.scsi.scsipath.pathstate.dead] scsiPath vmhba41:C0:T0:L0 changed state from on
2017-01-23T05:47:49.953Z: [scsiCorrelator] 128816906169us: [vob.scsi.scsipath.remove] Remove path: vmhba41:C0:T0:L0
2017-01-23T13:56:29.085Z: [vmfsCorrelator] 158140534927us: [esx.problem.vmfs.heartbeat.timedout] 57475f3d-2eac05c6-17ae-d05099c056ee datastore1
2017-01-23T13:56:30.561Z: [vmfsCorrelator] 158142010543us: [esx.problem.vmfs.heartbeat.recovered] 57475f3d-2eac05c6-17ae-d05099c056ee datastore1
2017-01-23T20:08:47.100Z: [cpuCorrelator] 180472251735us: [vob.cpu.mce.log] MCE bank 10: status:0x8c00004a000800c1 misc:0x91082000200148c addr:0x19eefd1140
2017-01-27T17:05:17.281Z: [netCorrelator] 515050750601us: [vob.net.firewall.disabled] Firewall has been disabled.
2017-01-27T17:05:17.281Z: [netCorrelator] 515068730626us: [esx.audit.net.firewall.disabled] Firewall has been disabled.
2017-01-27T17:05:53.183Z: [netCorrelator] 515086651986us: [vob.net.firewall.port.removed] Port vmk0 is not protected with Firewall now.
2017-01-27T17:05:53.183Z: [netCorrelator] 515104633228us: [esx.audit.net.firewall.port.removed] Port vmk0 is not protected with Firewall now.
2017-01-28T22:42:19.217Z: [APDCorrelator] 621668954159us: [vob.storage.apd.start] Device or filesystem with identifier [b8d846e4-5eac0063] has entered the All Paths Down state.
2017-01-28T22:42:19.217Z: [APDCorrelator] 621690666813us: [esx.problem.storage.apd.start] Device or filesystem with identifier [b8d846e4-5eac0063] has entered the All Paths Down state.
2017-01-28T22:43:43.220Z: [vmfsCorrelator] 621774669799us: [esx.problem.vmfs.nfs.server.disconnect] 192.168.20.53 /mnt/Pool-VM-Storage/DS-VM-Storage b8d846e4-5eac0063-0000-000000000000 VM-Datastore
2017-01-28T22:44:39.223Z: [APDCorrelator] 621808955162us: [vob.storage.apd.timeout] Device or filesystem with identifier [b8d846e4-5eac0063] has entered the All Paths Down Timeout state after being in the All Paths Down state for 140 seconds. I/Os will now be fast failed.
2017-01-28T22:44:39.223Z: [APDCorrelator] 621830672968us: [esx.problem.storage.apd.timeout] Device or filesystem with identifier [b8d846e4-5eac0063] has entered the All Paths Down Timeout state after being in the All Paths Down state for 140 seconds. I/Os will now be fast failed.
2017-01-28T23:33:18.388Z: [vmfsCorrelator] 624749837894us: [esx.problem.vmfs.heartbeat.timedout] 57475f3d-2eac05c6-17ae-d05099c056ee datastore1
2017-01-28T23:33:19.499Z: [vmfsCorrelator] 624750949217us: [esx.problem.vmfs.heartbeat.recovered] 57475f3d-2eac05c6-17ae-d05099c056ee datastore1
2017-01-28T23:40:26.114Z: [vmfsCorrelator] 625177564212us: [esx.problem.vmfs.nfs.server.restored] 192.168.20.53 /mnt/Pool-VM-Storage/DS-VM-Storage b8d846e4-5eac0063-0000-000000000000 VM-Datastore
2017-01-28T23:40:26.114Z: [APDCorrelator] 625155726197us: [vob.storage.apd.exit] Device or filesystem with identifier [b8d846e4-5eac0063] has exited the All Paths Down state.
2017-01-28T23:40:26.114Z: [APDCorrelator] 625177564375us: [esx.clear.storage.apd.exit] Device or filesystem with identifier [b8d846e4-5eac0063] has exited the All Paths Down state.
2017-01-28T23:44:43.351Z: [APDCorrelator] 625412954243us: [vob.storage.apd.start] Device or filesystem with identifier [b8d846e4-5eac0063] has entered the All Paths Down state.
2017-01-28T23:44:43.352Z: [APDCorrelator] 625434801544us: [esx.problem.storage.apd.start] Device or filesystem with identifier [b8d846e4-5eac0063] has entered the All Paths Down state.
2017-01-28T23:46:07.356Z: [vmfsCorrelator] 625518806259us: [esx.problem.vmfs.nfs.server.disconnect] 192.168.20.53 /mnt/Pool-VM-Storage/DS-VM-Storage b8d846e4-5eac0063-0000-000000000000 VM-Datastore
2017-01-28T23:47:03.358Z: [APDCorrelator] 625552955837us: [vob.storage.apd.timeout] Device or filesystem with identifier [b8d846e4-5eac0063] has entered the All Paths Down Timeout state after being in the All Paths Down state for 140 seconds. I/Os will now be fast failed.
2017-01-28T23:47:03.358Z: [APDCorrelator] 625574808204us: [esx.problem.storage.apd.timeout] Device or filesystem with identifier [b8d846e4-5eac0063] has entered the All Paths Down Timeout state after being in the All Paths Down state for 140 seconds. I/Os will now be fast failed.
2017-01-28T23:53:26.258Z: [APDCorrelator] 625935841690us: [vob.storage.apd.exit] Device or filesystem with identifier [b8d846e4-5eac0063] has exited the All Paths Down state.
2017-01-28T23:53:26.258Z: [APDCorrelator] 625957707791us: [esx.clear.storage.apd.exit] Device or filesystem with identifier [b8d846e4-5eac0063] has exited the All Paths Down state.
2017-01-28T23:53:26.258Z: [vmfsCorrelator] 625957707813us: [esx.problem.vmfs.nfs.server.restored] 192.168.20.53 /mnt/Pool-VM-Storage/DS-VM-Storage b8d846e4-5eac0063-0000-000000000000 VM-Datastore
2017-01-29T00:43:00.433Z: [UserLevelCorrelator] 628931883417us: [vob.user.coredump.configured2] At least one coredump target is enabled.
2017-01-29T00:43:00.434Z: [GenericCorrelator] 628931883417us: [vob.user.coredump.configured2] At least one coredump target is enabled.
2017-01-29T00:43:00.434Z: [UserLevelCorrelator] 628931883586us: [esx.clear.coredump.configured2] At least one coredump target has been configured. Host core dumps will be saved.
2017-01-29T01:05:58.373Z: [GenericCorrelator] 630309823230us: [vob.user.coredump.configured2] At least one coredump target is enabled.
2017-01-29T01:05:58.373Z: [UserLevelCorrelator] 630309823230us: [vob.user.coredump.configured2] At least one coredump target is enabled.
2017-01-29T01:05:58.373Z: [UserLevelCorrelator] 630309823389us: [esx.clear.coredump.configured2] At least one coredump target has been configured. Host core dumps will be saved.
2017-01-29T01:13:46.420Z: [scsiCorrelator] 630755831514us: [vob.scsi.scsipath.add] Add path: vmhba41:C0:T0:L0
2017-01-29T01:13:46.420Z: [scsiCorrelator] 630755832396us: [vob.scsi.scsipath.pathstate.on] scsiPath vmhba41:C0:T0:L0 changed state from dead
Die vmkernel.log und vmkwarnins.log hänge ich mal gezipt an
Interessanterweise gibt es im Syslog von der NAS4Free-VM keinerlei Korrelierenden Einträge in dem betreffenden Zeitraum (1h Zeitversatz zwischen den Logs)
Code: Alles auswählen
Jan 28 19:33:24 apl-storage winbindd[8523]: Reducing LDAP page size from 1000 to 500 due to IO_TIMEOUT
Jan 28 23:43:25 apl-storage winbindd[8523]: [2017/01/28 23:43:25.899217, 1] ../source3/winbindd/winbindd_cm.c:3159(cm_connect_lsa)
Jan 28 23:43:25 apl-storage winbindd[8523]: Unwilling to make LSA connection to domain APL24without connection level security, must set 'winbind sealed pipes = false' and 'require strong key = false' to proceed: NT_STATUS_DOWNGRADE_DETECTED
2. Scheinbar hat eines der Ram Module ein Problem
Aktuell aus vmkernel.log
Code: Alles auswählen
2017-01-29T04:33:37.198Z cpu16:33065)MCE: 1012: cpu16: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-01-29T04:33:37.199Z cpu16:33065)MCE: 190: cpu16: bank10: status=0x8c00004a000800c1: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x19eefd1140 (valid), Misc:0x91082000200148c (valid)
2017-01-29T04:33:37.199Z cpu16:33065)MCE: 199: cpu16: bank10: MCA recoverable error (CE): "Memory Controller Scrubbing Error on Channel 1."
2017-01-29T09:38:29.666Z cpu13:32907)MCE: 1012: cpu13: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
2017-01-29T09:38:29.667Z cpu13:32907)MCE: 190: cpu13: bank10: status=0x8c00004a000800c1: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), Addr:0x19eefd1140 (valid), Misc:0x91082000200148c (valid)
2017-01-29T09:38:29.667Z cpu13:32907)MCE: 199: cpu13: bank10: MCA recoverable error (CE): "Memory Controller Scrubbing Error on Channel 1."
Einen derartigen Log eintrag hatte ich vor ein Paar Tagen schon einmal, im Fehlerspeicher des Mainboards gibt es keinen korrelierenden Eintrag.
Einmalig hätte ich den tendenziell eher ignoriert nach der Maßgabe, daß ECC Fehler mit einer gewissen statistischen Wahrscheinlichkeit aufteten können, aber jetzt 3 Fehler innerhalb von ca. 14 Tagen sehe ich durchaus als kritisch.
3. Erklärungen gesucht
z.B. um welche Devices geht das bei diesen Einträgen und was kann/soll/muß/darf ich daraus ableiten:
Code: Alles auswählen
2017-01-21T19:02:01.887Z cpu0:37881)WARNING: PCI: 157: 0000:00:00.0: Bypassing non-ACS capable device in hierarchy
2017-01-21T18:04:54.943Z cpu8:35713)WARNING: NetDVS: 660: portAlias is NULL
0:00:00:08.880 cpu0:32768)WARNING: PCI: 1275: No resources for device: 0000:ff:1e.3, BAR[0]: 0x10, size: 16, type: 0x3, flags: 0x6
Was soll mir das sagen:
Code: Alles auswählen
2017-01-21T19:01:53.393Z cpu0:37881)WARNING: NFS41: NFS41_VSIGetMaxQueueDepth:3509: Invalid arg count! (0): Usage <FS>
2017-01-21T19:01:53.393Z cpu0:37881)WARNING: NFS41: NFS41_VSIGetShares:3385: Invalid arg count! (0): Usage <FS> <worldID>
Welcher USB Storage, es ist keiner angeschlossen:
Code: Alles auswählen
2017-01-23T05:47:43.994Z cpu0:33265)WARNING: LinScsiLLD: scsi_add_host:573: vmkAdapter (usb-storage) sgMaxEntries rounded to 255. Reported size was 65535
2017-01-23T05:47:44.226Z cpu12:33265)WARNING: LinScsiLLD: scsi_add_host:573: vmkAdapter (usb-storage) sgMaxEntries rounded to 255. Reported size was 65535
2017-01-23T05:47:44.458Z cpu1:33265)WARNING: LinScsiLLD: scsi_add_host:573: vmkAdapter (usb-storage) sgMaxEntries rounded to 255. Reported size was 65535
Sind hier zu viele Dateien auf dem ESXi göffnet und wenn ja, warum?
Code: Alles auswählen
2017-01-21T18:01:23.743Z cpu4:33506)WARNING: MaxFileHandles: 9600, Prealloc 1, Prealloc limit: 32 GB, Host scaling factor: 1
4. keine Netzwerkkonnektivität
Ich habe am Samstag Nachmittag in einem anderen Server den Speicher getauscht, dafür mußte ich den Switch umpositionieren, da der auf dem Serverdeckel lag.
Dafür habe ich die beiden Netzwerkkabel vom ESXi kurfristig gezogen.
Der ESXi ist mit beiden 10GBE Ports an einem 10GBE-Switch (D-Link DXS-1210-10TS 10GbE Smart Managed Switch) angeschlossen, auf dem Switch selbst ist kein Trunking eingerichtet.
Der Kollge, der das eingerichtet hat meinte DAS würde den internen v-switch beschleunigen - ich frage mich allerdings wie das gehen soll.
Extern ist eigentlich nur ein NAS mit 10 GBE zu "füttern" (Online-Datensicherung), der andere Server hat nur GBit und benötigt kaum Transferleistung und dann ist da noch das Internet mit max 32 MBit.
Ein 10 GBE Link wird zu keiner Zeit mehr als ca. 30% ausgelastet
Ich habe die Netzwerkkabel wieder angeschlossen, am 2. Server den Speicher getauscht (Es stellte sich im Nachhinein heraus, daß die Programmabstürze durch was ganz anderes verursacht wurden.).
Die Netzwerkzugriffe (SMB, Datenbank etc.) liefen alle.
Ich kann nicht mehr genau sagen, wann es losging, da die vmkwarnings.log bereits komplett voll war als ich geschaut habe, es muß etwa 10-30 Minuten Später losgegangen sein, daß der ESXi sämtliche externen Netzverbindungen totgelegt hat.
Erschreckenderweise war auch der BMC/IPMI via dedicated LAN Port nicht mehr erreichbar.
Direkt auf der ESXi Konsole konnte ich die IP Adressen der VMs anpingen, aber keine IP-Adresse ausserhalb (Switch, Router/Gateway, NAS etc.)
Code: Alles auswählen
2017-01-21T17:50:46.230Z cpu15:33219)WARNING: LinNet: netdev_watchdog:3680: NETDEV WATCHDOG: vmnic0: transmit timed out
2017-01-21T17:50:47.233Z cpu18:33223)WARNING: LinNet: netdev_watchdog:3680: NETDEV WATCHDOG: vmnic1: transmit timed out
Unterbrochen wurde die Eintrags-Flut ab und an durch Meldungen dieser Art:
Code: Alles auswählen
cpu17:33208)<6>ixgbe 0000:03:00.0: vmnic0: Fake Tx hang detected with timeout of 160 seconds
33223)<4>ixgbe 0000:03:00.0: vmnic0: -1 Spoofed packets detected"
Meine Vermutung: Ich habe die Kabel beim wiederanschliessen vertauscht und ESXi hat das erkannt und daraufhin die Netzverbindungen wegen vermutetem Hackerangriff gekappt.
Ich frage mich allerdings, wie ESXi den BMC ebenfalls abschotten kann.
Als Maßnahme habe ich derzeit die Firewall deaktiviert und entladen.
P.S.: Google ist bei der Lösung der Probleme scheinbar nicht mein Freund
Zu vielen Fehlermeldungen bekommt man z.B. zu Lesen, daß dise mit Version xyz, die vor unssere Installierten Version liegt behoben wurde, oder aber es geht um was ganz anderes.
P.P.S.
Hier noch die Smartwerte von der System SSD
Code: Alles auswählen
[root@esxisvrl01:~] esxcli storage core device smart get -d t10.ATA_____Samsung_SSD_850_PRO_256GB_______________S251NXAH243118A_____
Parameter Value Threshold Worst
---------------------------- ----- --------- -----
Health Status OK N/A N/A
Media Wearout Indicator N/A N/A N/A
Write Error Count N/A N/A N/A
Read Error Count N/A N/A N/A
Power-on Hours 99 0 99
Power Cycle Count 99 0 99
Reallocated Sector Count 100 10 100
Raw Read Error Rate N/A N/A N/A
Drive Temperature N/A N/A N/A
Driver Rated Max Temperature 77 0 60
Write Sectors TOT Count 99 0 99
Read Sectors TOT Count N/A N/A N/A
Initial Bad Block Count N/A N/A N/A