VMware vSphere 6 einfach eingefroren

churchnerin · Beitragvon **churchnerin** » 11.10.2021, 14:19

Hallo zusammen,

Wir verwenden einen Server mit VMware vSphere 6 Essentials.
Der Host fror letzte Woche einfach ein und und konnte nur durch einen kompletten Neustart wieder hochgefahren werden.

Hier das vmkwarning.log
Weiß jemand, ob da irgendwelche Probleme zu erkennen sind?
(Der erste Logeintrag vom 22.09.2021 ist noch ein alter Eintrag. Alles darauffolgende sollte der Log nach dem Neustart sein.)

2021-09-22T06:11:28.624Z cpu9:11141003)WARNING: ScsiDeviceIO: 1243: Device t10.ATA_____SanDisk_Ultra_II_240GB__________________161814807633________ performance has deteriorated. I/O latency increased from average value of 138 microseconds to 343$
0:00:00:08.475 cpu0:32768)WARNING: PCI: 1275: No resources for device: 0000:ff:12.0, BAR[4]: 0x0, size: 64, type: 0x2, flags: 0x0
0:00:00:08.477 cpu0:32768)WARNING: PCI: 1275: No resources for device: 0000:ff:1e.3, BAR[0]: 0x10, size: 16, type: 0x3, flags: 0x6
2021-10-07T05:25:49.451Z cpu2:33228)WARNING: LinuxSignal: 541: ignored unexpected signal flags 0x2 (sig 17)
2021-10-07T05:25:54.557Z cpu12:33251)WARNING: VMK_PCI: 698: device 0000:00:14.0 failed to allocate 8 MSIX interrupts
2021-10-07T05:25:54.557Z cpu12:33251)WARNING: LinPCI: LinuxPCI_EnableMSIX:862: 0000:00:14.0: Interrupt allocation failed with Not supported
2021-10-07T05:26:03.921Z cpu8:33177)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T05:26:12.593Z cpu2:33354)WARNING: RDT: RDTModInit:1019: Kernel is not configured for IPv6
2021-10-07T05:26:13.265Z cpu0:33476)WARNING: Supported VMs 320, Max VSAN VMs 400, SystemMemoryInGB 64
2021-10-07T05:26:13.265Z cpu0:33476)WARNING: MaxFileHandles: 9600, Prealloc 1, Prealloc limit: 32 GB, Host scaling factor: 1
2021-10-07T05:26:13.265Z cpu0:33476)WARNING: DOM memory will be preallocated.
2021-10-07T05:26:15.201Z cpu19:33517)WARNING: APEI: 247: Could not initialize HEST
2021-10-07T05:26:15.715Z cpu10:33531)WARNING: FTCpt: 476: Using IPv4 address to start server listener
2021-10-07T05:27:52.192Z cpu12:35523)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T05:28:07.913Z cpu10:35573)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T05:29:06.001Z cpu6:35633)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T05:29:29.441Z cpu12:35662)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T05:31:42.046Z cpu19:35806)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T05:31:48.555Z cpu19:35806)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T05:39:16.685Z cpu14:36120)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T05:41:17.623Z cpu16:36251)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T05:43:46.152Z cpu17:36381)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T05:43:49.029Z cpu6:36403)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T05:54:08.420Z cpu6:36871)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T05:58:52.999Z cpu16:37111)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T06:03:05.037Z cpu9:37468)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T06:32:28.971Z cpu15:38807)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T06:47:23.133Z cpu7:39563)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T06:58:11.935Z cpu0:40069)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T07:00:53.925Z cpu19:33533)WARNING: ScsiDeviceIO: 1243: Device t10.ATA_____SanDisk_Ultra_II_240GB__________________162263420345________ performance has deteriorated. I/O latency increased from average value of 504 microseconds to 27548$
2021-10-07T07:08:16.867Z cpu12:39557)WARNING: ScsiDeviceIO: 1243: Device t10.ATA_____SanDisk_Ultra_II_240GB__________________162263420345________ performance has deteriorated. I/O latency increased from average value of 590 microseconds to 14318$
2021-10-07T12:11:04.099Z cpu8:53562)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T12:39:50.389Z cpu0:54954)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T12:51:01.494Z cpu12:55440)WARNING: NetDVS: 658: portAlias is NULL
2021-10-07T13:22:03.161Z cpu18:55436)WARNING: ScsiDeviceIO: 1243: Device t10.ATA_____SanDisk_Ultra_II_240GB__________________161814807633________ performance has deteriorated. I/O latency increased from average value of 844 microseconds to 20658$
2021-10-07T14:19:03.255Z cpu0:59314)WARNING: NetDVS: 658: portAlias is NULL
2021-10-08T06:40:19.300Z cpu0:101738)WARNING: NetDVS: 658: portAlias is NULL
2021-10-08T07:28:18.322Z cpu9:103865)WARNING: NetDVS: 658: portAlias is NULL
2021-10-08T07:47:43.805Z cpu0:104659)WARNING: NetDVS: 658: portAlias is NULL
2021-10-08T07:58:26.366Z cpu2:105160)WARNING: NetDVS: 658: portAlias is NULL
2021-10-08T08:04:34.515Z cpu11:105608)WARNING: NetDVS: 658: portAlias is NULL
2021-10-08T08:11:52.680Z cpu11:105937)WARNING: NetDVS: 658: portAlias is NULL
2021-10-10T06:51:18.491Z cpu18:230104)WARNING: NetDVS: 658: portAlias is NULL
2021-10-10T06:52:36.079Z cpu11:35806)WARNING: NetDVS: 658: portAlias is NULL
2021-10-10T07:05:58.621Z cpu9:230972)WARNING: NetDVS: 658: portAlias is NULL
2021-10-10T07:06:04.554Z cpu17:230972)WARNING: NetDVS: 658: portAlias is NULL
2021-10-10T07:17:29.217Z cpu12:231503)WARNING: NetDVS: 658: portAlias is NULL
2021-10-10T07:34:53.145Z cpu2:232365)WARNING: NetDVS: 658: portAlias is NULL

Schonmal vielen Dank

Grüße

Tommy

JustMe · Beitragvon **JustMe** » 11.10.2021, 14:40

Ohne tiefergehenden Analysen vorgreifen zu wollen:

Ich persoenlich erkenne da keine Problemhinweise. Die "Performance Deterioration"-Meldungen erachte ich als unkritisch; das duerften "normale" Zugriffe auf die SSD mit dem VM-Datastore sein. Da gibt's auch 'nen KB-Artikel zu, falls man sich damit auseinandersetzen moechte.

Wie lange lief denn der Host bereits zum Zeitpunkt des Einfrierens? Das kann man z.B. in der vmksummary.log erkennen. Nur mal so, da ich annehme, dass, falls irgendwas "Aussergewoehnliches" zum Zeitpunkt des Einfrierens ausgefuehrt worden waere, dieses schon als Ursache identifiziert worden sein muesste.

Beitragvon **Dayworker** » 11.10.2021, 21:44

Ich erkenne da sehr wohl ein Problem und zwar die sich deutlich erhöhende Schreib-Latenz der SSD

SanDisk_Ultra_II_240GB

Keine weitere Fragen in diesem Fall. Wer Consumer-HW in einem Server verwendet, muß mit Problemen rechnen. Consumer-SSDs brauchen irgendwann auch mal Zeit für interne Vorgänge und vor allem sind sie nicht für dauerhafte Schreib-Aktionen konzipiert.
Hänge die SSD spaßeshalber mal in einen normalen Win-Rechner und installiere dir dort die Sandisk-SSD-Toolbox. Dann schaust du mal, wieviel Rest-Schreibvermögen dir noch angezeigt wird.
Meine Sandisk-SSD gleichen Typs war bereits nach 6 Monaten überhaupt nicht mehr ansprechbar, ein Thermometer zeigt gut 60 Grad SSD-Gehäusetemperatur und innen wird es noch deutlich wärmer gewesen sein.

churchnerin · Beitragvon **churchnerin** » 12.10.2021, 08:52

Hallo zusammen,

schon mal vielen Dank für eure Antworten.

Der Host lief laut dem vmksummary.log 207 Tage, wie auch im Log zu sehen.

2021-10-05T16:00:02Z heartbeat: up 206d1h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-05T17:00:02Z heartbeat: up 206d2h57m36s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-05T18:00:01Z heartbeat: up 206d3h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-05T19:00:01Z heartbeat: up 206d4h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-05T20:00:01Z heartbeat: up 206d5h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-05T21:00:01Z heartbeat: up 206d6h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-05T22:00:02Z heartbeat: up 206d7h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-05T23:00:01Z heartbeat: up 206d8h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T00:00:01Z heartbeat: up 206d9h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T01:00:01Z heartbeat: up 206d10h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T02:00:01Z heartbeat: up 206d11h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T03:00:02Z heartbeat: up 206d12h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T04:00:02Z heartbeat: up 206d13h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T05:00:01Z heartbeat: up 206d14h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T06:00:01Z heartbeat: up 206d15h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T07:00:01Z heartbeat: up 206d16h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T08:00:02Z heartbeat: up 206d17h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T09:00:02Z heartbeat: up 206d18h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T10:00:01Z heartbeat: up 206d19h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T11:00:01Z heartbeat: up 206d20h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T12:00:01Z heartbeat: up 206d21h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T13:00:01Z heartbeat: up 206d22h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T14:00:02Z heartbeat: up 206d23h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T15:00:01Z heartbeat: up 207d0h57m34s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T16:00:01Z heartbeat: up 207d1h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T17:00:01Z heartbeat: up 207d2h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T18:00:01Z heartbeat: up 207d3h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T19:00:02Z heartbeat: up 207d4h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T20:00:02Z heartbeat: up 207d5h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T21:00:01Z heartbeat: up 207d6h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-06T22:00:01Z heartbeat: up 207d7h57m35s, 9 VMs; [[36436 vmx 8388608kB] [3939592 vmx 8388608kB] [84336 vmx 8388608kB]] [[5464841 sh 0%max] [5464852 snmpd 0%max] [84336 vmx 0%max]]
2021-10-07T05:26:35Z bootstop: Host has booted
2021-10-07T05:26:36Z bootstop: partition core dump found
2021-10-07T06:00:02Z heartbeat: up 0d0h34m21s, 7 VMs; [[35804 vmx 3145728kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[37165 hostd-probe 0%max] [37166 sh 0%max] [37167 sh 0%max]]
2021-10-07T07:00:02Z heartbeat: up 0d1h34m22s, 7 VMs; [[39556 vmx 3153748kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[40137 sh 0%max] [40139 python 0%max] [40140 hostd-probe 0%max]]
2021-10-07T08:00:01Z heartbeat: up 0d2h34m21s, 7 VMs; [[39556 vmx 4178540kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[42656 sh 0%max] [42657 python 0%max] [42659 hostd-probe 0%max]]
2021-10-07T09:00:01Z heartbeat: up 0d3h34m21s, 7 VMs; [[40062 vmx 5818224kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[45230 sh 0%max] [45231 python 0%max] [45232 hostd-probe 0%max]]
2021-10-07T10:00:01Z heartbeat: up 0d4h34m21s, 7 VMs; [[40062 vmx 5816868kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[47760 sh 0%max] [47763 python 0%max] [47764 hostd-probe 0%max]]
2021-10-07T11:00:02Z heartbeat: up 0d5h34m21s, 7 VMs; [[40062 vmx 5816868kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[50260 hostd-probe 0%max] [50261 sh 0%max] [50277 logger 0%max]]
2021-10-07T12:00:02Z heartbeat: up 0d6h34m22s, 7 VMs; [[40062 vmx 5878840kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[52788 sh 0%max] [52790 hostd-probe 0%max] [52792 python 0%max]]
2021-10-07T13:00:01Z heartbeat: up 0d7h34m21s, 8 VMs; [[39556 vmx 4235236kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[55832 sh 0%max] [55834 hostd-probe 0%max] [55835 python 0%max]]
2021-10-07T14:00:01Z heartbeat: up 0d8h34m21s, 8 VMs; [[55433 vmx 6291456kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[58418 sh 0%max] [58420 python 0%max] [58421 hostd-probe 0%max]]
2021-10-07T15:00:01Z heartbeat: up 0d9h34m21s, 7 VMs; [[39556 vmx 4241384kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[60943 sh 0%max] [60944 python 0%max] [60945 hostd-probe 0%max]]
2021-10-07T16:00:01Z heartbeat: up 0d10h34m21s, 7 VMs; [[39556 vmx 4243436kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[63469 sh 0%max] [63471 hostd-probe 0%max] [63473 python 0%max]]
2021-10-07T17:00:02Z heartbeat: up 0d11h34m22s, 7 VMs; [[39556 vmx 4243436kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[66409 python 0%max] [66410 sh 0%max] [66426 logger 0%max]]
2021-10-07T18:00:01Z heartbeat: up 0d12h34m21s, 7 VMs; [[39556 vmx 4245488kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[69115 hostd-probe 0%max] [69116 sh 0%max] [69117 sh 0%max]]
2021-10-07T19:00:01Z heartbeat: up 0d13h34m21s, 7 VMs; [[39556 vmx 4247536kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[71649 sh 0%max] [71651 hostd-probe 0%max] [71652 python 0%max]]
2021-10-07T20:00:01Z heartbeat: up 0d14h34m21s, 7 VMs; [[39556 vmx 4247540kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[74192 sh 0%max] [74193 sh 0%max] [74207 localcli 0%max]]
2021-10-07T21:00:02Z heartbeat: up 0d15h34m21s, 7 VMs; [[39556 vmx 4247540kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[76693 hostd-probe 0%max] [76694 sh 0%max] [76695 sh 0%max]]
2021-10-07T22:00:01Z heartbeat: up 0d16h34m21s, 7 VMs; [[39556 vmx 4247540kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[79220 python 0%max] [79221 sh 0%max] [79235 localcli 0%max]]
2021-10-07T23:00:01Z heartbeat: up 0d17h34m21s, 7 VMs; [[39556 vmx 4247540kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[81749 sh 0%max] [81750 sh 0%max] [81765 localcli 0%max]]
2021-10-08T00:00:01Z heartbeat: up 0d18h34m21s, 7 VMs; [[39556 vmx 4251636kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[84248 sh 0%max] [84250 hostd-probe 0%max] [84252 python 0%max]]
2021-10-08T01:00:01Z heartbeat: up 0d19h34m21s, 7 VMs; [[39556 vmx 4255732kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[86779 sh 0%max] [86782 python 0%max] [86783 hostd-probe 0%max]]
2021-10-08T02:00:02Z heartbeat: up 0d20h34m21s, 7 VMs; [[39556 vmx 4255732kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[89280 hostd-probe 0%max] [89308 sh 0%max] [89315 sh 0%max]]
2021-10-08T03:00:01Z heartbeat: up 0d21h34m21s, 7 VMs; [[39556 vmx 4259828kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[91805 sh 0%max] [91806 sh 0%max] [91820 localcli 0%max]]
2021-10-08T04:00:01Z heartbeat: up 0d22h34m21s, 7 VMs; [[39556 vmx 4263924kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[94324 sh 0%max] [94325 hostd-probe 0%max] [94326 python 0%max]]
2021-10-08T05:00:01Z heartbeat: up 0d23h34m21s, 7 VMs; [[39556 vmx 4263924kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[96822 python 0%max] [96823 sh 0%max] [96824 hostd-probe 0%max]]
2021-10-08T06:00:02Z heartbeat: up 1d0h34m21s, 7 VMs; [[39556 vmx 4270068kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[99799 hostd-probe 0%max] [99800 sh 0%max] [99814 localcli 0%max]]
2021-10-08T07:00:02Z heartbeat: up 1d1h34m21s, 8 VMs; [[101731 vmx 6287360kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[36113 vmx 0%max] [39556 vmx 0%max] [53556 vmx 0%max]]
2021-10-08T08:00:01Z heartbeat: up 1d2h34m21s, 8 VMs; [[39556 vmx 4284416kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[36113 vmx 0%max] [39556 vmx 0%max] [53556 vmx 0%max]]
2021-10-08T09:00:01Z heartbeat: up 1d3h34m21s, 7 VMs; [[39556 vmx 4284416kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[36113 vmx 0%max] [39556 vmx 0%max] [53556 vmx 0%max]]
2021-10-08T10:00:01Z heartbeat: up 1d4h34m21s, 7 VMs; [[39556 vmx 4286464kB] [35517 vmx 8388608kB] [35626 vmx 8388608kB]] [[36113 vmx 0%max] [39556 vmx 0%max] [53556 vmx 0%max]]

Bezüglich der Schreib Latenz der SSD haste recht. Das hat sich schon ein ganzes Stück erhöht.
I/O latency increased from average value of 504 microseconds to 27548$

Wir haben Check_MK als VM auf diesem ESXi im Einsatz. Darin ist derselbe ESXi Server mit den vSphere Zugangsdaten eingebunden.
Ist es Möglich, dass Check_MK da Probleme verursacht?
Aber meines Erachtens werden da ja blos Infos für Check_MK abgerufen. Ein Check_MK Client ist für die Überwachung des ESXi Servers ja nicht installiert.

Danke

Tommy

JustMe · Beitragvon **JustMe** » 12.10.2021, 11:02

Das "$" am Ende zeigt an, dass die Zeile, die komplett im vmkernel.log steht, hier im vmkwarning.log nur verkuerzt eingestellt wurde.

Weswegen ich persoenlich noch immer denke, dass diese Warnungen belanglos sind, naehrt sich daran, dass der "Average Value" offenbar immer im Bereich unterhalb 1ms bleibt, und nur einzelne "Spikes" (eben die Warnungen) da rausstechen. Das ist m.E. bei "groesseren" Operationen ganz normal.

Immerhin wurde beim Neustart ja ein "partition core dump found". Den sollte man vielleicht mal auswerten (lassen).

churchnerin · Beitragvon **churchnerin** » 12.10.2021, 15:40

JustMe hat geschrieben:Das "$" am Ende zeigt an, dass die Zeile, die komplett im vmkernel.log steht, hier im vmkwarning.log nur verkuerzt eingestellt wurde.

Weswegen ich persoenlich noch immer denke, dass diese Warnungen belanglos sind, naehrt sich daran, dass der "Average Value" offenbar immer im Bereich unterhalb 1ms bleibt, und nur einzelne "Spikes" (eben die Warnungen) da rausstechen. Das ist m.E. bei "groesseren" Operationen ganz normal.

Immerhin wurde beim Neustart ja ein "partition core dump found". Den sollte man vielleicht mal auswerten (lassen).

Danke für den Hinweis.
Habs nachgeschlagen und gefunden und dem dump rauskopiert.
Scheint so, als gibt es da einen Hardware defekt

2021-05-05T02:36:38.120Z cpu13:32816)NMP: nmp_ThrottleLogForDevice:3178: Cmd 0x1a (0x439dd0c88080, 0) to dev "mpx.vmhba34:C0:T0:L0" on path "vmhba34:C0:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE
2021-05-05T02:41:38.120Z cpu6:32809)NMP: nmp_ThrottleLogForDevice:3178: Cmd 0x1a (0x439dd04e4400, 0) to dev "mpx.vmhba34:C0:T0:L0" on path "vmhba34:C0:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE
2021-05-05T02:46:38.120Z cpu17:32820)NMP: nmp_ThrottleLogForDevice:3178: Cmd 0x1a (0x439dc0cc2940, 0) to dev "mpx.vmhba34:C0:T0:L0" on path "vmhba34:C0:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE
2021-05-05T02:51:38.120Z cpu6:32809)NMP: nmp_ThrottleLogForDevice:3178: Cmd 0x1a (0x439dd12c1740, 0) to dev "mpx.vmhba34:C0:T0:L0" on path "vmhba34:C0:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE
2021-05-05T02:51:38.120Z cpu6:32809)ScsiDeviceIO: 2629: Cmd(0x439dd12c1740) 0x1a, CmdSN 0x4bc04 from world 0 to dev "mpx.vmhba34:C0:T0:L0" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.
2021-05-05T02:56:38.120Z cpu19:32822)NMP: nmp_ThrottleLogForDevice:3178: Cmd 0x1a (0x439dd07a5380, 0) to dev "mpx.vmhba34:C0:T0:L0" on path "vmhba34:C0DumpProgress: Faulting world regs Faulting world regs (01/13)
DumpProgress: Vmm code/data Vmm code/data (02/13)
DumpProgress: Vmk code/rodata/stack Vmk code/rodata/stack (03/13)
DumpProgress: Vmk data/heap Vmk data/heap (04/13)
2021-10-06T22:44:05.821Z cpu18:10573953)World: 9729: PRDA 0x418044800000 ss 0x4018 ds 0x4018 es 0x4018 fs 0x0 gs 0x0
2021-10-06T22:44:05.821Z cpu18:10573953)World: 9731: TR 0x4000 GDT 0xfffffffffc60a000 (0xffff) IDT 0xfffffffffc608000 (0xffff)
2021-10-06T22:44:05.821Z cpu18:10573953)World: 9732: CR0 0x80050033 CR3 0x2a353f000 CR4 0x42660
2021-10-06T22:44:05.840Z cpu18:10573953)Panic: 626: Panic from another CPU (cpu 18, world 10573953): ip=0x41802d478020 randomOff=0x2d400000:
Machine Check Exception: Fatal (unrecoverable) MCE on PCPU18 in world 10573953:vmm0:Intrane
System has encountered a Hardware Error - Please contact the hardware vendor
2021-10-06T22:44:05.840Z cpu18:10573953)Backtrace for current CPU #18, worldID=10573953, rbp=0xffffffffffffff80
2021-10-06T22:44:05.840Z cpu18:10573953)0x43938409bb10:[0x41802d442010]Debug_FreezeForDebugger@vmkernel#nover+0x1ec stack: 0x80, 0x41802d47
2021-10-06T22:44:05.840Z cpu18:10573953)0x43938409bb30:[0x41802d47776c]PanicFreezeForPanicInt@vmkernel#nover+0x8c stack: 0x0, 0x41802d45a66
2021-10-06T22:44:05.840Z cpu18:10573953)0x43938409bb50:[0x41802d45a66e]IntrCookie_DoInterrupt@vmkernel#nover+0x7ce stack: 0x417fed4f39b0, 0
2021-10-06T22:44:05.840Z cpu18:10573953)0x43938409bc00:[0x41802d456820]IDT_IntrHandler@vmkernel#nover+0x104 stack: 0x20, 0x418044800200, 0x
2021-10-06T22:44:05.840Z cpu18:10573953)0x43938409bc30:[0x41802d4c7044]gate_entry_@vmkernel#nover+0x0 stack: 0x0, 0x20, 0x0, 0x0, 0x4180448
2021-10-06T22:44:05.840Z cpu18:10573953)0x43938409bcf8:[0x41802d700fba]Power_HaltPCPU@vmkernel#nover+0x1f2 stack: 0x417fed682ea0, 0x4180449
2021-10-06T22:44:05.840Z cpu18:10573953)0x43938409bd48:[0x41802d60edf8]CpuSchedIdleLoopInt@vmkernel#nover+0x2f8 stack: 0x8bb546de0d2454, 0x
2021-10-06T22:44:05.840Z cpu18:10573953)0x43938409bdc8:[0x41802d61254d]CpuSchedDispatch@vmkernel#nover+0x16b5 stack: 0x4390cbaa7100, 0x0, 0
2021-10-06T22:44:05.840Z cpu18:10573953)0x43938409bee8:[0x41802d613114]CpuSchedWait@vmkernel#nover+0x240 stack: 0x410021b2cde0, 0x0, 0xa000
2021-10-06T22:44:05.840Z cpu18:10573953)0x43938409bf68:[0x41802d61326a]CpuSched_VcpuHalt@vmkernel#nover+0x11e stack: 0x439300002001, 0x4180
2021-10-06T22:44:05.840Z cpu18:10573953)0x43938409bfb8:[0x41802d4abbd9]VMMVMKCall_Call@vmkernel#nover+0x139 stack: 0x41802d4ab724, 0x0, 0x4
2021-10-06T22:44:05.840Z cpu18:10573953)Panic: 761: Halting PCPU 18.
DumpProgress: PCPU PCPU (05/13)
2021-10-06T22:44:15.317Z cpu19:33141)Dump: 3571: Dumped 15 pages of recentMappings
DumpProgress: World-specific data World-specific data (06/13)
DumpProgress: Xmap Xmap (07/13)
2021-10-06T22:44:25.464Z cpu19:33141)XMap: 1566: Dumped 80635 pages
DumpProgress: VASpace VASpace (08/13)
2021-10-06T22:44:25.479Z cpu19:33141)HeapMgr: 901: Dumping HeapMgr region with 39582 PDEs.
2021-10-06T22:44:38.971Z cpu19:33141)VAArray: 799: Dumping VAArray region
2021-10-06T22:44:38.972Z cpu19:33141)Timer: 1594: Dumping Timer region with 66 PDEs.
2021-10-06T22:44:39.009Z cpu19:33141)FastSlab: 1169: Dumping FastSlab region with 32768 PDEs.
2021-10-06T22:44:52.592Z cpu19:33141)MPage: 734: Dumping MPage region
2021-10-06T22:46:03.764Z cpu19:33141)VAArray: 799: Dumping VAArray region
2021-10-06T22:46:03.836Z cpu19:33141)PShare: 3133: Dumping pshareChains region with 2 PDEs.
2021-10-06T22:46:05.222Z cpu19:33141)VASpace: 1101: VASpace "WorldStore" [4390c0000 - 4394c0001] had no registered dump handler.
2021-10-06T22:46:05.222Z cpu19:33141)VASpace: 1101: VASpace "memNodeLookup" [439500000 - 439500001] had no registered dump handler.
2021-10-06T22:46:05.222Z cpu19:33141)VASpace: 1101: VASpace "vmkStats" [439540000 - 439d40000] had no registered dump handler.
2021-10-06T22:46:05.222Z cpu19:33141)VASpace: 1101: VASpace "pageRetireBitmap" [439d40000 - 439d40210] had no registered dump handler.
2021-10-06T22:46:05.222Z cpu19:33141)VASpace: 1101: VASpace "pageRetireBitmapIdx" [439d80000 - 439d80001] had no registered dump handler.
2021-10-06T22:46:05.222Z cpu19:33141)VASpace: 1101: VASpace "llswap" [43adc0000 - 43aee1000] had no registered dump handler.
2021-10-06T22:46:05.222Z cpu19:33141)VASpace: 1101: VASpace "LPageStatus" [43af00000 - 43af00042] had no registered dump handler.
2021-10-06T22:46:05.222Z cpu19:33141)VASpace: 1101: VASpace "LSOMVaSpace" [43af40000 - 43b9e0000] had no registered dump handler.
2021-10-06T22:46:05.222Z cpu19:33141)Migrate: 359: Dumping Migrate region with 49152 PDEs
2021-10-06T22:46:05.916Z cpu19:33141)VASpace: 1101: VASpace "XVMotion" [43d200000 - 43d220000] had no registered dump handler.
DumpProgress: PFrame PFrame (09/13)
2021-10-06T22:46:05.922Z cpu19:33141)PFrame: 3861: Dumping PFrame region with 33792 PDEs
DumpProgress: Dump Files Dump Files (12/13)
DumpProgress: Finalized dump header Finalized dump header (13/13)
5.840Z cpu18:10573953)Backtrace for current CPU #18, worldID=10573953, rbp=0xffffffffffffff80
2021-10-06T22:44:05.840Z cpu18:105

JustMe · Beitragvon **JustMe** » 12.10.2021, 17:05

Jou, ich denke, das sagt schon ein wenig mehr.

Bei einem echten Serversystem wuerde man bei einer Machine Check Exception jetzt das Hardware Error Log des BMC untersuchen. Hat Euer Rechner so etwas, oder weist die Consumer-SSD eher auf ein White-Box-System hin? "PCPU18" zeigt ja an, dass es immerhin ein Rechner mit mindestens 19 Kernen/Threads sein muss. Das ist eher kein "normaler" Desktop-Rechner.

Schau doch mal auf der ESXi-Kommandozeile per "esxcli storage core adapter list" nach, was das vmhba34 fuer ein Geraet ist (OK, geht auch im GUI irgendwie, aber so ist's schneller getippt). Ich vermute mal, dass das ein USB-Controller ist, an dem ein ESXi-Boot-Stick klebt.
Falls es dies sein sollte (und nicht etwa ein leeres CD/DVD-Laufwerk), dann koennten die 5-minuetigen fehlschlagenden Statusabfragen damals gut 150 Tage vor dem Core Dump darauf hindeuten, dass der Stick sich abgehaengt hatte, und der ESXi daraufhin irgendwann einfach "ueberlief".
Das ist aber schon eine ziemlich weit aus dem Fenster gelehnte Vermutung...

Alternativ (oder auch zusaetzlich) koenntet Ihr mal schauen, was die VM "Intrane..." besonders auszeichnet. Immerhin trat bei deren Ausfuehrung der Dump auf.

churchnerin · Beitragvon **churchnerin** » 13.10.2021, 10:25

Hi JustMe,

bei der Kiste handelt es sich schon um einen Server.
Mainboard ist ein Supermicro X10SRA-F mit einem Xeon E5-2618L v4 mit 10 Cores und 20 Threads, 64GB Ram.
Insgesamt 6 Festplatten drin, 5 SSDs, eine normale HDD.
Kein Raid, jede Platte ist einzeln angebunden.

Bezüglich BMC und IPMI muss ich mich schlau machen. Kann ich gerade nicht sagen, ob das genutzt wird.

esxcli storage core adapter list gibt folgendes aus:

[root@vmware:~] esxcli storage core adapter list
HBA Name Driver Link State UID Capabilities Description
-------- ------ ---------- ------------ ------------ ----------------------------------------------------------
vmhba38 ahci link-n/a sata.vmhba38 (0000:00:1f.2) Intel Corporation Wellsburg AHCI Controller
vmhba39 ahci link-n/a sata.vmhba39 (0000:00:1f.2) Intel Corporation Wellsburg AHCI Controller
vmhba0 ahci link-n/a sata.vmhba0 (0000:00:11.4) Intel Corporation Wellsburg AHCI Controller
vmhba1 ahci link-n/a sata.vmhba1 (0000:00:1f.2) Intel Corporation Wellsburg AHCI Controller
vmhba32 ahci link-n/a sata.vmhba32 (0000:00:11.4) Intel Corporation Wellsburg AHCI Controller
vmhba33 ahci link-n/a sata.vmhba33 (0000:00:11.4) Intel Corporation Wellsburg AHCI Controller
vmhba34 ahci link-n/a sata.vmhba34 (0000:00:11.4) Intel Corporation Wellsburg AHCI Controller
vmhba35 ahci link-n/a sata.vmhba35 (0000:00:1f.2) Intel Corporation Wellsburg AHCI Controller
vmhba36 ahci link-n/a sata.vmhba36 (0000:00:1f.2) Intel Corporation Wellsburg AHCI Controller
vmhba37 ahci link-n/a sata.vmhba37 (0000:00:1f.2) Intel Corporation Wellsburg AHCI Controller

Laut meinem Kollegen musste er die VM Intranet aus einer Sicherung wiederherstellen, da in dieser nicht mehr behebbare Fehler im BTRFS Dateisystem angezeigt wurden.

Schonmal Danke

Grüße

Tommy

Beitragvon **Dayworker** » 13.10.2021, 20:08

BTRFS arbeitet wie ZFS am besten, wenn es die direkte Kommunikation ab HBM bzw AHCI-Controller samt allen daran angeschlossenen Platten übernimmt.
Bei ZFS reicht man dazu gerne den HBA per PCI-Passthru an eine VM durch. Möglich wären jedoch auch jede Platte als RDM oder auf jeder Platten einen DS mit VMDK zu erstellen.
Wie habt euer System aufgesetzt?

churchnerin · Beitragvon **churchnerin** » 20.10.2021, 10:12

Hi Dayworker,

soweit ich weiß, befinden sich 6 Festplatten im Server, die jeweils separat an einem SATA Anschluss angeschlossen sind.
Laut der Übersicht, ist das Dateisystem der Platten VMFS5.

Beitragvon **Dayworker** » 20.10.2021, 17:27

Das VMFS bietet meines Wissens selbst keinerlei Schutz gegen Manipulation jedweder Art, das wäre in meinen Augen die Aufgabe des darunterliegenden Datenträger-Systems und viel schwerwiegender immer noch keine offizielle Reparaturmöglichkeit.
Die BTRFS-Fehler können aber müssen keine wirklichen Fehler gewesen sein, weil normalerweise keine VM direkten HW-Zugriff auf die Datenträger erhält. Habt ihr inzwischen herausbekommen, welcher Datenträger die Probleme verursachte?

churchnerin · Beitragvon **churchnerin** » 22.10.2021, 13:55

Nein bisher noch nicht.
Seitdem läuft das System mit allen VM´s wieder ohne Probleme bisher.

churchnerin · Beitragvon **churchnerin** » 01.08.2022, 09:48

Hallo zusammen,

der ESXi-Server ist nach ner Weile mal wieder abgestürzt mit dem PSOD. Mein Kollege hat davon ein Foto gemacht.
In der Fehlermeldung wurde "MCE" ausgegeben, was meiner Recherche nach ein Hardware Problem bedeutet.
Kann man an den weiteren Infos auf dem PSOD weiter eingrenzen, was genau das Problem verursacht?
Bild ist angehängt.

Schonmal vielen Dank

Schöne Grüße

Martin · Beitragvon **Martin** » 01.08.2022, 12:17

Ich würde erst einmal die Installation auf den letzten verfügbaren Patchstand bringen, da liegen fünf Jahre dazwischen.
Es ist gut möglich, daß in einem der ca. 20 Updates nach deiner Version dieser Fehler behoben wurde.

churchnerin · Beitragvon **churchnerin** » 01.08.2022, 14:23

Das werde ich auf alle Fälle in Erwägung ziehen.
Interessant wäre dennoch, ob man rauslesen könnte, was da das Problem verursacht hat.

JustMe · Beitragvon **JustMe** » 01.08.2022, 16:59

Koennen koennte man schon, nur machen wird's wohl keiner mehr. Bei dem abgebildeten Stand wird der VMware-Support nur noch mitleidig schmunzeln.

Der Hinweis von "Martin" ist schon nicht von der Hand zu weisen...

Ansonsten bliebe nur, die Suchmaschine des Vertrauens mit den Zeilen aus dem PSoD zu quaelen.

Und wenn man dies tut, kommt man gleich auf z.B. dies hier. Koennte das bei Euch zutreffen?
(Sorry, auch ich habe mir jetzt nicht die Muehe gemacht, um herauszufinden, ob der "Wellsburg" Chipsatz zu v4-Xeons passt...)

Alles in Allem:
Auch wenn man's im langen Laufe der Jahre liebgewonnen hat, spricht nichts gegen das eine oder andere Update, sowohl auf HW- wie auf SW-Seite, wenn denn seit Ewigkeiten solche bereits zur Verfuegung stehen.

churchnerin · Beitragvon **churchnerin** » 02.08.2022, 08:43

JustMe hat geschrieben:Koennen koennte man schon, nur machen wird's wohl keiner mehr. Bei dem abgebildeten Stand wird der VMware-Support nur noch mitleidig schmunzeln.

Der Hinweis von "Martin" ist schon nicht von der Hand zu weisen...

Ansonsten bliebe nur, die Suchmaschine des Vertrauens mit den Zeilen aus dem PSoD zu quaelen.

Und wenn man dies tut, kommt man gleich auf z.B. dies hier. Koennte das bei Euch zutreffen?
(Sorry, auch ich habe mir jetzt nicht die Muehe gemacht, um herauszufinden, ob der "Wellsburg" Chipsatz zu v4-Xeons passt...)

Alles in Allem:
Auch wenn man's im langen Laufe der Jahre liebgewonnen hat, spricht nichts gegen das eine oder andere Update, sowohl auf HW- wie auf SW-Seite, wenn denn seit Ewigkeiten solche bereits zur Verfuegung stehen.

Vielen Dank für eure Hilfe.
Ich gebe euch vollkommen recht. Da gehört alles mal anständig aktualisiert.
Danke für den Link.
Ja, im Server ist ein Intel Xeon E5-2618L v4. Könnte dann natürlich das Problem sein.
Konntest du das aus dem PSOD irgendwie rauslesen?

JustMe · Beitragvon **JustMe** » 02.08.2022, 10:24

Nur, um's nochmal ganz klar zu stellen:
Der Xeon v4 ist nicht das Problem; wenn der Artikel von T.Krenn zutrifft, dann ist das fehlende HW-Update die Ursache des Problems.

Ansonsten konnte ich nix aus dem PSoD rauslesen. Das kann man nur mit den Kernel-Quellen, also wohl nur VMware selber.
Wie bereits geschrieben, habe ich nur den Text "PanicvPanicInt" in Verbindung mit "PSoD" gesucht, und auf das wahrscheinlichste Ergebnis getippt. Bei einem solchen PSoD sind, neben den augenscheinlichen Dingen wie veraltete Software, Uptime, und dem Fehlertext in der zweiten Zeile, die letzten Befehle auf dem Stack die wichtigsten Hinweise. Und meistens hat dann doch schon irgendwer sonst auf der Welt mit dem Fehler zu kaempfen gehabt...

VMware-Forum

VMware vSphere 6 einfach eingefroren

VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Re: VMware vSphere 6 einfach eingefroren

Wer ist online?