Seite 1 von 1

CPU Last auf Host laut vSphere und abstürze

Verfasst: 30.06.2021, 10:47
von AlexanderMueller
Hallo,

hoffe uns kann eventuell hier geholfen werden.

Haben 16 Dell Hosts (R630 und R640), diese haben VMware ESXi, 7.0.2, 17867351, dazu wird alles über vSphere Version: 7.0.2 Build: 17958471 verwaltet und alles unter HA.

Seit der Version 7.0.2 haben wir das problem, das in unterschiedlichen Abständen die CPU der Hosts laut vSphere auf 100% geht und somit das ESXi sich aufhängt und teilweise die VMs mit sich zieht. Die betroffenen Host werden in vSphere dann als Getrennt oder nicht verbunden angezeigt und die VMs mit dem Status unbekannt.

Es kann nur noch über iDRACK der Host neugestartet werden, durch dieses Problem funktioniert das HA nicht und ein verschieben der VMs ist nicht möglich und werden mit den Neustart zwangsabgeschaltet.

Laut iDRACK ist aber die CPU im dem Moment nicht ausgelastet, was vermutlich ein vSphere/ESXi problem ist, da das Lokale ESXi zwar reagiert, aber keine Aktionen möglich sind (z.B. die VMs aufm betroffenen Hosts herunterzufahren).

Da wir die VMware LIzensen direkt von VMware beziehen, gibt es nur über die Support, aber der lässt auf sich warten oder es wird auf Herbst verwiesen, da dann ein geplantes Update kommen soll.

Re: CPU Last auf Host laut vSphere und abstürze

Verfasst: 30.06.2021, 15:56
von irix
Moin,

ich bin Herr ueber hunderte von Dell ESXi Servern. Ein Verhalten wie du es beschreibst mit hoher CPU Last konnte ich noch nicht beobachten. Allerdings ist die Welle was Upgrade nach vSphere 7 angeht gerade zum stoppen bekommen auf der Grund der Problematik mit dem VMware USB Driver fuer die Ansteuerung der dualen SD Karten/USB Stick und das mit dem Upate 2 diese zu tode geschrieben werden und der Host unverwaltbar wird nach ein paar Tage.

Die Frage ob es eine Kombination aus FW Stand und Konfigurationsoption zu deinem Problem fuehrt und es aus diesem Grund nicht die breite Masse betrifft. Hier sind gerade die Power einstellunge oftmals das Zuenglein an der Waage. Wir konnten z.B unsere R820 wiederholbar in einen BSOD treiben nur weil wir die Stromsparmassnahmen aktiviert hatten.

Gruss
Joerg

PS: Die Remote Managementkarte heist nur iDRAC ohne 'K'.

Re: CPU Last auf Host laut vSphere und abstürze

Verfasst: 05.07.2021, 16:35
von AlexanderMueller
Das mit dem Tod schreiben der SD Karte hatten wir auch, haben dank Dell Support einen SSH befehl bekommen, der das unterbindet.

Das ist die CPU Auslastung laut iDRAC /Host
cpu.JPG
cpu.JPG (20.37 KiB) 2534 mal betrachtet


Und das ist die Auslastung laut vSphere, aufgetreten gegen 13uhr
cpu1.JPG


Das ist die Auslastung laut ESXi aufm Host
cpu2.JPG


Aber alle VMs sind laut lokalem ESXi normal und grün.

Aber ein migrieren oder ausschalten ist nicht möglich
und der Host kann nur über iRAC neugestartet werden.

Werden die tage bei VMware ein Ticket aufmachen
da es bei allen Hosts auftritt

Re: CPU Last auf Host laut vSphere und abstürze

Verfasst: 05.07.2021, 20:54
von irix
AlexanderMueller hat geschrieben:
Aber ein migrieren oder ausschalten ist nicht möglich
und der Host kann nur über iRAC neugestartet werden.



Oeh.... kannst du mal ueber die iDRAC eine Konsole aufmachen und Alt-F11 druecken. Stehen da roten Meldungen und wenn ja welche?

Gruss
Joerg

Re: CPU Last auf Host laut vSphere und abstürze

Verfasst: 15.07.2021, 16:26
von AlexanderMueller
Hi, also über iDRAC sind keine Meldungen,
das Problem ist anscheinend gelöst,
habe einen Beitrag gefunden gehabt, der hatte das gleiche Problem
und hat dass gleiche wie bei der BootBank mit SD Karte gemacht

Hatte in den Logs überall "hostd performance has degraded due to high system latency" gehabt,
anscheinend wegem /Bootbank verursacht

hab dann über SSH das geprüft
esxcli system settings advanced list -o /UserVars/ToolsRamdisk
und value auf 1 gemacht und seit dem keinen mehr Absturz gehabt

Re: CPU Last auf Host laut vSphere und abstürze

Verfasst: 15.07.2021, 16:37
von irix
!GRRRRRRRRRRRRR! :?

Wenn du mal ALT-F11 gedrueckt haettest.

Davon ist Gott und die Welt betroffen... wir auch und entsprechender #SR bei VMware offen. VMware sagt das sie das Problem mit dem U3 angehen. Der ein oder andere hat vom Support auch den angepassten USB Treiber bekommen.

Gruss
Joerg

Re: CPU Last auf Host laut vSphere und abstürze

Verfasst: 23.07.2021, 11:32
von AlexanderMueller
So, trotz dem eintrag mit dem ToolsRamdisk, hat es 2 server getroffen,

Einer lief weiter, nur waren die VMs nicht mehr herunterfahrbar oder änderbar, und gab fehlermeldungen bezüglich bootbank, CPU war normal.
(Die SD Karten und Controller wurden vor kurzem von Support ausgetauscht worden)

Mit den befehlen auf SSH ebene
"/etc/init.d/hostd restart
/etc/init.d/vpxa restart"
konnten die Maschinen wenigstens sauber heruntergefahren werden

Den anderen Server hat es getroffen, das die CPU auf 100% ging, keine meldung über bootbank, aber meldungen "hostd performance has degraded due to high system latency"

Nach teilweise force restart, laufen die wieder normal.

Habe in einigen Foren gelesen, das am 15Juli ein Hotfix/Update hätte kommen sollen

Re: CPU Last auf Host laut vSphere und abstürze

Verfasst: 23.07.2021, 11:37
von irix
Ja.. der Workaround mit der Ramdisk verlaengert nur die Laufzeit ein wenig... eine Loesung ist es nicht. Hier und da haben wir bei Kunden das Downgrade auf 6.7 gemacht.

Ja und nun munkelt man das U3 auf naechsten Monat verschoben ist.

Gruss
Joerg