Seite 1 von 1

Installation von ESXI - NUMA node 0 has no memory...

Verfasst: 23.07.2010, 14:33
von jayjay0911
Hallo Leute.
Bin neu hier, daher erst mal ein Hallo in die Runde.
Ich habe ein Problem bei der Installation von ESXI 4. Ich würde gerne einen "Screenshot" des ganzen Fehlers anhängen, aber ich erhalte immer die Meldung "Entschuldingung, aber die maximale Größe aller Attachments wurde erreicht. Bitte kontaktiere den Board Administrator wenn du Fragen hast."
Daher tippe ich mal den Wortlaut ab:

VMware ESXi 4.0.0 build-171294

The system has found a problem on your machine and cannot continue.

The BIOS reports that NUMA node 0 has no memory. This problem is either caused by a bad BIOS or a very unbalanced distribution of memory modules.

Was ich bisher rausfinden konnte ist, dass der NUMA node irgendwas mit der Speicherverteilung bei 2 AMD CPUs zu tun hat. Allerdings werden in dem betroffenen Server 2 Intel CPUs (Xeon X5550) eingesetzt. Bisher konnte ich noch nichts finden, was diesen Fehler mit Intel beheben lässt.

Ich hatte nur bisher mal den Tipp gefunden, die Aufteilung der Speicher auf die Bänke zu überprüfen.

Eingesetzt werden 32 GB, aufgeteilt auf 8 Riegel zu je 4 GB (alles gleicher Hersteller und Modell). Die Riegel wurden laut Anleitung genau installiert, so dass für jede CPU 16 GB zur Verfügung stehen. Es wurde sich genau an die Vorgaben aus der Anleitung gehalten. Daran kann es eigentlich nicht liegen.

Hilft evtl. ein BIOS Update?? Aktuell läuft folgendes BIOS:
Amibios
Version: A9298IMS.10C
Build Date: 11/09/09
v02.61

Hat jemand noch eine Idee??

Verfasst: 23.07.2010, 14:41
von Tschoergez
Hi,

Anhänge gehen hier schon lange nicht mehr, deswegen: http://ifile.it

Zu Deinem Problem: Was hast Du denn für einen Server (Hersteller, Modell, Serie, Generation...)

Gibts denn ein neues Bios / neue Firmware für Dein Gerät?

Gibts im Bios Parameter für NUMA?

Viele Grüße,
Jörg

Verfasst: 23.07.2010, 14:56
von jayjay0911
Danke für den Tipp. Die genaue Fehlermeldung findet ihr jetzt hier: http://ifile.it/m8hpru9/IMG082.jpg

Es handelt sich um einen MSI Server, Modell MS-9298, siehe http://www.msi.com/index.php?func=prodd ... od_no=1927

Im BIOS konnte ich keinerlei NUMA Parameter finden. Ich bin gerade noch am suchen, ob es ein Update dafür gibt...

Edit: Habe von VMware auch die CPU und Memory-Tests drüber laufen lassen, angeblich alles i.O.

Verfasst: 23.07.2010, 15:01
von Tschoergez
Ist der Server überhaupt für nen ESX supported?
http://www.vmware.com/resources/compati ... search.php

Verfasst: 23.07.2010, 15:05
von jayjay0911
Hmmm...MSI wird nicht aufgeführt, aber wir haben schon den ein oder anderen MSI Server mit ESXi in Betrieb.

Verfasst: 23.07.2010, 15:34
von Dayworker
Unabhängig ob der MSI-Server auf der HCL steht, die NUMA-Meldung hat einen anderen Hintergrund. Der 55XX-Chipsatz ist wie der X58 mit einem Tripple-Channel-Interface ausgestattet. Wenn du also 4 RAM-Riegel für jeden Sockel steckst, sind nicht alle Channels gleichmäßig belastet und darüber beschwert sich der ESX(i). Die Folge sind enorme Performanceeinbußen.

Also entweder ziehst du einen Riegel pro Sockel (blöd, man hat nie genug RAM in der Virtualisierung) oder du steckst jeweils 2 weitere Riegel hinzu. ;)

Verfasst: 23.07.2010, 15:46
von jayjay0911
Das war's leider nicht. Vermute, es liegt am AMIBIOS. Es gibt anscheinend von denen auch Versionen, wo man dieses NUMA ausschalten kann, bei unserem geht's nicht.

Edit: Ich kann im BIOS beim memory fast gar nix einstellen, außer der Frequenz und dem Mode (Independent, Channel Mirroring oder Lockstep). Gibt's hier eine Empfehlung??

Verfasst: 23.07.2010, 16:24
von Dayworker
Ich wage bei dem Chipsatz und CPU zu bezweifeln, daß das so im Handbuch stand. Aber auf der MSI-Seite findet sich ja nicht mal ein Download des Server-Handbuchs und der einzigste FAQ-Eintrag zum MS-9298 datiert ins Jahr 2003.

Bei Tripple-Channel machen nur 3 oder 6 Module bzw Vielfache von 3 pro Speicherbank einen Sinn und bei deinen 12 Slots ist die Rechnung doch ganz einfach. Auch wenn du im Bios dazu was ändern könntest, würde sich der ESX(i) immer noch über die Disbalance deines installierten Speichers beschweren.

Verfasst: 23.07.2010, 16:27
von jayjay0911
Dayworker hat geschrieben:Ich wage bei dem Chipsatz und CPU zu bezweifeln, daß das so im Handbuch stand. Aber auf der MSI-Seite findet sich ja nicht mal ein Download des Server-Handbuchs und der einzigste FAQ-Eintrag zum MS-9298 datiert ins Jahr 2003.

Was genau meinst du damit?? Also mit Chipsatz im Bezug auf das Handbuch? Ich habe nur gemeint, dass es im Handbuch stand, welche der 12 Bänke beim Einsatz von 8 Modulen zu bestücken sind. Das Handbuch ist allerdings unabhängig von der CPU, die wurde separat eingekauft. Genau wie der Arbeitsspeicher.

Hier der entscheidende Auszug aus dem Handbuch:

1 DIMM CPU1_DIMM1 (Channel A0)

2 DIMMs CPU1_DIMM1 (Channel A0) + CPU2_DIMM1 (Channel A0)

3 DIMMs CPU1_DIMM1 (Channel A0) + CPU2_DIMM1 (Channel A0) +
CPU1_DIMM4 (Channel A1)

4 DIMMs CPU1_DIMM1 (Channel A0) + CPU2_DIMM1 (Channel A0) +
CPU1_DIMM4 (Channel A1) + CPU2_DIMM4 (Channel A1)

5 DIMMs CPU1_DIMM1 (Channel A0) + CPU2_DIMM1 (Channel A0) +
CPU1_DIMM4 (Channel A1) + CPU2_DIMM4 (Channel A1) +
CPU1_DIMM2 (Channel B0)

6 DIMMs CPU1_DIMM1 (Channel A0) + CPU2_DIMM1 (Channel A0) +
CPU1_DIMM4 (Channel A1) + CPU2_DIMM4 (Channel A1) +
CPU1_DIMM2 (Channel B0) + CPU2_DIMM2 (Channel B0)

7 DIMMs CPU1_DIMM1 (Channel A0) + CPU2_DIMM1 (Channel A0) +
CPU1_DIMM4 (Channel A1) + CPU2_DIMM4 (Channel A1) +
CPU1_DIMM2 (Channel B0) + CPU2_DIMM2 (Channel B0) +
CPU1_DIMM5 (Channel B1)

8 DIMMs CPU1_DIMM1 (Channel A0) + CPU2_DIMM1 (Channel A0) +
CPU1_DIMM4 (Channel A1) + CPU2_DIMM4 (Channel A1) +
CPU1_DIMM2 (Channel B0) + CPU2_DIMM2 (Channel B0) +
CPU1_DIMM5 (Channel B1) + CPU2_DIMM5 (Channel B1)

9 DIMMs CPU1_DIMM1 (Channel A0) + CPU2_DIMM1 (Channel A0) +
CPU1_DIMM4 (Channel A1) + CPU2_DIMM4 (Channel A1) +
CPU1_DIMM2 (Channel B0) + CPU2_DIMM2 (Channel B0) +
CPU1_DIMM5 (Channel B1) + CPU2_DIMM5 (Channel B1) +
CPU1_DIMM3 (Channel C0)

10 DIMMs CPU1_DIMM1 (Channel A0) + CPU2_DIMM1 (Channel A0) +
CPU1_DIMM4 (Channel A1) + CPU2_DIMM4 (Channel A1) +
CPU1_DIMM2 (Channel B0) + CPU2_DIMM2 (Channel B0) +
CPU1_DIMM5 (Channel B1) + CPU2_DIMM5 (Channel B1) +
CPU1_DIMM3 (Channel C0) + CPU2_DIMM3 (Channel C0)

11 DIMMs CPU1_DIMM1 (Channel A0) + CPU2_DIMM1 (Channel A0) +
CPU1_DIMM4 (Channel A1) + CPU2_DIMM4 (Channel A1) +
CPU1_DIMM2 (Channel B0) + CPU2_DIMM2 (Channel B0) +
CPU1_DIMM5 (Channel B1) + CPU2_DIMM5 (Channel B1) +
CPU1_DIMM3 (Channel C0) + CPU2_DIMM3 (Channel C0) +
CPU1_DIMM6 (Channel C1)

12 DIMMs CPU1_DIMM1 (Channel A0) + CPU2_DIMM1 (Channel A0) +
CPU1_DIMM4 (Channel A1) + CPU2_DIMM4 (Channel A1) +
CPU1_DIMM2 (Channel B0) + CPU2_DIMM2 (Channel B0) +
CPU1_DIMM5 (Channel B1) + CPU2_DIMM5 (Channel B1) +
CPU1_DIMM3 (Channel C0) + CPU2_DIMM3 (Channel C0) +
CPU1_DIMM6 (Channel C1) + CPU2_DIMM6 (Channel C1)

Verfasst: 23.07.2010, 16:56
von Dayworker
Woher du CPU und Speicher hast, ist unwichtig. Es geht rein um die Organisation der Speichermodule zu CPU-Sockel.
Um es einfach zu sagen, Performancetechnisch ist alle unter 3 Riegeln pro Sockel eine Katastrophe. 7 und 8 Riegel ist also genauso ungeschickt, wie 10 oder 11 installierte Riegel. Nur mit einem vollen Channel kann der Speicherkontroller in der CPU maximal performen. Bei 8 Riegeln hast du eine Speicherbank mit 3 deiner 6 vorhandenen Slots pro Sockel voll belegt und die andere Speicherbank ist mit 1 Riegel unterbesetzt, da nur ein Channel belegt wird. Daher solltest du den RAM für maximale Performance symmetrisch unter Beachtung des Channel-Interfaces installieren.

9 Riegel sind ein Sonderfall in meinen Augen. Bei dir wäre dann ein Sockel mit beiden Speicherbänken voll belegt und der andere Sockel nur mit einer Bank. Da beide Bänke aber untereinander auch noch Interleaving machen, hättest du trotzdem leichte Einbußen im Speicherdurchsatz.

Verfasst: 23.07.2010, 17:24
von Supi
Also wir haben nen Dell R610, damals auch leider mit 8x2GB Ram gekauft. Also eher ungünstig.
Bei Dell steht was zur Bestückung bei Nehalems CPU's:
http://supportapj.dell.com/support/edoc ... #wp1488162

Verfasst: 23.07.2010, 17:35
von irix
@jayjay0911

probiert halt mal mit einer CPU und dann 3 Modulen und schau wie sich ESX verhaelt. Wenn es dann funktioniert kauft halt noch 2 Module nach und fertig.
Das mit dem TrippleChannel und Nehalem ist eigentlich nichts neues da die Dinger nun schon 1.5 Jahren auf dem Markt sind.

Trotzdem finde ich das komisch das ESX sich zu rumzickt. Stell dir nur mal vor es geht Speicher kaputt und bis zum Austausch kann es ja ein paar Stunden dauern. In der Zeit waere der ganze Host ja ausser Betrieb :shock:

Falls ich naechste Woche mal Langeweile habe baue ich aus unseren DELL R710 mal Speicher aus und gucke obs noch bootet. Sollte dem so sein wuerde ich die Schuld deinem Board/BIOS in die Schuhe schieben.

Gruss
Joerg

Verfasst: 23.07.2010, 20:49
von Dayworker
@irix
Wenn der Speicher im Betrieb ausfällt, wird der ESX(i) damit weniger Probleme haben. Er wird einen Logeintrag machen und dann mit verminderter Speicherperformance weiter machen. Zur Inst sieht das schon ganz anders aus, da ist es durchaus denkbar, daß der ESX(i) in diesem Fall die Inst komplett verweigert.

Den CPU-Tausch oder -entnahme sollte man besser vermeiden. Die Federbeinchen im Sockel verkraften nicht sehr viele Wechsel. Auch die Entnahme einer CPU bringt nicht viel, er verliert dadurch nur den über den zweiten Sockel und dessen 6 Slots installierten RAM. Dell mit ihrer FlexMem-Bridge sind meines Wissens nach der einzigste Anbieter von Nehalem-basierten Servern, die den RAM-Vollausbau ihrer Servers mit nur einer CPU überhaupt unterstützten. Der Hintergrund dafür ist, daß die Slots jeweils fest einem Sockel zugeordnet sind und beide Sockel nur über die Speicherkontroller in der CPU bzw genauer über den QPI kommunizieren können. Nur wenn beide Sockel bestückt sind, kann jeder Sockel den Speicher des anderen sehen und genau hier setzt Dell's FlexMem Bridge an. Es verschaltet den leeren CPU-Sockel mit Hilfe einer Bridge so, daß der andere Sockel trotzdem den gesamten installierten Speicher sieht. Das absolut geniale daran ist, daß es sich auch erweitern läßt. Es wird dann halt für jeden leeren Sockel eine Bridge gebraucht.
Einen Nachteil hat diese Bridge allerdings, der Speicherdurchsatz sinkt etwas, da die Speicherlatenz ansteigt.

@jayjay0911
Ich würde dir deshalb empfehlen, den ESX(i) erstmal nur mit 3 Riegeln pro Sockel (also 24GB RAM) in Betrieb zu nehmen und bis zum nächsten Wartungsfenster 2 weitere 4GB-Module pro Sockel einzukaufen.

Verfasst: 23.07.2010, 20:58
von irix
Wenn ein Modul kaputt geht dann Crashed der ESX (da hab ich Erfahrung :). Will man ihn wieder in Betrieb nehmen wuerde man das Modul ausbauen bis Ersatz da ist. Da waere es dumm wenn er nicht mehr starten wuerden

Die Flex Memorybridge gibt es nur fuer die R810.

Wie er seine 2 Sockel Kiste in Betrieb nehmen soll wenn die Memory Module in den Baenken nur einer CPU stecken ist mir nicht klar.

Reden wir aneinander Vorbei? Ich wollte nur wissen ob sein Board/CPU Kombo nun generell ein Problem hat oder obs etwas ist was jeden ereilen kann.

Gruss
Joerg

Verfasst: 23.07.2010, 21:23
von Dayworker
Wenn er nur eine CPU hat, was laut seinem Erstposting nicht der Fall ist, erkennt das Board auch nur den dieser CPU zugeordneten Speicher. Es spricht ja nichts dagegen, eine Mehrsockelmaschine erstmal nur mit einer CPU und damit reduziertem Speicherausbau in Betrieb zu nehmen. Aus seiner Handbuchauszug zur Speicherbestückung läßt sich aber erkennen, daß sich 2 bestückte Sockel mit einem Riegel nicht in Betrieb nehmen lassen. Es gibt allerdings auch Server-Hersteller, die das trotzdem bewerkstelligen. Das sich sowas dann natürlich nur unter Performanceverlusten realisieren läßt, steht auf einem anderen Blatt.

Damit der ESX(i) nicht crashed, gibt es ja Lockstep und Channel-Mirroring. Falls doch sollte der ESX(i) in diesem Fall wieder hochkommen, da er ja schon erfolgreich installiert war. VMware wird hoffentlich nur die Inst bei fehlerhaften Speicherausbau blockieren haben...


PS: Danke für die Info zum R810 bezüglich FlexMemBridge.

Verfasst: 23.07.2010, 23:35
von Saturnous
Gibt in einigen Biosen eine Option zum Einschalten von "Memory Interleaving" was die NUMA Nodes wieder zu einer Node zusammenfasst. Ich vernute mal das dieses "Backwardcompatibility" Feature angeschaltet ist.

Verfasst: 26.07.2010, 09:40
von jayjay0911
Dayworker hat geschrieben:@jayjay0911
Ich würde dir deshalb empfehlen, den ESX(i) erstmal nur mit 3 Riegeln pro Sockel (also 24GB RAM) in Betrieb zu nehmen und bis zum nächsten Wartungsfenster 2 weitere 4GB-Module pro Sockel einzukaufen.


Wie oben schon beschrieben, habe ich es schon mit 3 Riegeln pro Sockel probiert. Hat nicht gefunzt.

Saturnous hat geschrieben:Gibt in einigen Biosen eine Option zum Einschalten von "Memory Interleaving" was die NUMA Nodes wieder zu einer Node zusammenfasst. Ich vernute mal das dieses "Backwardcompatibility" Feature angeschaltet ist.


Wie ich schon oben mal geschrieben habe, gibt es im BIOS für Memory nur folgende Optionen: Frequenz und der Mode (Independent, Channel Mirroring oder Lockstep). Gibt's hier eine Empfehlung??

Verfasst: 26.07.2010, 10:37
von jayjay0911
Da wir ja 2 solche Server haben, habe ich mir von dem zweiten mal 4 Module geklaut und in den anderen Server eingebaut, also sind dort jetzt alle 12 Bänke belegt...selber Fehler! Nix geht.

Verfasst: 26.07.2010, 11:02
von Dayworker
Welche Bios-Einstellung ist denn bei dir aktiv? Independent, Channel Mirroring oder Lockstep stehen zur Auswahl. Falls das Handbuch dir keine Hintergrundinfo's dazu gibt, lies dir mal http://supportapj.dell.com/support/edoc ... #wp1488162 durch. Da siehst du auch, daß mit den einzelnen Modi nicht immer alle Slots bestückt werden dürfen und es große Unterschiede bei den unterstützten Modulgrößen zwischen UDIMMs und RDIMMs gibt. Das wird auch bei dir der Fall sein -> Manual. Wenn du alle Speicher-Slots nutzen willst, dürfte Independent korrekt sein.

Ein Channel sollte immer mit demselben Modul-Kit ausgestattet werden. Dafür gibt es ja extra Tripple-Channel-Kits, alles andere kann und muß nicht funktionieren. U- und RDIMMs lassen sich dabei genauso wenig mischen, wie manche Kits verschiedener Hersteller. Auch da sollten entweder das Manual oder eine aktuellere QVL-Auflistung im Web für Klarheit sorgen.

Verfasst: 26.07.2010, 11:19
von jayjay0911
Vielleicht hilft ja noch, welcher RAM verwendet wird: http://www.ec.kingston.com/ecom/configu ... D4R9SK2/8G

Defekt oder so kann der Arbeitsspeicher auch nicht sein, da sich sowohl Windows Server direkt oder ein Citrix Xen Server installieren lassen würden.

Verfasst: 26.07.2010, 11:23
von jayjay0911
So, habe gerade eine Antwort vom Server-Hersteller erhalten. Die wollen uns ein BIOS basteln, wo man die NUMA-Funktion deaktvieren kann. Mal sehen, ob es dann geht. Werde mich dann hier noch mal melden.

Verfasst: 26.07.2010, 11:34
von Dayworker
Der Speicher könnte trotzdem defekt sein, Windows ist keine verläßliche Anzeige dafür. Auf Virtualisierungs-Hosts ist der RAM immer wesentlich mehr gefordert, als auf jedem anderen OS und Fehler fallen deshalb dort auch besonders schnell auf. Wenn du einen Defekt vermutest, ist Memtest nur noch bedingt geeignet. Such mal hier im Forum nach "Orthos Multiprime", da hab ich die Hintergründe oft genug beschrieben.

Steht das Dual-Kit auf der Server-QVL von MSI? Eventuell teilt das Bios diesen Umstand auch dem OS also ESX mit oder du hast jetzt den Grund, weshalb dein MSI-Server nicht auf der VMware-HCL steht. Wie schon mal gesagt, ist die MSI-Webseite keine Informationsfundgrube und ein downloadbares Handbuch finde ich auch nicht.


[add]
NUMA zu deaktivieren halte ich für nicht sinnvoll. Damit verlierst du extrem an Speicherperformance. Sieh dir dazu mal die Nehalem-basierten miesen SPEC-Werte von Apples Xserve-Servern an.

Verfasst: 30.07.2010, 16:49
von jayjay0911
Soooooo, MSI hat uns ein entsprechendes BIOS zur Verfügung gestellt, wo man NUMA deaktivieren kann.
Anschließend musste bei der Installation noch ACPI ausgeschaltet werden und schon läuft die Kiste.
Danke für alle Tipps.

Verfasst: 31.07.2010, 00:10
von Dayworker
Konntest du ACPI nach der Inst problemlos einschalten oder nicht? Weil ohne ACPI funktionieren weder Turbomode noch Speedstep und beides hat man ja mitbezahlt. Ohne ACPI sind auch sämtliche Energiematrizen des Server-Herstellers reine Makulatur...