Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!

VMWARE ESXI 6.0 Absturz

Alles zum Thema vSphere 6, ESXi 6.0 und vCenter Server.

Moderatoren: irix, continuum, Dayworker

Member
Beiträge: 7
Registriert: 07.05.2016, 15:09

VMWARE ESXI 6.0 Absturz

Beitragvon autoexec1 » 07.05.2016, 16:22

Hallo Zusammen,
habe in letzter zeit oft ein Problem mit Meinem ESXI 6.0 Server

und zwarist dieser nach ca 2-3 Wochen Uptime nicht mehr im Netzwerk erreichbar (Sowohl das Host-Management als auch die VMs)
via IPMI/Monitor lässt sich das ESXI dann jedoch bedienen. Beim Versuch darüber neu zu starten, kommt eine Fehlermeldung (http://www.fotos-hochladen.net/view/14t8kfs17lh.png + http://www.fotos-hochladen.net/view/21f4y3kw8bi.png) und das System friert ein.
Nach einem Reset bootet die ESXI wieder normal, die VMs starten als wäre nichts gewesen

Hat jemand eine Idee woran das liegt??

System:
Supermicro X8SIL-F
Intel XEON X3440
32GB DDRIII-ECC Ram (Memorytest erfolgreich)
4GB Sata DOM-Modul für ESXI
1x 256GB SSD + 1TB HDD als Datastore

Bild

Bild

King of the Hill
Beiträge: 13331
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Beitragvon Dayworker » 07.05.2016, 16:51

Die CPU ist schon etwas älter und daher hat sicherlich auch der RAM dasselbe Alter. Womit hast du den RAM getestet und bitte sag jetzt nicht Memtest oder den Speichertest beim Rechnerstart. Beides taugt nicht für eine zuverlässige Fehlererkennung und das wissen auch alle Händler. Speichertests macht man daher entweder mit dem vom Hersteller gelieferten Tool oder startet ein Primzahl-Programm direkt auf der HW mit Hilfe einer Live-CD auf Windows- oder Linux-Basis.

Unabhängig davon, hat das Bios irgendwelche Speicherfehler geloggt?

Member
Beiträge: 7
Registriert: 07.05.2016, 15:09

Beitragvon autoexec1 » 07.05.2016, 18:00

Dayworker hat geschrieben:Die CPU ist schon etwas älter und daher hat sicherlich auch der RAM dasselbe Alter. Womit hast du den RAM getestet und bitte sag jetzt nicht Memtest oder den Speichertest beim Rechnerstart. Beides taugt nicht für eine zuverlässige Fehlererkennung und das wissen auch alle Händler. Speichertests macht man daher entweder mit dem vom Hersteller gelieferten Tool oder startet ein Primzahl-Programm direkt auf der HW mit Hilfe einer Live-CD auf Windows- oder Linux-Basis.

Unabhängig davon, hat das Bios irgendwelche Speicherfehler geloggt?


So alt ist der Ram nichtmal, circa 1 Jahr alt, da ich ihn mal aufgrund einer Aufrüstung gekauft habe (Neu)

Getestet habe ich die Module Einzeln sowie einmal die gesamtkonfig
- Auf dem Server selbst mit MEMTEST
- auf einem anderen Rechner mit einer Spezialsoftware von HP (Welche ich auch in der Firma verwende)

Fehler wurden nicht geloggt:-)

King of the Hill
Beiträge: 13331
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Beitragvon Dayworker » 07.05.2016, 18:46

Teste den RAM bitte mal direkt auf der HW mit einer Live-CD und Prime95. Nur weil Memtest keine Fehler anzeigt, muß das aus eigener Erfahrung rein garnix heissen. Die CPU und somit auch der integrierte Speicherkontroller ist etwas angegraut, da könnten sich nur dadurch bereits leichte Timingprobleme zeigen. Auch wenn du den RAM als "neu" gekauft hast, kann dieser durch falsche Lagerung oder beim Transport ESD-technisch beschädigt worden sein. Sowas sieht man aber nicht.

Weitere Ursachen für solche merkwürdigen und meist nur sehr schwer nachverfolgbaren Fehler könnten auch Verbindungsprobleme mit dem DIMM-Slot (kalte Lötstellen auf dem MB sehen meist nur erfahrenere Elektronikbastler mit Löterfahrung oder Leute vom Fach), schwergängige Lüfter und damit unzureichender Kühlung der Bauteile um den CPU-Sockel oder auch ganz ordinäre NT-Spannungsprobleme sein. NTs altern halt auch.

Ich würde zur Fehlersuche in der Reihenfolge RAM, CPU (der Speicherkontroller sitzt ja seit ein paar Jahren auch bei Intel in der CPU), Lüftergängigkeit und NT vorgehen. Die ersten drei Punkte lassen sich zudem direkt mit Prime95 testen, da die neueste Version sowohl AVX als auch FMA vollständig ausnutzen kann. Jede CPU wird unabhängig von AVX, FMA etc unter absolute Volllast gesetzt. Etwaige Probleme bei der Kühlung zeigen sich dann erfahrungsgemäß innerhalb weniger Sekunden bis Minuten. Für alle halbwegs aktuellen CPUs ist dies kein Problem, da sich die CPU im Notfall auch komplett abschaltet. Weshalb ich gerade auf Prime95 schwöre, hängt damit zusammen, daß ohne dieses Tool der Bug in den aktuellen Skylake-CPUs wohl niemals gefunden worden wäre.


Zurück zu „vSphere 6.0“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast