Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!

Server Hardware Fehler eruieren - vSphere

Alles zum Thema vSphere 6.5, ESXi 6.5 und vCenter Server.

Moderatoren: irix, Dayworker

Benutzeravatar
Profi
Beiträge: 604
Registriert: 20.10.2011, 17:55

Server Hardware Fehler eruieren - vSphere

Beitragvon MarroniJohny » 28.04.2018, 18:44

Hi

Ich habe da (seit ewigen Zeiten) ein Problem mit meinem Server. Der macht eigentlich alles was er soll. Ausser kopieren über Netzwerk, da friert er gerne mal ein. Des Weiteren ist wohl der Switch involviert, da entweder der Server den Switch mit in den Tod zieht, oder umgekehrt. D.h., wenn ich z.B. ein Backup von 200 GB einer VM machen möchte, dann geht der Server down (selbst die Hardware Konsole am ESXi ist eingefroren), und zu dem Zeitpunkt nimmt es auch den Switch mit. Da ist dann gar kein Netzwerk mehr am Switch verfügbar, welcher hinter einer Zywall 110 hängt. Der Server und der Switch reagieren dann einfach nicht mehr.

Das Netzwerk siehst Du hier:

Netzwerk vSphere

Wenn ich einfach Last mit den VM’s erzeuge, z.B. 5 Windows VM‘s gleichzeitig starte, dann macht das dem Server gar nichts aus. Nur kopieren über Netzwerk ist das Problem, so wie ich das sehe.

Ich habe da schon diverses ausprobiert, um den Fehler zu finden. Ich habe schon die Quad Port NIC getauscht. Dann hatte ich die Southbridge des Boards im Verdacht. Ich habe jedoch neulich einen HBA eingebaut (im IT Mode geflasht und an ein NAS OS durchgereicht); der Fehler besteht weiterhin. Ausserdem habe ich einen neuen CPU Kühler montiert, und alle Ventis ausgetauscht. Auch die GPU und Netzteil vom Server wurde schon getauscht.

Der Server ist ein total unsupportetes X79 Desktophardware System mit 64 GB RAM. vSphere ist soweit aktuell, wobei ich habe das Problem wie gesagt schon ewig.

Ich habe einen USB Stick mit vSphere drauf. Dann hängt dort eine kleine lokale SSD am Chipsatzcontroller, wo die beiden Filer drauf sind. An eines dieser NAS OS hängt eine VMDK an allen Netzen (z.B. LAN, DMZ, LAN2) am ASMedia vom Board, sozusagen als Netzwerk Zwischenablage für alle VM‘s. Am zweiten NAS OS am durchgereichten Dell Perc H310 HBA (nas4free) hängen einerseits eine 2 TB Consumer SSD für die VM’s, andererseits zwei 6 TB WD Gold. Die beiden Festplatten haben je einen SMB Share (Daten), die SSD wird dem ESXi per NFS zur Verfügung gestellt.

Ich habe nun eine kleine SSD zur Verfügung. Der Plan ist, die Mal in den Server einbauen, und dort ein Windows 7 zu installieren. In dem Windows kann ich dann mal Prime laufen lassen, den Arbeitsspeicher überprüfen, und so was. Weil ich glaube, das ist irgendein Problem mit dem Board/der CPU/dem Speicher.

Nur bin ich etwas unschlüssig, wie ich das bewerkstelligen soll. Muss ich da den HBA-, und den onboard SATA Controller abklemmen für die Tests? Ich muss ja dann auch kopieren auf Datenträger testen, habe leider aber nicht unbeschränkt Hardware zur Verfügung. Wär also schön, wenn ich das irgendwie mit der aktuellen Serverhardware testen könnte.

Bevor ich anfange, den Server zu zerlegen und testen: hat da einer grad noch ein Tipp dazu auf Lager, wie ich das am besten mache?

Gruss und Danke!

Profi
Beiträge: 875
Registriert: 18.03.2005, 14:05
Wohnort: Ludwigshafen

Re: Server Hardware Fehler eruieren - vSphere

Beitragvon Martin » 28.04.2018, 18:53

Welche physischen Netzwerkadapter werden verwendet?

Benutzeravatar
Profi
Beiträge: 604
Registriert: 20.10.2011, 17:55

Re: Server Hardware Fehler eruieren - vSphere

Beitragvon MarroniJohny » 28.04.2018, 19:16

Hi

Kch weiss jetzt gerade nicht so genau. Ich habe drei Karten:

HP NC365T
HP NC37x
Intel E1G44HT

Habe alle probiert, Auch mit der onboard NIC geht es nicht. Im Moment steckt gerade die HP NC365T.

Ach ja, die %RDY und #CSTP Werte sind auch ok.

Guru
Beiträge: 3081
Registriert: 27.12.2004, 22:17

Re: Server Hardware Fehler eruieren - vSphere

Beitragvon rprengel » 29.04.2018, 07:40

MarroniJohny hat geschrieben:Hi

Kch weiss jetzt gerade nicht so genau. Ich habe drei Karten:

HP NC365T
HP NC37x
Intel E1G44HT

Habe alle probiert, Auch mit der onboard NIC geht es nicht. Im Moment steckt gerade die HP NC365T.

Ach ja, die %RDY und #CSTP Werte sind auch ok.

Hallo,
ich habe mit einigen Fujitsu P900 lange ähnlich Problem die mittleweile erledigt sind.
Was es genau was kann ich nicht sagen aber wir haben
1)
das Bios der Pcs auf den aktuellen Stange gebracht
2)
Mittelweise ESX 6.5 im Einsatz
3)
einfache Inter-Karten verbaut und systematich mal ale pci Slots probiert.
4)
Im Bios alles abgeschaltet was mit Hardware zu tun hat und nicht gebraucht wird (on boards sound etc..)

Will sagen du wirst nur systematisch probieren können wenn du die Zeit und das Material hast-

Gruss

Benutzeravatar
Profi
Beiträge: 604
Registriert: 20.10.2011, 17:55

Re: Server Hardware Fehler eruieren - vSphere

Beitragvon MarroniJohny » 01.05.2018, 20:28

Hi

Ich habe jetzt mal alle Platten abgeklemmt, und eine SSD mit einem Windows drauf angeschlossen zum testen. Gestern Nacht habe ich Mal Prime95 v26.6 build3 (letzte Version ohne AVX) etwa eine Stunde rödeln lassen, bzw. den Blend Test, lots of RAM tested. Prime macht da keine Fehler, allerdings wird die CPU recht heiss, für ohne AVX (stabil um die 90°).

Verbaut ist eine 3930k CPU mit einem Alpenföhn Ben Nevis (14.10cm) Kühler
https://www.digitec.ch/de/s1/product/alpenfoehn-ben-nevis-1410cm-cpu-kuehler-3528419.

Ausserdem habe ich ein selbst gebasteltes Mod BIOS mit dem aktuellen uCU für Spectre II auf meinem Board
https://www.gigabyte.com/de/Motherboard/GA-X79-UD5-rev-10#ov (Gigabyte GA-X79_UD5).
Allerdings habe ich die Fehler auch mit dem anderen BIOS (aktuelle Version F12).

Dann habe ich Memtest v5.01 laufen lassen, weil ich trotz des fehlerfreien Runs von Prime95 den Speicher im Verdacht hatte. Und siehe da: schon nach wenigen Sekunden memtest gibt es zahlreiche Fehler (siehe Screenshots im Anhang).

Verbaut ist folgender Speicher (2x Quad Kit, 64 GB insgesamt):
https://www.digitec.ch/de/s1/product/corsair-vengeance-lp-4x-8gb-ddr3-1600-dimm-240-arbeitsspeicher-329605
Corsair Vengeance LP (4x, 8GB, DDR3-1600, DIMM 240)

Ich habe das XMP Profil im BIOS deaktiviert, und lasse jetzt alles auf default laufen. Aber memtest macht weiter viele Fehler (siehe Anhang).

  • Kann mir einer sagen, wie ich den Speicher im BIOS einstellen muss, damit der sicher läuft?
  • Brauch ich für die Virtualisierungsgeschichten AVX? Meine CPU unterstützt nur das normale AVX. AVX2 und AVX-512 gab es damals bei Sandy-E noch nicht. Verschlüsselt ist da am Server nichts grossartiges, eventuell ein Vera Crypt Container würde ich am durchgereichten HBA mal einrichten. Soll ich den Prime95 Stresstest mit einer AVX Version wiederholen?
  • kann theoretisch auch die CPU einen weg haben, bzgl. der RAM Fehler? Der Memory Controller sitzt ja in der CPU seit X58... CPU zum tauschen hätte ich da, mache ich aber nur ungern, da ich dann meinen Desktop noch zerlegen müsste.

Was etwas komisch ist, dass der Server soweit gut funktioniert. Da kann ich 15 VM's gleichzeitig in Betrieb haben, und an mehreren Windows Gästen gleichzeitig Updates ziehen, oder mehrere VM's neu starten. Das einfrieren des Hosts gibts wirklich nur beim kopieren von grossen Files (ab ca. 50-100 GB).

Gruss und Danke!

20180501_193732.jpg


20180501_193241.jpg


20180501_192948.jpg

Guru
Beiträge: 3081
Registriert: 27.12.2004, 22:17

Re: Server Hardware Fehler eruieren - vSphere

Beitragvon rprengel » 02.05.2018, 06:29

MarroniJohny hat geschrieben:Hi

Ich habe jetzt mal alle Platten abgeklemmt, und eine SSD mit einem Windows drauf angeschlossen zum testen. Gestern Nacht habe ich Mal Prime95 v26.6 build3 (letzte Version ohne AVX) etwa eine Stunde rödeln lassen, bzw. den Blend Test, lots of RAM tested. Prime macht da keine Fehler, allerdings wird die CPU recht heiss, für ohne AVX (stabil um die 90°).



Hallo zurück,
auch wenn memtest nicht das perfekte mittel ist würde ich mal den Speicher systematisch testen indem du immer mal nur 2 Riegel einbaust.
Möglicherweise haben einer oder mehrere Riegel eine Macke. Wichtig ist systemmatiches arbeiten damit du jede Kombination erwischt.

Gruss

Benutzeravatar
Profi
Beiträge: 604
Registriert: 20.10.2011, 17:55

Re: Server Hardware Fehler eruieren - vSphere

Beitragvon MarroniJohny » 02.05.2018, 07:14

Hi

Sind zwar zwei gleiche Kits, aber eines habe ich erst ein Jahr später gekauft. Kann das noch sein?

Vom Hersteller angegeben sind wohl folgende Werte für den RAM (hab ich aus dem Shop Digitec)

CAS latency 10
tRCD 10
tRAS 27
tRP 10

Das habe ich im BIOS so eingestellt. Ausserdem habe ich die DRAM Spannung auf 1.560V erhöht. Selbe Fehler bei memtest.

Dann habe ich folgendes versucht:

CAS latency 11
tRCD 11
tRAS 28
tRP 11

Wieder sofort Fehler bei Memtest.

Muss ich sonst noch was einstellen am Speicher?

Mit der Konfiguration - und nur das nötigste aktiviert im BIOS (kein Sound, 1394, VT-d Zusatzoptionen alles aus) - der CPU 1.230V Vcore spendiert und alle Poweroptionen auf aus, habe ich dann nochmal das ausgeführt:

Gestern Nacht habe ich Mal Prime95 v26.6 build3 (letzte Version ohne AVX) etwa drei Stunden rödeln lassen, bzw. den Blend Test, lots of RAM tested. Prime macht da keine Fehler, allerdings wird die CPU recht heiss, für ohne AVX (stabil um die 90°).


Also die Kiste ist prime stable, soweit. Trotzdem macht memtest sofort die genannten Fehler. Ich lasse jetzt den Windows 10 Speicher Check laufen. Der rödelt leider schon ewig. Ich habe gelesen, dass ein Durchgang nur 10 min dauern sollte. Allerdings gehen die wohl nicht von 64 GB RAM aus.

Was ich nicht verstehe ist, dass ich den Speicher weit unterhalb der Specs laufen lasse, und minimal mehr Spannung gebe, und trotzdem memtest Fehler macht.

Ich breche jetzt den Windows Speicher Test ab, und versuche es mal mit einem Kit... :x

King of the Hill
Beiträge: 13561
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Re: Server Hardware Fehler eruieren - vSphere

Beitragvon Dayworker » 02.05.2018, 09:13

Ja mach bitte den Streßtest in Prime95. Nicht nur Speicherfehler lassen sich damit zuverlässig finden, so zumindest meine persönliche Erfahrung seit mehreren CPU-Generation. Das was dir Memtest da anzeigt, ist völlig irrelevant.
Ab sinnvollsten wäre es trotzdem, den Speicher in jedem Sockel für jeden Lauf durchzurotieren. Das klappt aber nicht mit jedem MB, weil viele MBs ohne steckenden DIMM im ersten Speicherslot direkt einen Speicherfehler auswerfen und stehenbleiben. Das erschwert natürlich das systematischen Durchtesten, ob alle Sockel in Ordnung sind. Ich würde aber zumindest Channel-weise trotzdem alle DIMMs durchtesten. Wenn die im ersten Channel laufen, sollten die auch in allen weiteren Channels laufen. Eine Stunde ist für wirkliche Aussagen leider etwas wenig, ich würde mindestens 24 oder 48 Stunden veranschlagen. Falls Prime95 dann immer noch ohne Fehler läuft, würde ich Speicher und CPU ausschliessen.

Mir kommt aber das Setting "Profile VTT Voltage" etwas niedrig vor. Ich würde da vorschlagsweise die Bios-Defaults laden. Die Speichersettings sind auf 9-9-11-24 eingestellt. Bei 1333er Speicher sollte da schon 9-9-9-24 problemlos möglich sein. Wenn du OC-Speicher in Verwendung hast, muß der nicht bei "Normal" stabil laufen. Je nach DDR3-RAM läuft OC auch bei Standardfrequenzen (800, 1066, 1333, 1600) nur mit erhöhter DIMM-Spannung stabil.


[edit]
Für welche RAM-Geschwindigkeit wurde 10-10-10-27 angegeben? Bei DDR3-RAM wurde oberhalb von 1600MHz meines Wissens nichts spezifiert.

Benutzeravatar
Profi
Beiträge: 604
Registriert: 20.10.2011, 17:55

Re: Server Hardware Fehler eruieren - vSphere

Beitragvon MarroniJohny » 03.05.2018, 19:05

Hi

Also, der prime blend test läuft nun seit gut 30h, der ist recht stabil. Allerdings zeigt mir der Windows Taskmanager 4.14 GHz, jedoch Coretemp 99x35 (3.5 GHz). Bei meinem anderen Sandy-E System zeigt der Taskmanager 3.8 GHz, und Coretemp 38x100 Mhz, was auch Sinn macht bei Allcore Turbo.

Laut meinem Windows Taskmanager am Server ist also noch irgendwelches OC aktiv. Ich habe aber im BIOS wirklich alles aus gemacht, was für die Freezes verantwortlich sein könnte. In hwinfo wird die Geschwindigkeit jedes einzelnen Kerns angezeigt. Bei meinem Desktop mit Allcore Turbo wird da 3.8 GHz angzeigt, beim Server jedoch "nur" 3.5 GHz.

Der RAM am Server läuft jetzt auch mit schärferen Settings (9-9-11-24@1600Mhz) die 30h prime ohne Probleme. Auf den Modulen hats jedoch unterschiedliche Etiketten, die haben aber beide die selben Settings (10-10-10-27 bei 1600 MHz) aufgedruckt. Ich habe jetzt aber die beide Quad Kits getrennt und richtig eingesetzt.

Aber ich frage mich echt, was denn nach kurzer Zeit bei memtest die Fehler macht? Primestable ist Board/RAM/CPU auf jeden Fall. Memtest macht aber nach kurzer Zeit Fehler.

Leider habe ich gerade keine gescheite Festplatte zur Hand, um das kopieren auf den Server zu testen. Ausser alte 2.5" aus Laptops, oder eine uralt 3.5" Platte. Weil das Problem bei vSphere war wirklich nur das kopieren, auch mit unterschiedlichen Datenträgern.

Echt komisch, das Ganze.

Experte
Beiträge: 1337
Registriert: 25.04.2009, 11:17
Wohnort: Thüringen

Re: Server Hardware Fehler eruieren - vSphere

Beitragvon Supi » 03.05.2018, 19:45

Auch wenn Prime keine Fehler meldet, irgendwoher muss es ja kommen, das Memtest Fehler meldet.
Einfach mal eine Gegenprobe mit Memtest von Passmark gemacht?
https://www.memtest86.com/

Alternativ mal die Memory Diagnostic von MS nutzen. ( z.B. über den Start eines Veeam Recovery Media)
https://notesfrommwhite.net/2017/01/26/ ... ck-it-out/

Daher auch wie rprengel systematisch testen. Z.b. erst mal 2 und 4 Riegel eines jeweiligen Quad-Kits. Dazu mit Original Bios.
Und wenn da nur mit dem Memtest, wo der Fehler auch gleich sichtbar wird. Es geht ja darum, ob der Fehler dort wieder auftritt. Wenn nein, wäre der nächste Schritt dann der copy Test. Dann das andere Kit testen. Ggf. dann auch untereinander mit 2 und 4 Modulen Testen.

Laut Memtest-Bild tritt der Fehler ja relativ schnell auf. Daher sollte das eingrenzen recht schnell klappen.

Benutzeravatar
Profi
Beiträge: 604
Registriert: 20.10.2011, 17:55

Re: Server Hardware Fehler eruieren - vSphere

Beitragvon MarroniJohny » 11.05.2018, 11:39

Hi

Ich hatte da ein riesiges hin und her. Ich könnte jetzt einen Roman dazu schreiben, aber ich fasse mich kurz. Da waren irgendwelche Overclocking Settings aktiv, bzw. am IO Panel hat es ein overclocking Button. Ich habe jetzt beide BIOS resetet (Aktuelles von Gigabyte Seite sowie Mod BIOS mit Spectre Patch), und dann mit und ohne den OC Button getestet.

Das BIOS ist eine rechte Zicke. Im BIOS Monitor wurden die eingestellten Settings korrekt angezeigt. Im Windows Taskmanager wurden (werden) aber wilde Werte zum Basistakt angezeigt. Anfangs hatte ich auch in CPU-Z, hwinfo64 und coretemp als maximalen Multiplikator 59 drin. Nun wird einfach noch im Windows Taskmanager 100 x 59 angezeigt, die anderen Programme zeigen nun den korrekten Multi (32-35, bzw. 38). Der RAM läuft jetzt auch mit den spezifizierten Settings (10-10-10-29@1600MHz). Die CPU scheint aber immer mit non OC standard Turbo gelaufen zu sein. Aber irgendwie meldet das BIOS dem Windows einen maximal möglichen Turbotakt von 59, statt 38-36-36-35-34 o.ä.

Das sieht im Taskmanager jetzt halt komisch aus:

uCU713_OC_OFF_Prime.PNG


Die Kiste läuft jetzt unter Windows aber sauber. Ich kann den Prime Torture Blend Test ausführen, und nebenbei hunderte GB Daten verschieben. Auch mit allen Quad Port Karten geht das.

Wegen der Anzeige von 5.9 GHz im Taskmanager: ich hatte die Windows Installation in Verdacht, da ich die SSD mit einem installierten Windows aus einem anderen Rechner einfach umgestöpselt habe. Das kann ich aber ausschliessen, da ich jetzt extra noch ein aktuelles Windows frisch aufgesetzt habe.

Kann mir einer sagen, an was das die fehlerhafte Anzeige im Windows Taskmanager liegt, bzw. wie ich das noch beheben kann, bevor ich die Serverhardware wieder einbaue?


Zurück zu „vSphere 6.5“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 10 Gäste