Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!

[ESXi 5.5] Regelmäßiges Einfrieren des Hosts

Moderatoren: Dayworker, irix

Member
Beiträge: 2
Registriert: 20.03.2014, 21:30

[ESXi 5.5] Regelmäßiges Einfrieren des Hosts

Beitragvon ViiJay » 23.03.2014, 15:42

Hallo forum,

ich nutze einen privaten ESXi 5.5 server auf dem eine hand voll Linux Server als Gastsysteme laufen. Die Probleme, die ich habe, haben ungefähr mit der Zeit begonnen, als ich auf 5.5 upgegraded habe. Mittlerweile habe ich auch eine komplette Neuinstallation durchgeführt ohne eine Besserung. Seit dem friert mein System komplett ein, so dass weder ein Zugriff mehr auf die Gastsysteme noch auf das Hostsystem möglich ist (kein SSH, kein vSphere Client, nichts).

Daraufhin habe ich die Dumpfiles angeschaut und dabei sind mir zwei Sachen aufgefallen.

Zum einen etwas, von dem ich nicht sicher bin, ob es sich dabei um ein Hardware- oder Treiberproblem des OnBoard Controllers handelt...

Code: Alles auswählen

2014-03-18T00:09:57.193Z cpu2:33789)ScsiDeviceIO: 2324: Cmd(0x412e80871c00) 0x2a, CmdSN 0x800e006a from world 35563 to dev "t10.ATA_____WDC_xxxxxxxx__________________________xxxxxxxxxxxx" failed H:0x0 D:0x8 P:0x0 Possible sense data: 0x0 0x0$
2014-03-18T02:40:00.355Z cpu2:33472)WARNING: LinScsi: SCSILinuxQueueCommand:1207: queuecommand failed with status = 0x1056 Unknown status vmhba33:0:0:0 (driver name: ahci) - Message repeated 7 times


Die andere Sache, die wahrscheinlich (?) schwerwiegender ist:

Code: Alles auswählen

2014-03-19T07:50:04.734Z cpu1:35372)cr0=0x80010033 cr2=0x7f2256412000 cr3=0x3984b1000 cr4=0x42660
2014-03-19T07:50:04.734Z cpu1:35372)frame=0x4123a8b1dbf0 ip=0x41802b052fa1 err=18 rflags=0x6
2014-03-19T07:50:04.734Z cpu1:35372)rax=0x4123a8b27000 rbx=0x41085c247c80 rcx=0x4123a9767000
2014-03-19T07:50:04.734Z cpu1:35372)rdx=0x41085c248600 rbp=0x4123a8b1dd58 rsi=0x418040400000
2014-03-19T07:50:04.734Z cpu1:35372)rdi=0x41085c247c80 r8=0x0 r9=0x0
2014-03-19T07:50:04.734Z cpu1:35372)r10=0x0 r11=0x1 r12=0x1
2014-03-19T07:50:04.734Z cpu1:35372)r13=0x417feb060000 r14=0x4100066e8000 r15=0x41085c40f9b0
2014-03-19T07:50:04.734Z cpu1:35372)pcpu:0 world:35399 name:"vmm1:xxxxxx" (V)
2014-03-19T07:50:04.734Z cpu1:35372)pcpu:1 world:35372 name:"vmm0:xxxxxx" (V)
2014-03-19T07:50:04.734Z cpu1:35372)pcpu:2 world:35007 name:"vmm0:xxxxxx" (V)
2014-03-19T07:50:04.734Z cpu1:35372)pcpu:3 world:32825 name:"RCUDeferredCallQueueWorld" (S)
2014-03-19T07:50:04.734Z cpu1:35372)@BlueScreen: Machine Check Exception: Fatal (unrecoverable) MCE on PCPU1 in world 35372:vmm0:xxxxxx
System has encountered a Hardware Error - Please contact the hardware vendor
2014-03-19T07:50:04.734Z cpu1:35372)Code start: 0x41802ae00000 VMK uptime: 13:20:47:16.506
2014-03-19T07:50:04.734Z cpu1:35372)0x4123a8b1dd58:[0x41802b052fa1]CpuSchedAfterSwitch@vmkernel#nover+0x61 stack: 0x2
2014-03-19T07:50:04.734Z cpu1:35372)0x4123a8b1deb8:[0x41802b05469d]CpuSchedDispatch@vmkernel#nover+0x126d stack: 0x4123a8b1df28
2014-03-19T07:50:04.734Z cpu1:35372)0x4123a8b1df28:[0x41802b055d95]CpuSchedWait@vmkernel#nover+0x245 stack: 0xffffffff00000001
2014-03-19T07:50:04.734Z cpu1:35372)0x4123a8b1df98:[0x41802b0562fb]CpuSched_VcpuHalt@vmkernel#nover+0x197 stack: 0x418000000000
2014-03-19T07:50:04.734Z cpu1:35372)0x4123a8b1dfe8:[0x41802aecde30]VMMVMKCall_Call@vmkernel#nover+0x48c stack: 0x0
2014-03-19T07:50:04.734Z cpu1:35372)0x41802aecd484:[0xfffffffffc223baa]__vmk_symbol_NFSVolume_GetLocalPath@com.vmware.nfsmod#1.0.0.0+0x
2014-03-19T07:50:04.736Z cpu1:35372)base fs=0x0 gs=0x418040400000 Kgs=0x0
2014-03-19T07:50:04.736Z cpu1:35372)MC:PCPU1 B:7 S:0xbe2000000005110a M:0x1082000086 A:0x13f3df200 5
MC:PCPU1: 1 hardware errors seen since boot (0 corrected by hardware)


Kann es sein, dass die wirklich ein Hardwarefehler der CPU oder der Festplatten ist bzw. sind? Ich kann mir beim besten Willen nicht erklären, woher die plötzlichen Abstürze und das Einfrieren des Hosts Systems kommt, da es vorher fehlerfrei und ohne Probleme funktioniert hat und der Server wochen- wenn nicht monatelang durchgelaufen ist. Ich kann auch nicht sagen, wie man den Fehler reproduzieren könnte oder wie man dem eigentlichen Grund genau auf die Schliche kommen kann. Ich würde halt schon gerne vorher wissen, was kaputt ist, bevor ich anfange und mir neue Hardware kaufe.

Als Hilfestellung hier noch die Hardware meines privaten Servers:

Das ist mein Setup:
CPU: Intel Core i5-3470S
Mainboard: ASUS P8H77-V LE
Raid Controller: Adaptec RAID 6805E (for storage HDDs only)
RAM: Kingston Value RAM (4 x 8GB = 32GB)
SSD: OCZ Agility 3 120GB (for ESXi 5.5 server installation)
HDD datastore: 2 x WD10EACS (Western Digital WD Green 1TB)
HDD storage: 3 x WD30EZRX (Western Digital WD Green 3TB) + 1 x WD30EFRX (Western Digital WD Red 3TB)

Die Storage HDDs sind an dem Adaptec Raid Controller angeschlossen, während die Datastore HDDs und die SSD an dem Controller des Mainboards hängen. Die Lüfter laufen übrigens alle, es liegt also nicht an einer eventuellen Überhitzung des Systems.

Habt ihr also irgendwelche Ideen, was das Problem sein könnte? Falls ihr noch weitere Informationen braucht, lasst es mich wissen und ich gebe euch hoffentlich alles, was ihr braucht, um mir helfen zu können. Ich bin nämlich mit meinem Wissen am Ende. Ich bin nämlich kein VMWare Spezialist und das, was man im Internet so finden konnte, hat mir jetzt auch keine wirklichen Aufschlüsse über die Fehlerursache gegeben.

Macht es z.B. Sinn sich andere Festplatten zu holen für den Datastore (WD Red) zu holen und diese an den Adaptec Controller anzuschließen?

Vielen Dank schon mal für's Lesen und eventuelle Hilfestellungen.

ViiJay

King of the Hill
Beiträge: 13657
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Beitragvon Dayworker » 23.03.2014, 16:39

Der ESXi will mit SATA nur wenig (AHCI oder IDE-Kompatibilitätsmodus für CD/DVD-ROM) zu tun haben und deine gesamte HW ist bis auf den Adaptec-Controller reine Cosumer-HW. Mir ist auch völlig schleierhaft, weshalb du eine 120GB-SSD für den ESXi verschwendest. Der ESXi liest bekanntlich beim Start alles in den Arbeitsspeicher und schreibt ansonsten nur noch stündlich seine Config zurück. Im Endeffekt kommst du daher bereits mit einem USB-Stick von 1 oder 2GB Grösse aus. Mir ist bei deinen Angaben ebenfalls unklar, was du mit Storage und Datastore eigentlich meinst. Wenn du Speicherplatz sprich Storage in Form von HDD oder SSD zum ESXi hinzufügst, kann dieser den zusätzlichen Platz nur auf zwei Arten nutzen. Enweder richtest du darauf einen Datastore ein, auf welchen dann die VMs gespeichert werden können oder du reichst diesen Speicherplatz direkt als RDM an einen Gast weiter.

Wegen deiner MCE-Meldung sei dir der KB-Eintrag Decoding Machine Check Exception (MCE) output after a purple screen error (1005184) ans Herz gelegt. Welchen PSOD bekommst du eigentlich genau? Ein verlinktes Bild würde uns da wesentlich weiterhelfen und NEIN, du kannst hier im Forum keine Dateianhänge machen. ;)

Member
Beiträge: 2
Registriert: 20.03.2014, 21:30

Beitragvon ViiJay » 23.03.2014, 21:57

Hallo Dayworker,

erstmal vielen Dank für die recht ausführliche Antwort.
Als Erklärung zu deinen Fragen sei folgendes gesagt. Wie ich bereits erwähnte, geht es um eine rein private Installation für den Hausgebrauch. Deshalb habe ich ein System zusammengestellt, dass anders als die Business Server leise operieren, da dieser im Arbeitszimmer steht und ich keine Schreihals oder 19" Rack aufstellen wollte. Es mag sicherlich auch leise Low-End Server geben, aber Stromverbrauch war ebenfalls eines der Gründe, wieso ich ausgerechnet diese Variante bevorzugt habe.

Dass ESXi nach dem Starten so gut wie keine I/O Last mehr erzeugt und rein aus dem RAM operiert, war mir zumindest nicht bekannt, von daher ist die Kritik absolut berechtigt und ich überlege dies in Zukunft zu ändern.

Mit Datastore waren die Platten gemeint, auf denen die Gastsysteme installiert sind und als Datastore in VMWare bereitgestellt wurden.

Mit Storage, und das war vielleicht etwas unglücklich formuliert, sind die Platten gemeint, welche an ein Gastsystem weitergereicht werden und dort als Datenspeicher für die bei mir vorliegenden Daten herhalten (4 Platten als Raid-5). Allerdings nicht per RDM, da ich das damals nicht hinbekommen habe, sondern als PCI Passthrough des Adaptec Controllers. Bin offen dafür, einzelne Platten direkt an einen Gast weiterleiten zu können, da dies wahrscheinlich das Problem lösen würde, dass nach dem Neustart des Gasts an dem der Controller weitergereicht wird, immer auch der Host neugestartet wird, da der Controller ansonsten im Gast nicht mehr erkannt wird und dieser nicht startet. Aber das ist ein anderes Thema.

Die PSOD habe ich bisher leider nicht gesehen, da ich keinen Monitor direkt angeschlossen habe und bisher immer schnell versucht habe, dass alles wieder in Gang zu bekommen. Für den nächsten Fall sollte ich vielleicht wirklich mal einen Monitor angeschlossen lassen und kann dann ggf. genauere Angaben dazu machen.

Den KB Artikel werde ich mir morgen mal in Ruhe anschauen und schauen, ob ich da etwas mehr herausfinde.

Danke schon mal für deine schnelle Antwort und die Hinweise.

ViiJay

King of the Hill
Beiträge: 13657
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Beitragvon Dayworker » 24.03.2014, 16:01

Ob dein System nun wie bei mir für den Hausgebrauch ist oder nicht, spielt eigentlich keine Rolle. Selbst der HP Microserver der Generation 7 sprich mit AMD-CPU wurde von HP mit einem ESXi-ISO bedacht. Wenn ich nur mal deine grundlegenden HW-Bestandteile (CPU = ~160, MB = ~70 und Adaptec = ~230) zusammenrechne, kommst du damit auch schon ziemlich nahe an meinen Rechner in der Signatur und der steht auf der VMware-HCL.


Das Rumgefrickel mit Passthrough würde ich sein lassen, da der ESXi 5.5 bekannt für sein in diesem Bereich nicht ganz unproblematisches Verhalten ist. Ich würde dann einfach alle Datenträger an den Adaptec-Controller hängen und diesem die Verwaltung mehrerer Raid-Level antragen. Die beiden WD10EACS laufen vermutlich eh im Raid1 als Datastore1 und das Raid5 würde ich als weiteren Datastore einrichten. Damit hättest du auch eine deutliche, komplette Trennung von Gast-OSen und deren Nutzerdaten. Falls der Adaptec eine SSD auch als schnellen Write-Cache einbinden kann, wäre das auch noch einen Versuch wert. Denn die 128MB Controller-Cache werden dich performancetechnisch nicht sonderlich vom Hocker reißen und da der Controller anscheinend auch kein BBU-Anschlußmöglichkeit besitzt, ist der Cache vermutlich ein reiner Lese-Cache und sämtliche Schreibaktionen werden dadurch ausgebremst.


Zurück zu „vSphere 5.5 / ESXi 5.5“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 10 Gäste