Das Forum wurde aktualisiert. Wurde höchste Zeit. Wenn etwas nicht funktioniert, bitte gerne hier jederzeit melden.

Host crash

Moderatoren: Dayworker, continuum, Tschoergez, irix

Member
Beiträge: 11
Registriert: 27.04.2012, 09:46

Host crash

Beitragvon webmaschder » 23.06.2016, 11:08

Hi @ all,

wir haben bei einem Kunden seit mehrern Monaten immer wieder das Problem, dass der gesamte Host abschmiert.
mittlerweile habe ich es so eingestellt, dass er nach einer gewissen zeit im purple Screen neu startet, was auch läuft.
Trotzdem will ich natürlich die Ursache finden und das ganze abstellen

Hintergrundinfo:
das ist ein Fujitsu RX2520M1 mit einem ESXi 5.5 3568722 und Essentials Lizenz
Hardware ist laut FTS Tools in Ordnung, keine Fehler im IRMC und auch keine in sonstigen Logs.

Die Abstürze sind absolut random, meistens Nachts, teilweise aber auch mitten im Arbeiten ohne erkennbaren Grund.
Backups wurden mit Acronis vmprotect gemacht, das habe ich seit zwei Moanten deaktiviert, das hat aber nix geändert.

da ich keine Attachements hinzufügen kann, hab ich sie auf meinen Server geschoben.
Kernel log: http://webey.de/share/vmkernel.6.gz

es ist unschwer zu erkennen, wann der letzte Absturz war.
Wenn ihr noch andere Logs braucht, sagt Bescheid.

Besten Dank vorab

Experte
Beiträge: 1319
Registriert: 25.04.2009, 11:17
Wohnort: Thüringen

Beitragvon Supi » 23.06.2016, 12:15

Hallo,

das hier im Forum kene Anhänge funktionieren... ist halt so.

Welche VMs laufen denn auf den Server? mit welchen Vmware Tools?
Einfach mal auf die neuesten Version aktualisieren :
https://pubs.vmware.com/Release_Notes/e ... notes.html

Wenn du VMProtect deaktiviert hast, laufen hoffentlich andere Backups.
Nutzt der Kunde ggf. vielleicht Vmware DirectPath IO ? Also ein Bandlaufwerk oder ähnliches an die VM durchgereicht?

Ein wenig mehr Input zu dem Server (Ausstattung) und Anzahl und Art de VM's wäre auch hilfreich.
Dein Anhang will nicht, daher bitte eine Freehoster vie Abload nutzen.

Member
Beiträge: 11
Registriert: 27.04.2012, 09:46

Beitragvon webmaschder » 23.06.2016, 12:28

Hi,

Anhang geht jetzt, sorry.

Also es laufen 5 VMs drauf:
1x Acronis vmprotect (Suse Linux)
1x Sophos Firewall (Suse Linux Enterprise)
3x Windows Server 2012R2

VMWare Tools sind aktuell, habe die neuste Build runtergeladen und installeirt. hat sich nichts geändert.
DirectPath habe ich alles abgeschalten. es war auch eine USB 3.0 Karte per PCI passthrough durchgeschleift, ist aber auch seit 2 Monaten ausgebaut und deaktiviert.

Zur Ausstattung gibts nicht viel mehr zu sagen.
Es laufen 5 SAS Platten im Raid5 + 1x HotSpare auf einem VMWARE zertifizierten Controller von Fujitsu mit BBU
48GB Ram (6x8GB) ECC REG natürlich
2x Intel Xeon E5-2420v2 mit aktiviertem HT
Über RS232 hängt eine APC USV dran. den Shutdown Befehl habe ich auch deaktiviert.. die schickt im Fehlerfall akutell nur Mails, greift aber nicht ein.

Backup läuft natürlich :-)
zuerst auf eine USB Platte die an eine VM angehängt war, jetzt auf ein NAS
Alle VMs sichern sich mit dem Windows BAckup Plus der SQL Server zusätzlich mit einem Dump. alles ohne VSS (hatte ich auch als Grund vermutet)

Wenn dir noch was fehlt sag Bescheid.
Danke schonmal

Experte
Beiträge: 1443
Registriert: 04.10.2011, 14:06

Beitragvon JustMe » 23.06.2016, 12:52

Ich denke, viel interessanter als der vmkernel.log waere mal ein Screenshot vom PSoD...

Oder ein Ausschnitt vom CoreDump (suche nach "eleasebuild"; da findet sich dann auch der Text vom PSoD).

Dazu noch ein lsusb.

Tritt das Problem denn auch auf, wenn der "Transcend StoreJet" abgehaengt ist?

Guru
Beiträge: 2080
Registriert: 21.10.2006, 08:24

Beitragvon bla!zilla » 23.06.2016, 21:03

Verwendest du E1000E oder VMXNET3 NICs bei den VMs?

Member
Beiträge: 11
Registriert: 27.04.2012, 09:46

Beitragvon webmaschder » 29.06.2016, 09:57

Hi,
sorry für die späte Antwort, ich habe gerade viel zu viel um die Ohren.
auf dem Screenshot, den mir der Kunde geschickt hat, ist nicht wirklich viel zu erkennen :-) ich reiche das Log nach.
http://webey.de/share/IMG_0631.jpg

Das Problem tritt unabhängig von den Transcend Platten auf, die hängen aber eigentlich imemr dran.

Ich verwende ausschließlich VMXNET3 NICs, außer bei der Acronis VM, die läuft ja aber eh gerade nicht.
VMWARE Tools sind ja wie schon geschrieben aktuell.

Experte
Beiträge: 1443
Registriert: 04.10.2011, 14:06

Beitragvon JustMe » 29.06.2016, 11:24

Hm, Fehler in dlmalloc...
Da wundert es mich nicht, dass fuer die HW keine Probleme festgestellt werden.

Bei 5.0 gab's mal einen Patch, der Probleme bei der Pufferdimensionierung behob; evtl. ist das hier auch die Ursache.

Duerfte ein Fall fuer den (hoffentlich aktiven) VMware-Support sein...
...was aber bei Essentials auf "Per-Incident"-Bezahlung hinauslaufen duerfte.

Selber kann man vmtl. nur noch sicherheitshalber kontrollieren, dass die verbaute Hardware von der Firmware her aktuell ist, und die passenden Treiber verwendet werden.

Experte
Beiträge: 1319
Registriert: 25.04.2009, 11:17
Wohnort: Thüringen

Beitragvon Supi » 29.06.2016, 13:21

https://kb.vmware.com/selfservice/micro ... Id=2135956

das wäre ein Patch bei ESXi 6.0 dazu. Wird ein dvSwitch genutzt?

If you are unable to upgrade at this time, follow the workaround.

To work around the issue, disable NetFlow monitoring on all the dvSwitches and Portgroups in vCenter Server.

To disable NetFlow monitoring:

In the vSphere Client, navigate to Home > Inventory > Networking.
For every dvSwitch:

Click dvPortGroup and dvUplinksGroup.
Click Edit Settings > Monitoring.
Change the NetFlow status setting to Disabled.

If you are using VMware NSX for vSphere 6.x:

From vCenter Server using the vSphere Web Client, navigate to Networking & Security > Flow Monitoring.
Click the Configuration Tab.
Under Global Flow Collection Status, click Disable.


----
https://kb.vmware.com/selfservice/micro ... Id=2088300

Aber hier nach könnte es auch von der HW kommen. Übliche Frage, FW und so weiter des Hosts ist aktuell?

Ansonsten hilft wohl nur der VM Support.

Member
Beiträge: 11
Registriert: 27.04.2012, 09:46

Beitragvon webmaschder » 29.06.2016, 15:31

Hi zusammen,

vielen Dank für die Antworten.

also Firmware ist komplett aktuell, der Raidcontroller wurde von Fujitsu auf die aktuelle Version gebracht, BIOS auch.
VMWARE hatte ich kontaktiert. da hat sich jemand bei mit gemeldet (war unglaublich schwer mit dem zu kommunizieren) der sich dann remote aufgeschalten hat. er hat das Problem auf FTS geschoben. die wieder auf VMWARE.. und so weiter und sofort.

der Kollege von VMWARE hat irgendeinen Patch eingespielt, der das Puffer Problem und ein Problem mit der allokation von RAM beheben sollte. genau konnte ich es nicht verstehen, hat aber auch rein garnichts bewirkt. :(

dvSwitche werden nicht genutzt, das kanns also auch nicht sein.

Ich glaube auch ganz ehrlich nich an ein Pufferproblem, das würde dann je recht regelmäßig auftreten, oder? Die Abstürze sind aber keineswegs regelmäßig.

werde später mal die LOGs organisieren und hochladen, vielleicht ergibt sich da was.

Grüße


Zurück zu „vSphere 5.5 / ESXi 5.5“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast