Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!

Unregelmäßige ESXi Abstürze

Alles zum Thema vSphere 6, ESXi 6.0 und vCenter Server.

Moderatoren: irix, continuum, Dayworker

Member
Beiträge: 6
Registriert: 30.03.2017, 14:02

Unregelmäßige ESXi Abstürze

Beitragvon himself1985 » 31.03.2017, 12:28

Hallo liebe Forengemeinde,

seit Jahren plagt uns das Problem, dass unsere 6 ESXi Server mit unterschiedlicher selbstgebauter Hardware in unregelmäßigen Abständen ca. 1x im halben Jahr abstürzen, jedoch nicht alle gleichzeitig, sondern einzeln.
Dies war schon auch mit früherer Hardware so.

Aktuell ist wieder einer unserer Neueren abgestürzt. Dies äußert sich so, dass die Server im Vcenter nicht mehr erreichbar ist und die virtuellen Maschinen meistens mehr oder weniger gar nicht mehr reagieren.
Es ist nicht mal mehr möglich, den ESX Server sauber neu zu starten, es hilft nur ein Hard Reset.
Danach funktioniert wieder alles wie gewohnt.

Die ESX Server sind über iSCSI an ein NATAPP E-Series Storage angebunden, auf dem die virtuellen Maschinen liegen.
Der betroffene Server hat ein Dual-Sockel Supermicro Mainboard mit 2x Intel E5-2640v4.
Die ISCSI Controller sind Qlogic BCM57840 10GB Controller.
Netzwerkkarten sind Intel 82599EB 10GB SFP+ NICs.

Allerdings sind auf anderen ESX Hosts andere, ältere Hardware verbaut, die jedoch trotzdem das Problem haben.

Die Logfiles habe ich schon durchforstet, konnte jedoch keinen Anhaltspunkt für ein Problem finden.
Kann mir jemand einen Tipp geben, wie ich vorgehen sollte, um der Ursache auf die Spur zu kommen?

Danke und viele Grüße
himself1985

Experte
Beiträge: 1335
Registriert: 25.04.2009, 11:17
Wohnort: Thüringen

Re: Unregelmäßige ESXi Abstürze

Beitragvon Supi » 31.03.2017, 13:04

Mit den Angaben ist leider nicht viel zu machen.
Haben die Server keine KVM Funktion, wo du extern über den VGA Ausgang den möglichen PSOD siehst?

So kann man nur pausschal sagen:
- ESXi auf dem letzten Stand?
- Bios der Server aktuell?
Welches Mainboard denn genau?
- Speicher freigegeben?
- Netzwerkkarte FW aktuell?

Wenn logs vorhanden sind, dann kannst du ja trotzdem hier hochladen. Meist weiss man ja gar nicht, was das relevante ist, nachdem man suchen muss.

Allgemein : Ein E2640V4 kostet laut Geizhals fast 1000€.
Als Beispiel: meine 2 neuen Dell R430 haben keine 4500€ gekostet mit 2xE5 2640v4, 128GB Ram, 8 Nics, 5 Jahre Service.

Ich glaube nicht, das man mit Selbstbau bei neuen Servern so spart. Und wenn ihr da schon über Jahre die Problem habt, dann ist das daran festhalten noch weniger nachvollziehbar.
Das ist ihr nicht nur auf Selbstbau setzt, sieht man ja an der Netapp.

Experte
Beiträge: 1342
Registriert: 30.03.2009, 17:13

Re: Unregelmäßige ESXi Abstürze

Beitragvon UrsDerBär » 01.04.2017, 11:35

@Supi: Ich behaupte jetzt einfach mal, dass solche Probleme Herstellerunabhängig sind. In der Regel sind es eh Software-Probleme die solchen Mist verursachen weil irgendwo nen Counter nicht sauber genullt wird und überläuft.
Ich für mich kann sagen, dass ich noch nie sowenig Ärger mit meinen eigenen und den verwalteten Computer-Systemen hatte seit ich Supermicro Systeme einsetze.

@TO: Wenn Du das Problem auf allen Maschinen hast, würde ich mal versuchen herauszufinden was bei euren ESXi Software-mässig nicht Standardmässig eingestellt ist. Eventuell kannst dann mit diesen Infos im Netz etwas dazu finden. Als Notbehelf kannst auch einfach alle 3 Monate die ESXi durchstarten.

Das nur noch Hard-Reset überhaupt geht (ohne PSOD) habe ich bis jetzt nur mit defekten USB-Chips erlebt weil keine Writes mehr möglich waren. Der ESXi läuft zwar munter weiter aber durch die fehlenden Writes wird er trotzdem abgeschossen bzw. hängt sich weg sobald z.B. die Einstellungen einer VM aufgerufen wird. Unter Umständen gibt es ja aus unerklärlichen Gründen nen Write-Lock seitens der SAN oder die Kommunikation dazwischen verschnupft sich oder so. Liegen Dein ganzer ESXi oder der Log-Speicherort da, würde ich das ernsthaft in Erwägung ziehen.

Experte
Beiträge: 1335
Registriert: 25.04.2009, 11:17
Wohnort: Thüringen

Re: Unregelmäßige ESXi Abstürze

Beitragvon Supi » 01.04.2017, 13:57

UrsDerBär hat geschrieben:@Supi: Ich behaupte jetzt einfach mal, dass solche Probleme Herstellerunabhängig sind.
Ich für mich kann sagen, dass ich noch nie sowenig Ärger mit meinen eigenen und den verwalteten Computer-Systemen hatte seit ich Supermicro Systeme einsetze.


ich wollte mit meinem Post auch nicht per se Supermicro Boards verteufeln oder Selbstbau im Allgemeinen.

Nur wenn ich laut TO über Jahre die Probleme habe, da muss entweder allgemein am Aufbau ein Problem sein (nicht 100% abgestimmte HW, z.B. kein Ram von der HCL von SuperMicro,etc.) oder halt etwas in die Richtung von dir in Sachen USB.

Bei einem E5-2640V4 System würde ich erst mal einen defekten USB Anschluss ausschließen, da zu neu. Und wenn müsste das ja bei den alten Systemen auch so sein.

Aber ohne genauere Infos des TO ist das alles nur Kaffeesatz lesen. Ich kann mich nur an die Antwort in einem anderen Thread hier erinnern in Sachen VMWARE HCL.
"...Ich dachte das wären nur Empfehlungen"


Grundsätzlich bei 6 Hosts und diesen wohl schon länger auftretenden Problemen...Ohne Logs alles sehr ins Blaue Raten.

Member
Beiträge: 172
Registriert: 01.12.2015, 18:35

Re: Unregelmäßige ESXi Abstürze

Beitragvon Stefan.r » 01.04.2017, 21:40

unser Supermicro Server crasht aber auch 1-2 x im Jahr

King of the Hill
Beiträge: 13315
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Re: Unregelmäßige ESXi Abstürze

Beitragvon Dayworker » 02.04.2017, 16:23

Seid ihr mit diesen unregelmäßigen Abstürzen mal an den SuperMicro-Support heran getreten?

Member
Beiträge: 172
Registriert: 01.12.2015, 18:35

Re: Unregelmäßige ESXi Abstürze

Beitragvon Stefan.r » 02.04.2017, 18:46

ich bisher noch nicht, den vorletztens hatte ich hier mal gepostest, werds aber beim nächsten mal machen.

den Meinte ich:
viewtopic.php?f=40&t=31785&p=174993#p174993

King of the Hill
Beiträge: 13315
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Re: Unregelmäßige ESXi Abstürze

Beitragvon Dayworker » 02.04.2017, 19:17

@Stefan.r
Ich hab den Link mal überflogen. In beiden PSODs steht drin: "Please contact the hardware vendor". Eindeutiger gehts ja wohl nicht...
Wenn das privat genutzte Maschinen sind, ist das natürlich unschön und nur von der persönlichen Leidensfähigkeit abhängig, ob man das hinnimmt. Falls du/ihr jedoch Dienstabnehmer seid, würde ich dem Anbieter mal über die angegebene Serververfügbarkeit auf die Finger schauen und in jedem Fall den Ausfall geltend machen.

Member
Beiträge: 172
Registriert: 01.12.2015, 18:35

Re: Unregelmäßige ESXi Abstürze

Beitragvon Stefan.r » 02.04.2017, 19:46

yop, beim nächsten purple mache ich das auch, war nur froh ihn relativ schnell(DOwnzeit von 10 min) wieder am laufen zu haben und hatte leider keine logs/screens von gemacht

Member
Beiträge: 6
Registriert: 30.03.2017, 14:02

Re: Unregelmäßige ESXi Abstürze

Beitragvon himself1985 » 03.04.2017, 11:42

Supi hat geschrieben:Haben die Server keine KVM Funktion, wo du extern über den VGA Ausgang den möglichen PSOD siehst?

Ja, am ESX Server gibt es keinen PSOD. Ich kann den Server sogar noch über F12 herunterfahren, aber der Prozess läuft nach >30Minuten immer noch. Die VMs auf dem Host lassen sich auch noch pingen und antworten auch teilweise noch, lassen sich aber auch nicht mehr sauber herunterfahren. Da wir auf die Server angewiesen sind, können wir natürlich auch nicht ewig herumdoktern.

Supi hat geschrieben:- ESXi auf dem letzten Stand?

Aktuell nicht, nein. ESXi-6.0.0-20160302001-standard
Supi hat geschrieben:- Bios der Server aktuell?

Nein, wurde bei der Erstinstallation 04/16 auf Version 2.0 gebracht. Aktuell ist V2.0a.
Supi hat geschrieben: Welches Mainboard denn genau?

Supermicro X10DRD-iTP
Supi hat geschrieben:- Speicher freigegeben?

Ja, Samsung LRDIMM 32GB, DDR4-2133, CL15-15-15, ECC (M386A4G40DM0-CPB)
Supi hat geschrieben:- Netzwerkkarte FW aktuell?

Nein, da gibt es Neueres

Code: Alles auswählen

esxcli network nic get -n vmnic7
   Advertised Auto Negotiation: false
   Advertised Link Modes: 10000baseT/Full
   Auto Negotiation: false
   Cable Type: DA
   Current Message Level: 0
   Driver Info:
         Bus Info: 0000:04:00.1
         Driver: bnx2x
         Firmware Version: bc 7.10.40
         Version: 1.78.80.v60.12


UrsDerBär hat geschrieben:@TO: Wenn Du das Problem auf allen Maschinen hast, würde ich mal versuchen herauszufinden was bei euren ESXi Software-mässig nicht Standardmässig eingestellt ist.

Die Konfiguration ist sehr nah am Standard.

UrsDerBär hat geschrieben:Unter Umständen gibt es ja aus unerklärlichen Gründen nen Write-Lock seitens der SAN oder die Kommunikation dazwischen verschnupft sich oder so.

Daran hab ich auch schon gedacht, aber dazu müsste doch im LogFile irgendeine Info zu finden sein?!
UrsDerBär hat geschrieben:
Liegen Dein ganzer ESXi oder der Log-Speicherort da, würde ich das ernsthaft in Erwägung ziehen.

Die ESXi Server liegen nicht in der SAN, die haben lokale SSDs, auf denen auch die Logs liegen.


Ich glaube aber nicht, dass es an einer bestimmten Hardware Komponente liegt, dafür ist das schon auf zu verschiedenen Systemen mit immer dem gleichen Muster aufgetreten.
Über einen DELL Server werde ich mal nachdenken, sollte ich bei der Fehlersuche nicht wirklich weiterkommen.

Member
Beiträge: 6
Registriert: 30.03.2017, 14:02

Re: Unregelmäßige ESXi Abstürze

Beitragvon himself1985 » 03.04.2017, 12:01

Hier noch die Logs, passiert ist es vom 29.03. auf den 30.03. um ca. 0:35
Dateianhänge
syslog.txt
(995.06 KiB) 80-mal heruntergeladen
vpxa.txt
(934.59 KiB) 89-mal heruntergeladen
vmkwarning.txt
(988.69 KiB) 91-mal heruntergeladen

Member
Beiträge: 6
Registriert: 30.03.2017, 14:02

Re: Unregelmäßige ESXi Abstürze

Beitragvon himself1985 » 03.04.2017, 12:04

Hier noch die Logs, passiert ist es vom 29.03. auf den 30.03. um ca. 0:35
Dateianhänge
hostd-probe.txt
(340.76 KiB) 99-mal heruntergeladen
hostd.txt
(843.77 KiB) 96-mal heruntergeladen

Experte
Beiträge: 1776
Registriert: 04.10.2011, 14:06

Re: Unregelmäßige ESXi Abstürze

Beitragvon JustMe » 03.04.2017, 12:35

2 Dinge, die mir aufgefallen sind:

- Eine SSD jammert dauernd mit S.M.A.R.T. Informationen. Das kann die angezeigte Temperaturgeschichte sein, oder auch sonstwas.

- Schlimmer ist m.E. aber, dass auf einmal CIM-Warnungen auftauchten. Moeglicherweise haengt sich da der Server oder einer der Provider (z.B. wg. der SMART-Warnungen...) nach einiger Laufzeit weg, und reisst dann wegen Antwort-Problemen so nach & nach das gesamte Management in den Orkus. Ist ja nun nicht eine der stabilsten Komponenten im ESXi-Umfeld...

Habt Ihr mal darueber nachgedacht, einfach mal zur Sicherheit den CIM-Server so 1x taeglich (oder auch woechentlich, wenn die Probleme selten genug sind) neu zu starten?

Experte
Beiträge: 1335
Registriert: 25.04.2009, 11:17
Wohnort: Thüringen

Re: Unregelmäßige ESXi Abstürze

Beitragvon Supi » 03.04.2017, 13:07

Auf der Sandisk SSD ist wohl der ESXi. Nicht die dollste...

Was für ein 10Gbit Switch ist denn da im Einsatz?

Eventuell mal den Treiber der Netzwwerkkarten prüfen:

[
Failed, Driver bnx2i, for vmhba32
2017-03-10T05:42:31.394Z cpu7:33230)WARNING: ScsiPath: 7154: Set retry timeout for failed TaskMgmt abort for CmdSN 0x0, status Failure, path vmhba32:C0:T1:L0
2017-03-10T05:42:31.506Z cpu16:33395)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.600000e00d1100000011138c00000000" state in doubt; requested fast path state update...
2017-03-10T05:42:41.539Z cpu3:36348)WARNING: NMP: nmp_DeviceRetryCommand:133: Device "naa.600000e00d1100000011138c00000000": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device.
2017-03-10T05:42:41.539Z cpu1:33461)WARNING: NMP: nmpDeviceAttemptFailover:603: Retry world failover device "naa.600000e00d1100000011138c00000000" - issuing command 0x439d9514b200
2017-03-10T05:42:41.539Z cpu1:33461)WARNING: NMP: nmpDeviceAttemptFailover:678: Retry world failover device "naa.600000e00d1100000011138c00000000" - failed to issue command due to Not found (APD), try again...


Beim VMWARE Support dazu schon mal einen Fall aufgemacht?

Member
Beiträge: 6
Registriert: 30.03.2017, 14:02

Re: Unregelmäßige ESXi Abstürze

Beitragvon himself1985 » 03.04.2017, 15:44

JustMe hat geschrieben:- Eine SSD jammert dauernd mit S.M.A.R.T. Informationen. Das kann die angezeigte Temperaturgeschichte sein, oder auch sonstwas.

Keine Ahnung wo er den Wert von 70° hernimmt, die SSD ist absolut kalt.

JustMe hat geschrieben:Habt Ihr mal darueber nachgedacht, einfach mal zur Sicherheit den CIM-Server so 1x taeglich (oder auch woechentlich, wenn die Probleme selten genug sind) neu zu starten?

Nein, bisher nicht, werde ich aber mal machen.

Supi hat geschrieben:Was für ein 10Gbit Switch ist denn da im Einsatz?

2 Netgear M7300-24XF

Supi hat geschrieben:Auf der Sandisk SSD ist wohl der ESXi. Nicht die dollste...

Auf der SSD ist ja auch nur der ESXi installiert. Ist hier wohl bessere Hardware nötig?

Supi hat geschrieben:Beim VMWARE Support dazu schon mal einen Fall aufgemacht?

Ja, irgendwann mal, die sagten mir dann, ich solle alles auf den neuesten Stand bringen, was ich dann auch gemacht habe.
Habe damals auch die SCSI Treiber in VMware aktualisiert und die Firmware auf den aktuellsten Stand gebracht.
Dann war wieder ein halbes Jahr Ruhe und dann ging es wieder von vorne los...

Experte
Beiträge: 1335
Registriert: 25.04.2009, 11:17
Wohnort: Thüringen

Re: Unregelmäßige ESXi Abstürze

Beitragvon Supi » 04.04.2017, 10:52

Also erst mal grundsätzlich:

So ein Forum kann nur begrenzt helfen und nicht den Support eines Herstellers leisten.
Das ist dann halt das grundsätzliche Problem bei Selbstbau, das man von A nach B geschickt wird.

Tief in die Glaskugel geschaut:
1. Den ESXi auf den letzten Stand bringen. Insbesondere wegen dem "guest escape" Problem der 6.0er Version.
2. Bios der Host auf neuesten Stand bringen, ebenso wenn möglich der anderen Adapter.
3. Treiber aktualisieren? https://my.vmware.com/de/web/vmware/inf ... vers_tools
4. Eventuell mal umstellen, dass die Internen 10Gbit Ports für ISCSI genutzt werden und nicht die vom Qlogic Adapter?

Dei Frage ist aber wirklich, warum tritt das Problem scheinbar bei allen 6 ESXi Hosts auf? Und das nach dir über Jahre?

Ich persönlich bin da ganz sicher nicht die Referenz und Dell hat auch nicht 100% fehlerfreie Hardware.
Jedoch wenn ich mir meine 2 R610 und jetzt R430 anschauen... NIE ein PSOD.
Und meine 2 Dell R610 haben sowohl ESX 4.0, ESXi 4.1 und 5.5 gesehen. inkl. etwaiger Hardware und Bios Updates. (Mehr Ram, mehr NIC's, Bios und NIC FW Updates).
Immer zugriff auf ISCSI SAN. Erst MD3000i und dann MD3220i.
Und bei der MD3000i hatte ich nach einem HW Updatedas Problem, dass sich alle 2-5 Tage die Dual-Controller nacheinander rebootet haben.
>> keine VM und kein ESXI ist dadurch abgestürzt, Failover hat immer geklappt. Auch wenn es sehr nervig war und immer ein flaues Gefühl.

Daher auch der Rat, ggf. doch zukünftig auch fertige Server umzuschwenken, wenn ihr im Fehlerfall dann doch nicht selbst beheben könnt. Oder halt am Ende damit alleine dasteht.

Member
Beiträge: 6
Registriert: 30.03.2017, 14:02

Re: Unregelmäßige ESXi Abstürze

Beitragvon himself1985 » 06.04.2017, 12:55

Okay, danke erstmal für euer Feedback.


Zurück zu „vSphere 6.0“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste