Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!

PSOD durch vDGA Grid K1

Alles zum Thema vSphere 6, ESXi 6.0 und vCenter Server.

Moderatoren: irix, Dayworker

Member
Beiträge: 184
Registriert: 02.06.2010, 18:07

PSOD durch vDGA Grid K1

Beitragvon djbreezer » 05.11.2015, 15:36

Hey,
ich habe gerade in einem Dell R720 mit einer Nivida Grid K1 einigen VMs einen vDGA Graka mappen wollen, als der Server nen PSOD präsentiert hat.

Nachdem er nach 30 min. endlich wieder fertig gebootet hat, ist mir aufgefallen, dass die Karten im vsphere client unterschiedlich angezeigt werden!

Auf einem Server sieht das Ganze so aus:
Bild

Und auf dem der sich verabschiedet hat so:
Bild

Ich habe einen weiteren baugleichen Server - dort sieht es aus wie in Variante 1. Ich vermute jetzt mal, dass die Karte defekt ist.

Als ich VMs starten wollte, denen ich einen Kern der Karte gemapped habe, hat der Host angezeigt, dass das Device bereits genutzt werden würde. Dann kam direkt der PSOD.

Wie sieht dieses Fenster bei euch aus? Wird der komplette HW Pfad zu den Geräten angezeigt, oder nur die Geräte?

Grüße

Alex

King of the Hill
Beiträge: 12944
Registriert: 02.08.2008, 15:06
Wohnort: Hannover/Wuerzburg
Kontaktdaten:

Beitragvon irix » 05.11.2015, 16:05

Wir haben nur eine Karte pro Host aber es sieht aus wie in deinem 2 Bild also so Baum/Ast Artig und jede GPU unter einem PLX Technology Eintrag.

Gruss
Joerg

Member
Beiträge: 184
Registriert: 02.06.2010, 18:07

Beitragvon djbreezer » 05.11.2015, 16:15

irix hat geschrieben:Wir haben nur eine Karte pro Host aber es sieht aus wie in deinem 2 Bild also so Baum/Ast Artig und jede GPU unter einem PLX Technology Eintrag.

Gruss
Joerg


das sind screenis von einer Karte pro Host - man kann ja jeden Kern einer anderen VM mappen - aka 4 VMs pro Host.

dann scheint das nicht das Problem zu sein - vielleicht ist das Passth. bei den Dell R720 doch nicht so einfach ohne weiteres in ESXi 6.1 möglich... Habt ihr denn die K1 als vDGA in mehrere VMs gemapped? Falls ja - werden die VMs "von Hand" betreut oder über VMWare Horizon ?

Gruß

Alex

King of the Hill
Beiträge: 12944
Registriert: 02.08.2008, 15:06
Wohnort: Hannover/Wuerzburg
Kontaktdaten:

Beitragvon irix » 05.11.2015, 16:17

Wir machen vSGA.

Gruss
Joerg

Member
Beiträge: 184
Registriert: 02.06.2010, 18:07

Beitragvon djbreezer » 05.11.2015, 16:25

Mit vGPU Profilen oder ohne? Wir haben vSGA jetzt extra abgeschaltet, weil man ohne bessere Desktop Performance erhält.

King of the Hill
Beiträge: 12944
Registriert: 02.08.2008, 15:06
Wohnort: Hannover/Wuerzburg
Kontaktdaten:

Beitragvon irix » 05.11.2015, 16:29

Ich habe eine K2 und nicht die K1. Also unsere hat "nur" 2 CPUs und weniger Speicher als deine aber viel mehr Cores und somit Leistung.

Das die Leistung bei vDGA hoeher ist als alles andere ist ja klar.

Gruss
Joerg

Member
Beiträge: 184
Registriert: 02.06.2010, 18:07

Beitragvon djbreezer » 05.11.2015, 16:32

Mit "Desktop Performance" meinte ich die User-Erfahrung auf "normalen" Office Desktops (ohne vDGA oder vSGA) - die laufen ohne alles aus Ivy Clustern wesentlich besser als mit vSGA. vDGA wollte ich jetzt für eine kleine Gruppe (16 VMs) testen - habe aber den PSOD erhalten. Ich werde mal n case bei VMWare aufmachen.

Member
Beiträge: 184
Registriert: 02.06.2010, 18:07

Beitragvon djbreezer » 04.12.2015, 08:52

Hallo,
gibts denn niemanden hier, der aktuell vDGA unter Esxi 6 mit Grid-Karten im Einsatz hat? Dell hat quasi den kompletten Server getauscht und VMWare weiß auch nicht weiter.

Stand ist: Erste VM mit vDGA Grid Kern startet - weitere nicht. Die Meldung vom vSphere Client:

Device already in use.

VMware Log sagt dazu:


vmware.log
2015-11-25T16:44:19.686Z| vmx| I120: PCIPassthru: Failed to register device 0000:08:00.0 error = 0x10
2015-11-25T16:44:19.686Z| vmx| I120: Msg_Post: Error
2015-11-25T16:44:19.686Z| vmx| I120: [msg.pciPassthru.createAdapterFailedDeviceInUse] Device 008:00.0 is already in use.
2015-11-25T16:44:19.686Z| vmx| I120: ----------------------------------------
2015-11-25T16:44:19.687Z| vmx| I120: Vigor_MessageRevoke: message 'msg.pciPassthru.createAdapterFailedDeviceInUse' (seq 53295) is revoked
2015-11-25T16:44:19.687Z| vmx| I120: Module DevicePowerOn power on failed.


Leider kann ich keinen weiteren Host aus unserem Cluster nehmen, da die anderen alle vSGA nutzen und wir keine Testserver mit Grid-Karten haben.

Im BIOS steht memory mapping above 4 GB auf enabled

Auf dem Host läuft aktuell außer den zwei VMs zum testen garnichts.

Vielleicht hat jemand ne Idee, wie man weiter troubleshooten könnte?

Grüße

Alex

King of the Hill
Beiträge: 12944
Registriert: 02.08.2008, 15:06
Wohnort: Hannover/Wuerzburg
Kontaktdaten:

Beitragvon irix » 04.12.2015, 09:45

Ich schau mal das ich hier einen Node des Clusters umkonfiguriert bekomme. Ich brauch den eh zwecks Praesentation und dann gebe ich mal Rueckmeldung. Wie schon mal geschrieben ist es eine R730 + K2 mit 6.0 und VIEW sollte 6.1 sein.

Gruss
Joerg

Member
Beiträge: 184
Registriert: 02.06.2010, 18:07

Beitragvon djbreezer » 04.12.2015, 10:07

wow! das wäre echt super! Eigentlich reichen zwei VMs ohne HDD jede einen Kern per Passthrough. Wenn da irgendwas verbuggt ist in Esxi 6 - sollte die zweite VM nicht starten. Habe den Fehler mit und ohne Treiber. Falls Sie doch starten sollte, würde mich intreressieren, ob xorg läuft ? Das ist bei uns immer aus und lässt sich auch nicht starten.

Member
Beiträge: 184
Registriert: 02.06.2010, 18:07

Beitragvon djbreezer » 14.12.2015, 14:24

bist du schonmal dazu gekommen? VMWare hat uns nun eine weitere Woche ohne Rückmeldung hängen lassen. Man findet in den Logs keine Fehler - Freitag wurde der Fall weiter eskaliert.

King of the Hill
Beiträge: 12944
Registriert: 02.08.2008, 15:06
Wohnort: Hannover/Wuerzburg
Kontaktdaten:

Beitragvon irix » 14.12.2015, 15:24

Ich bin mitten drin...
- Hab die nVidia Treiber aktualisiert und die erfordern keinen Hostreboot. Allerdings sieht die Ausgabe von "nvidia-smi" dann sehr komisch aus.
- Nach einem Reboot sieht es besser aus aber dann hat mir hat dann eine CPU gefehlt. Ein Kollege oder ich hatte wohl Passthrough fuer eine der beiden CPUs aktivert und das vergessen und ich mich lange gewundert warum "nvidia-smi" nur noch eine CPU anzeigt.

Den Rest der Zeit habe ich mich mit AppVolumes beschaeftigt. Ich hatte zwar gelesen das VIEW dort dazu gehoert aber alle meine Tests hatte ich mir einer Direkten VMware/Konsole bzw. RDP gemacht und dann funktioniert AppVolume nicht.

Gruss
Joerg

Member
Beiträge: 184
Registriert: 02.06.2010, 18:07

Beitragvon djbreezer » 14.12.2015, 15:29

wenn du die nvidia treiber änderst solltest du immer schauen, dass xorg aus ist!

King of the Hill
Beiträge: 12944
Registriert: 02.08.2008, 15:06
Wohnort: Hannover/Wuerzburg
Kontaktdaten:

Beitragvon irix » 14.12.2015, 15:46

Danke fuer den Hinweis wobei man ja eigentlich erwarten koennten das VUM sowas mit macht.

Gruss
Joerg


Zurück zu „vSphere 6.0“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 9 Gäste