Seite 1 von 1
PSOD durch vDGA Grid K1
Verfasst: 05.11.2015, 15:36
von djbreezer
Hey,
ich habe gerade in einem Dell R720 mit einer Nivida Grid K1 einigen VMs einen vDGA Graka mappen wollen, als der Server nen PSOD präsentiert hat.
Nachdem er nach 30 min. endlich wieder fertig gebootet hat, ist mir aufgefallen, dass die Karten im vsphere client unterschiedlich angezeigt werden!
Auf einem Server sieht das Ganze so aus:
Und auf dem der sich verabschiedet hat so:
Ich habe einen weiteren baugleichen Server - dort sieht es aus wie in Variante 1. Ich vermute jetzt mal, dass die Karte defekt ist.
Als ich VMs starten wollte, denen ich einen Kern der Karte gemapped habe, hat der Host angezeigt, dass das Device bereits genutzt werden würde. Dann kam direkt der PSOD.
Wie sieht dieses Fenster bei euch aus? Wird der komplette HW Pfad zu den Geräten angezeigt, oder nur die Geräte?
Grüße
Alex
Verfasst: 05.11.2015, 16:05
von irix
Wir haben nur eine Karte pro Host aber es sieht aus wie in deinem 2 Bild also so Baum/Ast Artig und jede GPU unter einem PLX Technology Eintrag.
Gruss
Joerg
Verfasst: 05.11.2015, 16:15
von djbreezer
irix hat geschrieben:Wir haben nur eine Karte pro Host aber es sieht aus wie in deinem 2 Bild also so Baum/Ast Artig und jede GPU unter einem PLX Technology Eintrag.
Gruss
Joerg
das sind screenis von einer Karte pro Host - man kann ja jeden Kern einer anderen VM mappen - aka 4 VMs pro Host.
dann scheint das nicht das Problem zu sein - vielleicht ist das Passth. bei den Dell R720 doch nicht so einfach ohne weiteres in ESXi 6.1 möglich... Habt ihr denn die K1 als vDGA in mehrere VMs gemapped? Falls ja - werden die VMs "von Hand" betreut oder über VMWare Horizon ?
Gruß
Alex
Verfasst: 05.11.2015, 16:17
von irix
Wir machen vSGA.
Gruss
Joerg
Verfasst: 05.11.2015, 16:25
von djbreezer
Mit vGPU Profilen oder ohne? Wir haben vSGA jetzt extra abgeschaltet, weil man ohne bessere Desktop Performance erhält.
Verfasst: 05.11.2015, 16:29
von irix
Ich habe eine K2 und nicht die K1. Also unsere hat "nur" 2 CPUs und weniger Speicher als deine aber viel mehr Cores und somit Leistung.
Das die Leistung bei vDGA hoeher ist als alles andere ist ja klar.
Gruss
Joerg
Verfasst: 05.11.2015, 16:32
von djbreezer
Mit "Desktop Performance" meinte ich die User-Erfahrung auf "normalen" Office Desktops (ohne vDGA oder vSGA) - die laufen ohne alles aus Ivy Clustern wesentlich besser als mit vSGA. vDGA wollte ich jetzt für eine kleine Gruppe (16 VMs) testen - habe aber den PSOD erhalten. Ich werde mal n case bei VMWare aufmachen.
Verfasst: 04.12.2015, 08:52
von djbreezer
Hallo,
gibts denn niemanden hier, der aktuell vDGA unter Esxi 6 mit Grid-Karten im Einsatz hat? Dell hat quasi den kompletten Server getauscht und VMWare weiß auch nicht weiter.
Stand ist: Erste VM mit vDGA Grid Kern startet - weitere nicht. Die Meldung vom vSphere Client:
Device already in use.
VMware Log sagt dazu:
vmware.log
2015-11-25T16:44:19.686Z| vmx| I120: PCIPassthru: Failed to register device 0000:08:00.0 error = 0x10
2015-11-25T16:44:19.686Z| vmx| I120: Msg_Post: Error
2015-11-25T16:44:19.686Z| vmx| I120: [msg.pciPassthru.createAdapterFailedDeviceInUse] Device 008:00.0 is already in use.
2015-11-25T16:44:19.686Z| vmx| I120: ----------------------------------------
2015-11-25T16:44:19.687Z| vmx| I120: Vigor_MessageRevoke: message 'msg.pciPassthru.createAdapterFailedDeviceInUse' (seq 53295) is revoked
2015-11-25T16:44:19.687Z| vmx| I120: Module DevicePowerOn power on failed.
Leider kann ich keinen weiteren Host aus unserem Cluster nehmen, da die anderen alle vSGA nutzen und wir keine Testserver mit Grid-Karten haben.
Im BIOS steht memory mapping above 4 GB auf enabled
Auf dem Host läuft aktuell außer den zwei VMs zum testen garnichts.
Vielleicht hat jemand ne Idee, wie man weiter troubleshooten könnte?
Grüße
Alex
Verfasst: 04.12.2015, 09:45
von irix
Ich schau mal das ich hier einen Node des Clusters umkonfiguriert bekomme. Ich brauch den eh zwecks Praesentation und dann gebe ich mal Rueckmeldung. Wie schon mal geschrieben ist es eine R730 + K2 mit 6.0 und VIEW sollte 6.1 sein.
Gruss
Joerg
Verfasst: 04.12.2015, 10:07
von djbreezer
wow! das wäre echt super! Eigentlich reichen zwei VMs ohne HDD jede einen Kern per Passthrough. Wenn da irgendwas verbuggt ist in Esxi 6 - sollte die zweite VM nicht starten. Habe den Fehler mit und ohne Treiber. Falls Sie doch starten sollte, würde mich intreressieren, ob xorg läuft ? Das ist bei uns immer aus und lässt sich auch nicht starten.
Verfasst: 14.12.2015, 14:24
von djbreezer
bist du schonmal dazu gekommen? VMWare hat uns nun eine weitere Woche ohne Rückmeldung hängen lassen. Man findet in den Logs keine Fehler - Freitag wurde der Fall weiter eskaliert.
Verfasst: 14.12.2015, 15:24
von irix
Ich bin mitten drin...
- Hab die nVidia Treiber aktualisiert und die erfordern keinen Hostreboot. Allerdings sieht die Ausgabe von "nvidia-smi" dann sehr komisch aus.
- Nach einem Reboot sieht es besser aus aber dann hat mir hat dann eine CPU gefehlt. Ein Kollege oder ich hatte wohl Passthrough fuer eine der beiden CPUs aktivert und das vergessen und ich mich lange gewundert warum "nvidia-smi" nur noch eine CPU anzeigt.
Den Rest der Zeit habe ich mich mit AppVolumes beschaeftigt. Ich hatte zwar gelesen das VIEW dort dazu gehoert aber alle meine Tests hatte ich mir einer Direkten VMware/Konsole bzw. RDP gemacht und dann funktioniert AppVolume nicht.
Gruss
Joerg
Verfasst: 14.12.2015, 15:29
von djbreezer
wenn du die nvidia treiber änderst solltest du immer schauen, dass xorg aus ist!
Verfasst: 14.12.2015, 15:46
von irix
Danke fuer den Hinweis wobei man ja eigentlich erwarten koennten das VUM sowas mit macht.
Gruss
Joerg