Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!

Ein allgemeiner Systemfehler ist aufgetreten?

Alles zum Thema vSphere 6, ESXi 6.0 und vCenter Server.

Moderatoren: irix, Dayworker

Member
Beiträge: 22
Registriert: 09.12.2005, 09:21

Ein allgemeiner Systemfehler ist aufgetreten?

Beitragvon ernschd » 12.01.2017, 09:57

Hallo,

wir haben bei unserem (nicht produktiven) Server ein Problem. Letzte Woche hatten wir auf unserem einen Ausfall. Bei mehreren VMs steht in der Ereignisanzeige "Das Gastbetriebssystem dieser virtuellen Maschine ist ausgefallen".
Danach kam dieses Event:
SERVER_XYZ auf 192.168.X.Y kann nicht eingeschaltet werden: Ein allgemeiner Systemfehler ist aufgetreten:
Fehler 06.01.2017 11:03:46
SERVER_XYZ
root

Die betroffenen VMs lassen sich auch nicht mehr starten, da es anscheinend Probleme mit den virtuellen Festplatten gibt.
Ein Startversuch zeigt nach kurzer Zeit folgendes an:
Aufgabe: Virtuelle Maschine ausschalten
Info
06.01.2017 12:42:38
Virtuelle Maschine ausschalten

Der RAID-Kontroller meldet jedoch keine Probleme. Andere VMs funktionieren noch.

Wie kann ich nun herausfinden, was passiert ist? Den Log-Browser im Webclient konnte ich bis heute leider nicht finden.
Besteht eine Möglichkeit zu Rettung der VMs?

Experte
Beiträge: 1823
Registriert: 04.10.2011, 14:06

Re: Ein allgemeiner Systemfehler ist aufgetreten?

Beitragvon JustMe » 12.01.2017, 10:31

In den Home-Verzeichnissen der VMs auf dem/den Datastore/s finden sich dedizierte Logdateien fuer die jeweilige VM (vmware.log und entsprechende Vorgaenger). ==> /vmfs/volumes/<Datastore-Name oder ID>/<VM-Name>
Bei jedem VM-Start (und nebenbei deshalb auch beim vMotion) wird eine neue vmware.log begonnen.

Diese Dateien kann man sich auch mit dem Datastore-Browser herunterladen zur Analyse (sind ja keine vmdk-Dateien [nur fuer Insider ;-)])
In diesen Dateien sollten sich weitere Hinweise finden lassen, was dem System nicht passt.

PS:
Die Signatur ("VMware Server 2.02") scheint aus 2005 zu stammen :grin:

Member
Beiträge: 22
Registriert: 09.12.2005, 09:21

Re: Ein allgemeiner Systemfehler ist aufgetreten?

Beitragvon ernschd » 12.01.2017, 11:53

Danke für den Hinweis mit der Signatur ;)

Ich habe die Logdateien auf meinen PC kopiert, finde darin jedoch zu viele Einträge, von denen ich nicht weiß, ob sie "normal" sind oder ein Fehler.
Beispiel:
2017-01-06T09:09:02.331Z| vmx| I120: Destroying virtual dev for scsi0:0 vscsi=8192
2017-01-06T09:09:02.331Z| vmx| I120: VMMon_VSCSIStopVports: No such target on adapter

Experte
Beiträge: 1823
Registriert: 04.10.2011, 14:06

Re: Ein allgemeiner Systemfehler ist aufgetreten?

Beitragvon JustMe » 12.01.2017, 13:08

Das Zweit-Einfachste waere, so ein vmware.log einer nicht startenden VM mal mit dem einer VM, die normal spielt, zu vergleichen. Oder, falls noch vorhanden, mit einem frueheren vmware*.log, als dieselbe VM noch lief.

Das Einfachste dagegen waere, die vmware*logs zu zippen, und hochzuladen. Dann kann sich vielleicht eine nette Seele hier mal damit auseinandersetzen.

Oder ganz insgesamt: Wenn Ihr aktiven vSphere-Support irgendwo habt/bezahlt, kippt denen das Ganze vor die Fuesse.

Edit:
Aber Essentials wird vmtl. ja nur gekauft sein mit Subscription, und separat verrechenbarem "Per-Incident-Support".

Profi
Beiträge: 993
Registriert: 31.03.2008, 17:26
Wohnort: Einzugsbereich des FC Schalke 04
Kontaktdaten:

Re: Ein allgemeiner Systemfehler ist aufgetreten?

Beitragvon kastlr » 12.01.2017, 17:34

Hallo,

überprüfe mal über die ESXi Shell, ob sich *.lck Dateien in den Verzeichnissen der betroffenen VMs befinden.
Bei einem Crash bleiben die manchmal stehen und verhindern dann das erneute Starten einer VM.

Diese Dateien können gefahrlos gelöscht werden.

Gruß,
Ralf

Member
Beiträge: 22
Registriert: 09.12.2005, 09:21

Re: Ein allgemeiner Systemfehler ist aufgetreten?

Beitragvon ernschd » 16.01.2017, 15:02

Leider nicht.

Ich habe hier mal eine Logdatei einer VM hochgeladen: http://pastebin.com/zNxNV8qM
In dieser wird die virtuelle HDD zwar gefunden, aber das OS bekommt beim Booten direkt einen Bluescreen.

Vielleicht kann jemand was aus dem Log erkennen...

Experte
Beiträge: 1823
Registriert: 04.10.2011, 14:06

Re: Ein allgemeiner Systemfehler ist aufgetreten?

Beitragvon JustMe » 16.01.2017, 15:50

Aehem, mit Verlaub:
Das ist ein vollkommen anderes Problem jetzt...
Meldung im ersten Post vom 12.1.: "SERVER_XYZ auf 192.168.X.Y kann nicht eingeschaltet werden"
Offensichtlich kann die VM sehr wohl jetzt eingeschaltet werden.

Jedoch wird sie auch gleich wieder ausgeschaltet (ca. 1min nach Start):

Code: Alles auswählen

[...]
2017-01-16T13:49:26.804Z| vmx| I120: VigorTransportProcessClientPayload: opID=AE2F1B22-000080F6-7b-70-efc9 seq=2282: Receiving PowerState.InitiatePowerOff request.
2017-01-16T13:49:26.804Z| vmx| I120: Vix: [662587 vmxCommands.c:556]: VMAutomation_InitiatePowerOff. Trying hard powerOff
2017-01-16T13:49:26.804Z| vmx| I120: VigorTransport_ServerSendResponse opID=AE2F1B22-000080F6-7b-70-efc9 seq=2282: Completed PowerState request.
2017-01-16T13:49:27.501Z| vmx| I120: Stopping VCPU threads...
2017-01-16T13:49:27.501Z| vcpu-0| I120: VMMon_WaitForExit: vcpu-0: worldID=662588
[...]


Ausser dass an der VM mal ein XP-Image hing auf demselben Datastore wie die VM, kann ich persoenlich nix Problematisches an der VM-Konfig erkennen.
Und der ESXi koennte mal wieder ein paar Patches vertragen.

Verrat' uns doch einfach mal, WAS fuer ein Bluescreen so kommt...

Member
Beiträge: 22
Registriert: 09.12.2005, 09:21

Re: Ein allgemeiner Systemfehler ist aufgetreten?

Beitragvon ernschd » 16.01.2017, 17:14

Ich dachte, dass der Bluescreen evtl. durch den gleichen Fehler verursacht wird, der die anderen VMs nicht mehr starten lässt. :oops:
Hier die Meldung vom Bluescreen:
Es wurde ein Problem festgestellt...
...

Technische Information:

STOP: 0x00000024 (0x001920F1,0X860BB008,0xC0000102,0x00000000)


Was ich derzeit überhaupt nicht verstehe: die übrigen VMs, die sich gar nicht mehr starten lassen sind mittlerweile im Status "kein Zugriff" und die zugehörigen Daten sind verschwunden. :shock:
In der Liste im vSphere-Client sind sie aber immer noch vorhanden. Wo kann ich hierzu weitere Infos finden?

Experte
Beiträge: 1823
Registriert: 04.10.2011, 14:06

Re: Ein allgemeiner Systemfehler ist aufgetreten?

Beitragvon JustMe » 16.01.2017, 17:31

Wo kann ich hierzu weitere Infos finden?

G**gle vielleicht? ;-), SCNR.

Stop 0x24 ist ein NTFS_FILE_SYSTEM error.
Da ist entweder das Dateisystem in der VM logisch defekt, oder der darunterliegende Datentraegerzugriff.

Wenn auch noch andere VMs betroffen sind, sollte man eher von einem Datentraegerproblem ausgehen, denke ich.

Was unterscheidet denn moeglicherweise die betroffenen VMs von denen, die sich "normal" runter- und wieder hochfaren lassen? Unterschiedliche Datastores z.B., usw.usf.

Zum tatsaechlichen Status von VMs (und Dateien auf dem Datentraeger) taugt der vSphere-Client (womoeglich noch am vCenter angemeldet) eher nicht. Da geht zuviel verloren auf dem Weg von der Magnetoberflaeche der Datentraeger hin zu der Benutzeroberflaeche mit den ganzen Interpretationen, Puffern und sonstigen "Erleichterungen", und man schaut besser auf der Kommandozeile.

Dort kannst Du auch gleich die /var/log/vmkwarning* und vmkernel* Dateien durchgucken.

Ist das jetzt eigentlich nur der eine Host mit dem SuperMicro-Board? Ich hab' mir jetzt nicht die Muehe gemacht, zu schauen ob da ein Westmere E5606 draufpasst, sorry. Mit lokalen Platten? Oder sind noch mehr betroffen? Oder Remote-Storage?

Member
Beiträge: 22
Registriert: 09.12.2005, 09:21

Re: Ein allgemeiner Systemfehler ist aufgetreten?

Beitragvon ernschd » 17.01.2017, 09:33

Erst mal vielen Dank mal an alle für die Mühe bisher :)

Die VMs liegen alle auf dem gleichen Datastore (gespiegeltes RAID - HP Smart Array P411/512 MB SAS RAID-Controller mit BBU-Modul).

Das vmkwarning-Log habe ich hier:
http://pastebin.com/xrbVYVzQ

Das Kernel-Log fängt erst am 14.01.17 an - leider zu spät.

Der Host ist ein HP ProLiant DL160 G6, der Supermicro ist unser neuer.

Experte
Beiträge: 1823
Registriert: 04.10.2011, 14:06

Re: Ein allgemeiner Systemfehler ist aufgetreten?

Beitragvon JustMe » 17.01.2017, 10:19

Was soll man noch mehr sagen als:

Code: Alles auswählen

2017-01-06T17:14:26.807Z cpu1:33456)ALERT: Logs are stored on non-persistent storage.  Consult product documentation to configure a syslog server or a scratch partition.


Wofuer basteln die Leute bei VMware eigentlich all' die lustigen Warnschilder?

Und dann bin ich mir nicht ganz sicher mit diesem Hinweis:

Code: Alles auswählen

2017-01-09T14:56:03.335Z cpu2:34623)WARNING: VmfsSparse: 4927: Real sector 4294967295 exceeds free sector 62897682

Habe ich noch nicht gesehen, aber koennte auf ein VMDK-Problem hinweisen (entweder Snapshot, oder Thin-provisioned Disk). Kann auch sein, dass das nur einfach eine "Warnung" ist, dass die VMDK groesser als der Datastore definiert wurde.

Zu guter Letzt:
Wenn ich die HCL nicht missdeute, dann gibt's fuer DL160G6 seit 5.1 keinen Support mehr...

Zusammenfassend wuerde ich persoenlich vorschlagen, so schnell wie moeglich alles, wo man noch rankommt, nach extern zu sichern. Danach kann man genauer schauen, wie sich das alles nach einem Reboot (mit aktiviertem persistent Logging!) anfasst.


Zurück zu „vSphere 6.0“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 12 Gäste