Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!

ESXi 4 Absturz, VM lässt sich nicht mehr starten/friert ein

Moderatoren: Dayworker, irix

Member
Beiträge: 106
Registriert: 09.09.2009, 13:44

ESXi 4 Absturz, VM lässt sich nicht mehr starten/friert ein

Beitragvon osterhase » 30.06.2010, 14:32

Hallo zusammen,

hatte heute morgen einen unschönen Absturz von meinem ESXi 4 Server.
Wollte gerade eine Server 2008 Installation konfigurieren, dann war erst RDP weg, vSphere Client reagierte nur noch sehr langsam, irgendwann war da auch die Verbindung weg (Time out)... Shell hat sich dann auch irgendwann verabschiedet... Also "hard reset"...

Einige VMs konnte ich starten, eine jedoch nicht.
Meldung: cannot open the disk ...... Reason: no child processes

Dann habe ich sicherheitshalber die komplette VM per shell & cp in ein Backupverzeichnis kopiert. Für diesen Forenbeitrag wollte ich dann die Fehlermeldung beim Starten der VM nochmal abschreiben - dann startete die VM überraschenderweise... aber seeehr langsam, kaum zu bedienen. Eine parallel laufende VM hat sich zwischenzeitlich schon wieder aufgehangen (EDIT: Korrektur, nicht eingefroren, aber so langsam, dass er schon seit 5 Minuten den Desktop lädt, nachdem der Bildschirmschoner angegangen war...)...

Also kurz: Ich fürchte, hier ist mehr kaputt gegangen.
Host ist ein Optiplex 755 und es ist meine private Umgebung, also nichts Unternehmenskritisches o.Ä.

Habt ihr Ideen?

Member
Beiträge: 490
Registriert: 26.05.2008, 15:52

Beitragvon deathrow » 30.06.2010, 15:37

RAID vom Server zerrissen?

Member
Beiträge: 106
Registriert: 09.09.2009, 13:44

Beitragvon osterhase » 30.06.2010, 15:46

ehrlich gesagt hat er garkein RAID, aber ein HDD-Problem prüfe ich gerade... Auffällig ist jedenfalls, dass das CDROM-Laufwerk (SATA) nach einem Reboot nicht mehr erkannt wurde... eventuell hat das Motherboard also einen Schaden... Möchte nur den Fehler etwas eingrenzen, bevor ich damit an Dell heran trete.

Gibt es ein Tool (bootfähig vom USB Stick), welches sich zum Prüfen von Festplatten bewährt hat?

Guru
Beiträge: 3114
Registriert: 27.12.2004, 22:17

Beitragvon rprengel » 30.06.2010, 16:40

osterhase hat geschrieben:ehrlich gesagt hat er garkein RAID, aber ein HDD-Problem prüfe ich gerade... Auffällig ist jedenfalls, dass das CDROM-Laufwerk (SATA) nach einem Reboot nicht mehr erkannt wurde... eventuell hat das Motherboard also einen Schaden... Möchte nur den Fehler etwas eingrenzen, bevor ich damit an Dell heran trete.

Gibt es ein Tool (bootfähig vom USB Stick), welches sich zum Prüfen von Festplatten bewährt hat?


Hast du eine Kopie deiner Systeme?
Wenn nein unbedingt erst einen Satz kopien ziehen?
sonst wird das ggf noch ganz ganz schäbig für dich.

Member
Beiträge: 106
Registriert: 09.09.2009, 13:44

Beitragvon osterhase » 30.06.2010, 16:46

Habe gerade die Platten alle auf Smart-Werte gecheckt... eine hat immerhin schon 5 "pending sectors" und einen defekten... Da dies auch die Platte war, wo besagte VM drauf lag (mit der das ganze Spiel angefangen hat), passt das eigentlich ganz gut ins Bild. Werde gerade mal losfahren und eine neue kaufen. Ist eine 1:1 Kopie mit einem Image-Tool a la Acronis sinnvoll oder lieber als neuen Datastore in den ESXi einhängen und dann per cp die VMs umziehen?

Guru
Beiträge: 3114
Registriert: 27.12.2004, 22:17

Beitragvon rprengel » 30.06.2010, 18:59

osterhase hat geschrieben:Habe gerade die Platten alle auf Smart-Werte gecheckt... eine hat immerhin schon 5 "pending sectors" und einen defekten... Da dies auch die Platte war, wo besagte VM drauf lag (mit der das ganze Spiel angefangen hat), passt das eigentlich ganz gut ins Bild. Werde gerade mal losfahren und eine neue kaufen. Ist eine 1:1 Kopie mit einem Image-Tool a la Acronis sinnvoll oder lieber als neuen Datastore in den ESXi einhängen und dann per cp die VMs umziehen?


Ich würde einfach die Daten mittels SCP abziehen.
In jedem Fall keine schreibenden Zugriffe mehr auf die Platte ausführen.

Member
Beiträge: 106
Registriert: 09.09.2009, 13:44

Beitragvon osterhase » 30.06.2010, 19:11

Bin dabei, dauert jetzt noch ca. 2 Stunden schätze ich...

Leider scheint es schwierig zu sein, das System mit einem (kompatiblem) RAID-Controller auszustatten, da es nur PCI Steckplätze bzw. PCI-E 1x und PCI-E 16x hat. Gibts hier einen funktionierenden Geheimtipp für die Heimwerkler?
Ein RAID1 mit zwei 1 TB Platten würde es ja schon tun...

Member
Beiträge: 106
Registriert: 09.09.2009, 13:44

Beitragvon osterhase » 30.06.2010, 23:02

So.... Platte kopiert, die VMs starten alle, mit Ausnahme der besagten "kaputten" VM.
Hier nun die Fehlermeldung, die mir vSphere beim Startversuch entgegen wirft:
http://img10.imageshack.us/img10/2020/esx.gif

Interessant: Habe die Dateien auf der Konsole per "cp" auf die neue Platte kopiert. Genau bei dieser VM wurde der Kopiervorgang zwar vollständig ausgeführt, jedoch mit dem Error: "cp: read error: Input/output error"

Ich fürchte, da ist nicht mehr viel zu retten...?
Es handelt sich da um eine VM mit Win 2008 R2 und Exchange 2010... Das letzte Backup über die Windows-Sicherungsfunktion ist ca. 4 Wochen her, die Postfächer liegen aber in aktueller Version als pst-Export vor (da privat, ist das sehr überschaubar)....

Member
Beiträge: 490
Registriert: 26.05.2008, 15:52

Beitragvon deathrow » 01.07.2010, 09:19


Member
Beiträge: 106
Registriert: 09.09.2009, 13:44

Beitragvon osterhase » 01.07.2010, 11:38

Hatte ich schon probiert, erfolglos...

EDIT: Rückmeldung: Die Ursache war wohl die Festplatte, nach dem Tausch (und Wiederherstellung der einen VM über Backup) läuft alles wieder einwandfrei.
Danke für die Tipps!

Member
Beiträge: 106
Registriert: 09.09.2009, 13:44

Beitragvon osterhase » 05.07.2010, 23:39

Zu früh gefreut... gerade hat sich der Host wieder feierlich verabschiedet.

Bild

Könnt ihr mir beim interpretieren helfen? RAM?

Guru
Beiträge: 3114
Registriert: 27.12.2004, 22:17

Beitragvon rprengel » 06.07.2010, 00:14

osterhase hat geschrieben:Zu früh gefreut... gerade hat sich der Host wieder feierlich verabschiedet.

Bild

Könnt ihr mir beim interpretieren helfen? RAM?


memtes86 bzw. burnin tools auf das System ansetzen.
Kabel stecken alle ordentlich und die Themperatur ist auch ok?

Gruß

King of the Hill
Beiträge: 13657
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Beitragvon Dayworker » 06.07.2010, 06:47

Die Memtest-Angaben kannst du leider vergessen, da sich bei neueren Rechnern die Caches nicht mehr alle abschalten lassen und daher die Fehleradressen springen.
Einzigster Ausweg sind daher Burnin-Tools bzw Testprogramme ala Prime95 oder das darauf aufbauende Orthos Multiprime. Der Vorteil beiden Primezahl-Programme liegt in der Tatsache begründet, daß die Primzahlen ja schon bis zu einer sehr hohen Zahl bekannt sind und sämtliche Abweichungen einen Fehler darstellen. Orthos Multiprime bietet da auch eine komfortable Möglichkeit die Test auf CPU, RAM oder beides inklu Virtuellen RAM also HDD auszudehnen. Das Team Core2MaxPerf und CPUTempWatch leistet auch gute Dienste für den CPU-Test, wobei Core2MaxPerf auch auf AMD lauffähig ist.

Member
Beiträge: 106
Registriert: 09.09.2009, 13:44

Beitragvon osterhase » 06.07.2010, 08:27

Guten Morgen,

memtest habe ich gestern Abend noch angeworfen, wenn man dem nun trauen darf (?), hätte einer der vier RAM Riegel eine Macke:

http://img808.imageshack.us/img808/8100/memtest.jpg

Leider ist daraus nicht ersichtlich, welcher den Fehler verursacht hat.... Und Cache ist an, wie von Dayworker bereits erwähnt...

Das andere Tool werde ich dann heute Nacht mal laufen lassen (tagsüber müssen zur Zeit zwei VMs leider zwingend online sein...)

EDIT: Für Orthos Multiprime bastle ich mir eine WIndows-Boot-CD, wenn ich das richtig sehe?

Experte
Beiträge: 1337
Registriert: 25.04.2009, 11:17
Wohnort: Thüringen

Beitragvon Supi » 06.07.2010, 09:04

Also wenn Memtest nen Fehler meldet, dann hat zumeist auch der Ram einen weg.
Wobei ich die letzten Memtest Fehler eher so bei 512MB SD-Ram billig riegeln gesehen habe.

Member
Beiträge: 106
Registriert: 09.09.2009, 13:44

Beitragvon osterhase » 06.07.2010, 09:06

Supi hat geschrieben:Also wenn Memtest nen Fehler meldet, dann hat zumeist auch der Ram einen weg.
Wobei ich die letzten Memtest Fehler eher so bei 512MB SD-Ram billig riegeln gesehen habe.


Naja, die Frage ist nun wie aussagekräftig das Ergebnis im Hinblick auf Dayworkers Andeutung mit dem Cache ist...

Oder anders gefragt: Bei einem absolut intakten RAM - gibt es da ggf. fehlerhaften Alarm von memtest?

King of the Hill
Beiträge: 13657
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Beitragvon Dayworker » 06.07.2010, 09:51

Memtest zeigt auf meinem System auch vereinzelte Fehler an, diese springen wegen des aktiven Caches konsequent über sämtliche RAM-Riegel. 1,2 Fehler sind also scheinbar normal, zumindest on ECC und dergleichen.
Wesentlich verläßlicher ist da Prime95, daß es für Linux und Windows gibt. Prime95 sollte sich eigentlich auf jeder Live-CD finden lassen. Notfalls bastelst du dir einfach deine eigene mit BartPE oder MOA.

Bei Orthos oder Prime95 dürfen keine Fehler auftauchen. Sobald dort ein kleiner Fehler auftaucht, liegt ein Defekt vor.

Member
Beiträge: 106
Registriert: 09.09.2009, 13:44

Beitragvon osterhase » 07.07.2010, 08:41

So er hat jetzt heute Nacht gut 8 Stunden lang Primzahlen berechnet, fehlerfrei und ohne jede Warnung... Wobei es allerdings sein kann, dass die Win-PE-CD, die ich hier noch rumfliegen hatte, eine 32bit-Version war und demnach ohnehin nur die Hälfte des RAMs adressiert werden konnte... Das ist mir leider erst vorhin aufgefallen...


Zurück zu „ESXi 4“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 9 Gäste