Update 3:
- Nach erfolgreichem Hypervisor-Boot vom USB-Stick und anschließend möglichem Zugriff auf das RAID-DataStore habe ich entschieden, das in diesem Thread beschriebene Problem vorerst nicht weiterzuverfolgen.
Es besteht jedoch definitiv fort, der Thread kann also nicht wirklich als SOLVED gekennzeichnet werden, weshalb ich ihn stattdessen (zumindest vorläufig) als OBSOLETE kennzeichnen werde.
Weitere Inputs zum Thema sind aber absolut willkommen!
Hat jemand schon einmal folgende Situation erfolgreich bewältigt und würde seine Erfahrungen teilen?
Vorfall: Nach einem Plattenfehler im RAID 5 (Controller: Adaptec RAID 3405) unseres Virtualisierungs-Servers (CPU Intel Xeon X3360 2.8 GHz, 8 GiB RAM) ist offenbar der Hypervisor (ESXi v4.1.0, Kernel Build 260247) in Mitleidenschaft gezogen worden.
Es war heute Morgen per vSphere Client kein Zugriff mehr möglich, ich konnte aber an der Konsole per F11-Taste einen sauberen Neustart bewirken.
Aktueller Stand: Nach dem Rebuild des degradierten RAIDs per Adaptec RAID Boot-Utility mit anschließendem Status OPTIMAL hängt nun der Hypervisor ziemlich gegen Ende des Boot-Vorgangs. Die letzte Boot-Meldung auf der Konsole lautet ›cbt loaded successfully‹.
Alle 4 RAID-Platten zeigen seither (ca. 2,5 Stunden) heftige Aktivität, was mir zunächst ein klein wenig Hoffnung machte. Aber ansonsten tut sich überhaupt nichts mehr.
Update:
- Zwischenzeitlich war für etwa 30 Minuten Ruhe eingekehrt, was die Plattenzugriffe anging. Jetzt herrscht wieder hohe Aktivität. Es ist zu vermuten, dass das durch einen weiteren automatischen RAID-Rebuild im Hintergrund ausgelöst wird, also gar nicht vom Hypervisor kommt. Auf dem Konsolenbildschirm steht unverändert die letzte Bootmeldung …
Update 2:
- Es hat sich der Verdacht bestätigt, dass die heftige Plattenaktivität durch ein fortwährendes automatisches RAID-Rebuild im Hintergrund ausgelöst wurde, weil die eingesetzte Platte einen Hau hatte. Nach einem brutalen Hardware-Reset habe ich inzwischen die defekte Ersatzplatte wieder ausgetauscht, mit einer frischen Platte einen überwachten Vordergrund-Rebuild durchgeführt und mit OPTIMAL ausgewiesenem RAID den Hypervisor abermals booten lassen. Leider hat sich -- außer der nun dauerhaft ruhigen Festplatten-LEDs -- nichts am bislang beschriebenen Endresultat geändert …
Morgen versuche ich es mit dem ESXi auf dem USB-Stick -- das Booten davon hat auf einem Testrechner schon auf Anhieb geklappt.
Was die Sache dramatisiert: Die Katastrophe ist leider mitten in der Nacht während der Backup-Phase passiert und eines der wichtigsten differentiellen Backups konnte nicht vollendet werden, bevor die VM des Windows Server 2008 R2 gestorben ist.
Meine konkreten Fragen:
o Ist nach meiner obigen Beschreibung wohl damit zu rechnen, dass noch irgend etwas passiert? Wie lang sollte ich noch abwarten? Wie gesagt: die Platten zeigen jede Menge Aktivität, irgendein Prozess scheint also noch zu leben …
o Gäbe es eine Möglichkeit, nach einem Reset sich während des Neustarts mehr Informationen auf die Konsole zu zaubern?
o Wie -- wenn überhaupt -- kann man im Worst Case den Hypervisor von außen reparieren oder neu aufsetzen, ohne dass dabei die VMs über den Jordan gehen?
Für Antworten, Hinweise und Ratschläge vielen Dank im Voraus!
Gruß,
//suntoucher