Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!

"Multiples Organversagen..." RAID5 und Partitionierung futsch

Tips und Hinweise zur Datenrettung bei defekten VMs oder unlesbaren Datastores

Moderatoren: irix, Dayworker

Member
Beiträge: 3
Registriert: 01.01.2018, 20:36

"Multiples Organversagen..." RAID5 und Partitionierung futsch

Beitragvon CrashKid » 01.01.2018, 21:33

Hi,

"Multiples Organversagen" könnte man den üblen Crash nennen, den ich netterweise über Weihnachten hatte. Ein zerbrezeltes RAID5, wo mich der LSI Controller wohl viel zu spät alarmiert hat, mit 2 beschädigten Platten, und einer nicht mehr auffindbarem Partition der virtuellen Maschinen. Ok, das ist ein ESXI 5.5.0, mit 2 RAIDs, einem RAID1 (250GB) für das System selbst (das lebt noch), und einem kaputten RAID5 (4TB) für die eigentlichen VM-Maschinen.

Ich habe jetzt mal das Diskinternals Tool (VMFS-Recovery-Demoversion) über die RAID-Reste laufen lassen, was allerdings ewig dauert, und nicht sehr sinnvolle Ergebnisse bringt.

Das meiste Zeug auf diesem Server ist verschmerzbar, bzw. kann über Backups geholt werden. Nur eine virtuelle Maschine ist extrem wichtig, weil da wegen einer Netzwerkänderung das Backup schon einige Zeit versagt hat, was blöderweise nicht aufgefallen ist.

Gibt es sonst noch gute Tools oder Hilfsmittel? Auf der einen Seite wäre es gut, sich die RAID5 Platten mal anzusehen, ob da noch mehr zu machen wäre, und auf der anderen Seite wäre ein Blick auf die "Reste" der Daten auch nicht verkehrt. Eigentlich brauche ich von den 4TB nur ca. 1GB, das tägliche Archiv. Eine einzige .7z Datei. Kann jemand Tipps geben?

Danke!

Matthias

King of the Hill
Beiträge: 12940
Registriert: 02.08.2008, 15:06
Wohnort: Hannover/Wuerzburg
Kontaktdaten:

Re: "Multiples Organversagen..." RAID5 und Partitionierung futsch

Beitragvon irix » 01.01.2018, 22:08

Mit dem Auslesen von VMFS und extraieren von Daten ist "Continuum" hier welcher sich beruflich damit beschaeftigt. Du kannst ihn auch telefonisch erreichen unter http://sanbarrow.com/sickbay.html

Allerdings gehts im eher um defekte VMFS und nicht mehr vorhandene VMDKs. In deinem Fall muesste man aber eher das RAID wiederherstellen und dazu muesste man eine der beiden HDDs wieder hinbekommen. Wir senden solche Faelle zu Kroll und co.

Gruss
Joerg

Member
Beiträge: 3
Registriert: 01.01.2018, 20:36

Re: "Multiples Organversagen..." RAID5 und Partitionierung futsch

Beitragvon CrashKid » 02.01.2018, 20:10

Danke für die Tipps.

Wie ist das eigentlich, wenn man eine neue virtuelle Maschine auf dem ESXi Server anlegt, dann wird doch die virt. Festplatte sofort in voller Größe geschrieben.

Liegen die Daten der vmdk als zusammenhängender Block auf der Harddisk? Also Sektormäßig? Wenn noch ausreichend freier Platz war? Oder wird das wild verteilt? Ich durchsuche gerade die noch funktionierenden Festplatten, und finde hier und da Fragmente der Maschinen.

Gruß Matthias

Guru
Beiträge: 3081
Registriert: 27.12.2004, 22:17

Re: "Multiples Organversagen..." RAID5 und Partitionierung futsch

Beitragvon rprengel » 02.01.2018, 21:53

CrashKid hat geschrieben:Danke für die Tipps.

Wie ist das eigentlich, wenn man eine neue virtuelle Maschine auf dem ESXi Server anlegt, dann wird doch die virt. Festplatte sofort in voller Größe geschrieben.

Liegen die Daten der vmdk als zusammenhängender Block auf der Harddisk? Also Sektormäßig? Wenn noch ausreichend freier Platz war? Oder wird das wild verteilt? Ich durchsuche gerade die noch funktionierenden Festplatten, und finde hier und da Fragmente der Maschinen.

Gruß Matthias

Bei 2 defekten Platten ist ein Raid5 eigentlich tot. Dir werden mit ziemlicher Sicherheit Daten fehlen.
Wenn du nichr ganz genau weißt was du tust beraubst du dich beim kleinsten Fehler ggf. aller Chancen einer Datenrettung durch Profis.
Du solltest sehr schnell klären ob ihr euch eine professionelle Datenrettung leisten wollt und könnt.
Ansonsten ist es Zeit die Folgen des Verlustes der wichtigen Vm einzuschätzen um die Folgen im Griff zu behalten.
Gruss
Ralf

Guru
Beiträge: 2730
Registriert: 23.02.2012, 12:26

Re: "Multiples Organversagen..." RAID5 und Partitionierung futsch

Beitragvon ~thc » 03.01.2018, 07:24

Bei 2 defekten Platten ist ein Raid5 eigentlich tot. Dir werden mit ziemlicher Sicherheit Daten fehlen.

Theoretisch schon. Ich hatte mal den Fall einer solchen Bauchlandung bei einem RAID5 mit drei Platten. Das BIOS des Controllers (ICP) sah den Mist und bot mir netterweise an, das RAID-Volume Read-Only zu mounten, um nachzuschauen, was noch lesbar ist. Das hat mir damals viel Zeit gespart.

Guru
Beiträge: 3081
Registriert: 27.12.2004, 22:17

Re: "Multiples Organversagen..." RAID5 und Partitionierung futsch

Beitragvon rprengel » 03.01.2018, 07:35

~thc hat geschrieben:
Bei 2 defekten Platten ist ein Raid5 eigentlich tot. Dir werden mit ziemlicher Sicherheit Daten fehlen.

Theoretisch schon. Ich hatte mal den Fall einer solchen Bauchlandung bei einem RAID5 mit drei Platten. Das BIOS des Controllers (ICP) sah den Mist und bot mir netterweise an, das RAID-Volume Read-Only zu mounten, um nachzuschauen, was noch lesbar ist. Das hat mir damals viel Zeit gespart.


Ja,
nur ist beim kleinsten Fehler das wirklich Schicht im Schacht.
Wobei je nach Grösse der VM von einem Dartenretter vermutlich Kurse angesagt werden die einem Tränen in die Augen treiben.

Gruss

Experte
Beiträge: 1823
Registriert: 04.10.2011, 14:06

Re: "Multiples Organversagen..." RAID5 und Partitionierung futsch

Beitragvon JustMe » 03.01.2018, 08:57

...und um auf die Frage nach der vmdk zurueckzukommen:

Nein, nicht notwendigerweise. Dies ist nur bei "Thick-provisioned" Disks der Fall. Bei "Thin-provisioned" VMDK wird immer nur bei Bedarf vergroessert, und auf jeden Fall dann werden die Bloecke auf einer in Betrieb befindlichen "Platte" oder vmtl. praeziser "LUN" (die nicht nur thick-provisioned VMDK enthaelt, sondern auch z.B. Logs, Konfigs, ISOs, Dateien die immer mal wieder geloescht werden, ...) irgendwann munter im freien Bereich verteilt.
NB: Snapshot-VMDK sind IMMER Thin-provisioned, ebenso wie die allermeisten VMDK auf NFS.

Ansonsten ist bei einem RAID5 doch nicht davon auszugehen, dass Datenbloecke, die groesser als ein Stripe sind, auf einer einzelnen Platte kontinuierlich gelesen/geschrieben werden /koennten. Der "Vorteil" des RAID5 ist doch gerade, dass die Daten auf die vorhandenen physischen Platten verteilt werden:

Code: Alles auswählen

 Disk1   Disk2   Disk3   Disk4
Stripe1 Stripe2 Stripe3 Parity
Stripe4 Stripe5 Parity  Stripe6
Stripe7 Parity  Stripe8 Stripe9
...

Wenn man also physisch auf der Platte liest (d.h. unabhaengig vom Dateisystem), dann muss man dies im Hinterkopf behalten. Und wie Du selbst schon angemerkt hast, kann auch eine thick-provisioned VMDK nur solange als zusammenhaengender Block angelegt werden, wie ein entsprechend grosser freier Block bei Erstellung auch tatsaechlich vorhanden ist.

Member
Beiträge: 3
Registriert: 01.01.2018, 20:36

Re: "Multiples Organversagen..." RAID5 und Partitionierung futsch

Beitragvon CrashKid » 03.01.2018, 09:01

Also zur Klarstellung: es war ein RAID5 mit 4 Platten, 3 x RAID und 1 x Hotspare. Theoretisch müssten 2 funktionierende Platten des RAID5 übrig sein. Aber aus welchen Gründen auch immer (fehlerhaftes Rebuild?) sind auf den beiden funktionierenden Platten nur noch Reste zu sehen.

Es fehlen uns einige Hundert Datensätze, die halt von Hand nachgepflegt werden müssten. Das ist sehr ärgerlich, aber rechtfertige bestimmt keine 1000de Euros oder Dollars an Rettungskosten. Ich versuche mich so nebenher mit einem Diskeditor und versuche sinnvolle Dinge zu finden. Natürlich auf Kopien der RAID Platten. Mit viel Glück kann ich ein Archiv der letzten 14 Datensicherungen (innerhalb der VM wurden 14 Tage rückwärts gesichert) noch finden.

Normal hätte auch das Backup über das Netz funktionieren sollen, aber da gab es vor einiger Zeit eine Änderung, die wohl alle übersehen haben. Shit happens.

Gruß Matthias

Guru
Beiträge: 3081
Registriert: 27.12.2004, 22:17

Re: "Multiples Organversagen..." RAID5 und Partitionierung futsch

Beitragvon rprengel » 03.01.2018, 09:24

CrashKid hat geschrieben:Also zur Klarstellung: es war ein RAID5 mit 4 Platten, 3 x RAID und 1 x Hotspare. Theoretisch müssten 2 funktionierende Platten des RAID5 übrig sein. Aber aus welchen Gründen auch immer (fehlerhaftes Rebuild?) sind auf den beiden funktionierenden Platten nur noch Reste zu sehen.

Es fehlen uns einige Hundert Datensätze, die halt von Hand nachgepflegt werden müssten. Das ist sehr ärgerlich, aber rechtfertige bestimmt keine 1000de Euros oder Dollars an Rettungskosten. Ich versuche mich so nebenher mit einem Diskeditor und versuche sinnvolle Dinge zu finden. Natürlich auf Kopien der RAID Platten. Mit viel Glück kann ich ein Archiv der letzten 14 Datensicherungen (innerhalb der VM wurden 14 Tage rückwärts gesichert) noch finden.

Normal hätte auch das Backup über das Netz funktionieren sollen, aber da gab es vor einiger Zeit eine Änderung, die wohl alle übersehen haben. Shit happens.

Gruß Matthias


Ok
zum letzten Punkt.
Das kannst du mit einer Monitoringlösung zukünftig vermeiden.
z.B. mit check_mk oder anderen Lösungen die wie auch immer an die Infos deiner Backuplösung kommen.

Gruss

Experte
Beiträge: 1823
Registriert: 04.10.2011, 14:06

Re: "Multiples Organversagen..." RAID5 und Partitionierung futsch

Beitragvon JustMe » 03.01.2018, 09:26

Hmm, das koennte ein Fall sein, den man mit einem (faehigen) Supporter des Herstellers vielleicht wieder hinbekommen koennte...

Meiner Ansicht nach besteht das RAID5 nicht aus 4 Platten. Die HotSpare-Platte gehoert nicht "wirklich" dazu, denn die wartet ja nur darauf, dass eine der in Benutzung befindlichen Platten ausfaellt. Leider zeigt die Erfahrung, dass eine solche HotSpare-Platte, weil sie vielleicht jahrelang, und das moeglicherweise auch noch im spin-down Zustand, ohne Beachtung neben den aktiven Platten im Gehaeuse steckte, in einem solchen Falle einfach mal einen Flunsch zieht und gleich mit ausfaellt.

Selbst wenn die HotSpare eingesprungen sein sollte, muss ja auch noch der Zeitraum einkalkuliert werden, der benoetigt wird, um die "ausgefallenen" Daten unter intensivem Lesen der verbliebenen beiden RAID-Platten auf der HotSpare wiederherzustellen. Auch hier lauert bei aelteren Platten die Gefahr, dass bei solchem intensiven Lesen gleich die naechste RAID-Platte zur bereits ausgefallenen in die Grube springt.

Solange tatsaechlich zwei Platten des RAID5 vorhanden sind, auf denen sich (aktuelle) RAID-Daten befinden, sollte es ueberhaupt kein (Lese-)Problem geben, da der Controller aus diesen Daten ja die fehlenden errechnen kann.

Somit bliebe die Frage, welche Platten in welchem zeitlichen Rahmen in welcher Reihenfolge ausgefallen, eingesprungen, verwendet, ..., wurden. Besagter faehiger Supporter koennte, passenden LSI-Controller vorausgesetzt, in den internen Logs desselben darauf Hinweise zusammenklauben. Aber auch da MUSS leider nicht zwingend immer alles passen.

Korrekt ist auf jeden Fall:
Shit happens.

Experte
Beiträge: 1362
Registriert: 30.03.2009, 17:13

Re: "Multiples Organversagen..." RAID5 und Partitionierung futsch

Beitragvon UrsDerBär » 03.03.2018, 15:40

Lieder etwas spät, habs erst jetzt gesehen. Habe in der Vergangneheit schon so manche "Operation" selber gemacht. Bei defekten RAI'D's gibt es meiner Erfahrung nach nicht viele "möglichst-Viel-Retten-Varianten". Bewährt hat sich bei mir folgende:

1. Mit Controllersoftware alle RAID-Parameter auslesen sofern nicht schon gemacht (Stripe-Size usw.)
2. Alle Disc-Serials aufschreiben falls nicht schon gemacht
3. Alle Discs und zugehörigen Schacht nummerieren falls nicht bereits gemacht
4. insbesondere die erste Disc die ausgefallen ist, sollte speziell markiert werden

Dann mit der Rettung beginnen:
1. Mit einem geeigneten Tool jede Disc auf Sektorbasis kopieren. Entweder auf ein möglichst identisches Modell oder in ein Image. In der Regel klappt das auch selbst wenn manche Sektoren oder ganze Bereiche 100x ausgelesen werden müssen bis sie kopiert werden können. Habe es schon erlebt, dass nur ca. 2-3 minuten kopiert wurden, dann ging die Syncro der Köpfe verloren und die Platte musste ab- und wieder angesteckt werden. Dauerte dann fast zwei Tage bis ich ne 300GB Platte geklont hatte. Ohne Schlaf.

2. Von den kopierten Discs (sofern sie jetzt nicht als image vorliegen) ein Image ziehen.
3. Die Discs bis auf die zweite die ausgefallen war anhängen
4. den Controller zwingen das RAID mit den angegeben Parameter ohne initialisierung online zu nehmen
5. Datenrettung mit geeigneten Tools vornehmen (ich arbeitete mit Ontrack Easy Recovery / GetDataBack)
6. Server runterfahren, RAID Konfig löschen und RAID mit letzter Disc angestöpselt wieder hochfahren, RAID wiederum mit Parameter erzwingen
7. Schauen ob die nicht geretetten Files nun vielleicht sogar noch gezogen werden können (Chance tief).

--> Es gibt auch Software mit denen man den RAID-Controller bzw. das RAID-Set "emulieren" kann. Ich hab aber jeweils den Controller genommen.

Das ganze hat bei reinen NTFS-Volumes ohne Deduplikation eine sehr hohe Erfolgschance. Je besser defragmentiert ist, desto höher die Wahrscheinlichkeit etwas sinnvolles zu bekommen, weil die Rettungssoftware die Filemuster deutlich besser erkennen kann und somit weniger Fragmente übrig bleiben die interpoliert werden müssen. Insbesondere wenn die Filetables beschädigt sind. Die Professionellen Firmen machen im Endeffekt übrigens auch nichts anderes. Nur sind die vielleicht etwas schneller und haben allerlei an Material rumfliegen und teilweise auch bessere bzw. aktuellere Scan-Programme. Können sich (aufgrund der Kosten) aber oft auch nicht die gleiche Zeit nehmen. Ich habe jeweils mit Ontrack EasyRecovery sowie GetDataBack gearbeitet. War ein teurer Spass.


Mit VMFS habe ich übrigens keinerlei Erfahrung. Kann mir vorstellen, dass es tut solange die Zuoardnungstabellen nach der Klonaktion vollständig intakt sind. Da VMFS bei nicht vorgängiger Allokierung wild umherschreibt, ist das sonst fast unmöglich. Ich weiss auch nicht ob der NTFS-Part bzw. die Files als solche auf der RAW-Disc durch die Rettungssoftware erkannt wird. Musste ich glücklicherweise noch nie machen.


In aller Regel steht der Aufwand nicht unbedingt im Verhältnis zum Ertrag wenn noch irgend ein einigermassen zeitnahes Backup vorhanden ist. Die Tage vergehen wie im Flug. Aber eben, ob es das ist, kommt eh immer auf das Tagesgeschäft an.

Meine Erfahrung zeigt auch: Für die wichtigsten Daten lieber zwei völlig unabhängige Backupziele und Backupmethoden verwenden, damits auch im schlechtesten Fall noch gut geht.
--> Mir ist mal ein RAID 6 welches die Backups enthielt während der Rückspielung abgeraucht. Zwei Festplatten innerhalb 4h offline. Das war der zweitgrösste "Spass" den ich schon retten "durfte". Glücklicherweise war dank reinem Read-Zugriff während des Ausfalls jeder Block 1:1 rettbar. Dauerte aber auch ewig bis alle Discs geklont waren weil es lahme SATA-Discs waren.


Zurück zu „Datenrettung“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast