Das Forum wurde aktualisiert. Wurde höchste Zeit. Wenn etwas nicht funktioniert, bitte gerne hier jederzeit melden.
(Das "alte Design" kommt wieder, wird ne Weile brauchen!)

VMFS-datastore Schnellanalyse - besteht hier ein Bedarf ?

Tips und Hinweise zur Datenrettung bei defekten VMs oder unlesbaren Datastores

Moderatoren: irix, continuum, Dayworker, Tschoergez

Benutzeravatar
Moderator
Beiträge: 14663
Registriert: 09.08.2003, 05:41
Wohnort: sauerland
Kontaktdaten:

VMFS-datastore Schnellanalyse - besteht hier ein Bedarf ?

Beitragvon continuum » 10.11.2015, 17:25

Bei einem Ausfall einer wichtigen VMFS-LUN ist Zeit oft ein kritischer Faktor: irgendwann muss entschieden werden ob Plan A, B oder Plan C verfolgt werden soll.
Plan A: warten auf VMware-support oder andere Dienstleister, die dann die LUN retten
Plan B: LUN abschreiben und Backups wieder herstellen
Plan C: Anruf bei Ontrack

Jede Stunde die hier ins Land geht bedeutet evtl. einen Produktionsausfall.
Besonders ärgerlich ist das bei Problemen am Freitag-nachmittag - wenn zB. klar wird , das vor Montag-mittag keine Hilfe vom VMware-support zu erwarten ist.

Ein normaler VMware-admin ist vielfach nicht in der Lage, einzuschätzen ob eine LUN zu retten ist oder ob gerade ein Totalverlust eingetreten ist.

Auch der VMware-support ist in solchen Fällen selten hilfreich - in den meisten Fä#llen wird versucht schnell einen Grund zu finden, den Fall als "nicht supportet" erst gar nicht anzunehmen, oder die Sache wird als "Recovery" eingestuft und man wird an Ontrack und Co verwiesen.

Wirklich hilfreichen , guten Support bei VMFS-Korruptionsfällen gibt es fast nur für Grosskunden - oder bei Fällen, bei denen der Verdacht auf einen Bug vorliegt und der Support hier auf weitere Daten von Kunden scharf ist.

Aus vielen Gesprächen mit meinen Kunden , Forumsdiskussionen usw. ergibt sich für mich die Einschätzung dass ein gewisser Bedarf an einer schnellen, unabhängigen Analyse solcher VMFS-Korruptionsfälle besteht.
Dadurch könnte in vielen Fällen vermieden werden , dass:
1. unnötige Zeit für Recoveryversuche bei einer LUN, die nicht zu retten ist, verplempert wird
2. eine Lun als Totalausfall abgeschrieben wird, die mit einfachen Mitteln kuzfristig zu retten gewesen wäre

In diesem Zusammenhang hätte ich germe mal eure Einschätzung gehört.

Besteht Interesse an einer Dienstleistung die etwa wie folgt aussehen würde:

Im Fall eines korrupten VMFS-volumes erstellt der Betroffene einen Dump der VMFS-Metadaten mit einem einfachen Befehl:

dd if=/dev/disks/naa* of=/tmp/kundenname-lunname.1536 bs=1M count=1536

Diese 1536MB Datei wird anschliessend gepackt - das ergibt ein Archiv zwischen 40MB und 800MB.
Dieses Archiv wird vom Betroffenen irgendwo als schneller Download bereitgestellt.
Anschliessend meldet er sich bei mir und gibt mir einen Downloadlink.
Eine Stunde nachdem ich den Dump heruntergeladen habe gibt es eine Analyse die folgende Punkte enthält:

- Liste aller VMs die auf dem Datastore Spuren hinterlassen haben
- ein Ordner mit den vmx-Dateien
- ein Ordner mit dem vmdk-Beschreibungsdateien
- ein Ordner mit vmware.logs
- ein Ordner mit sonstigen Configdateien wie vmsd, vmxf usw....
- Warnung falls sich ein Sabotage-verdacht ergibt
- ein Vorschlag zur weiteren Behandlung des Falles

Dieser Vorschlag kann dabei extrem variieren:
- im Idealfall gibt es Anweisungen mit denen der User sich selbst helfen kann
- VMs A,B,C,D können per vmfs-fuse ausgelesen werden - VMs E,F,G,H sind verloren
- das Recoverytool XY ist in der Lage die Daten zu retten
- solche Fälle kann niemand ausser Ontrack
- alles verloren
- VMs A,B,C sollten per raw-recovery zui retten sein
- lies das VMFS einfach mit einer ESXi-LiveCD aus
usw

Mittlerweile habe ich mit der Einschätzung dieser Optionen soviel Routine und Sicherheit dass ich den Kunden oft bitte, die Aussagen des evtl, ebenfalls am Fal arbeitendem VMware-supports zu ignorieren.
Ich verschätze mich gelegentlich bei der Einschätzung des Aufwands, falls Rohdaten extrahiert werden müssen - aber die Auswahl des geeigneten Verfahren nach der Erstanalyse bestätigt sich in der Regel in der Nachbetrachtung des Falles.

Ich nutze für diese Analyse des Dumps eigene scripte die mir den Fall soweit aufbereiten, dass zur Einschätzung des geeigneten Verfahrens nur noch ca. eine halbe Stunde Sichtkontrolle nötig ist.

Kurz zusammengefasst:
Die Dienstleistung VMFS-schnellanalyse könnte dem VMware-admin in vergleichsweise sehr kurzer Zeit die Entscheidung, wie mit einem gerade eingetretenem Desaster umzugehen ist, erleichtern.


Ich bitte euch hier einmal um Kommentare zu folgenden Fragen:

- besteht grundsätzlich Interesse an so etwas ?
- haltet ihr das beschriebene Verfahren für sinnvoll ?
- haltet ihr mich für kompetent genug um zB auf Grund meiner Empfehlung eine Entscheidung zu treffen ?
-was wäre euch so eine Analyse im Schadensfall wert ?


Schon mal vielen Dank für eure Kommentare !

Für kurze Zeit biete ich euch an die Analyse umsonst zu testen:
schickt mir Dumps - und bewertet die Resultate.
Besonders interessant wären Fälle von bereits erledigten Desastern - hier könntet ihr dann meine Empfehlung mit dem Verfahren vergleichen welches konkret bei euch durchgeführt wurde.

Member
Beiträge: 87
Registriert: 23.05.2013, 22:14

Beitragvon vl13 » 10.11.2015, 20:42

Hi continuum,

habe so etwas zum glueck noch nicht selber erlebt, aber ein ehem. Kollege den ich dann am Tel. hatte um Daten wieder zusammen zu kratzen.

- besteht grundsätzlich Interesse an so etwas ?

Aus meiner Sicht ja, zumindest wenn es sich um eine Lun handelt die wichtige Aenderungen beinhaltet die noch nicht im backup sind.
- haltet ihr das beschriebene Verfahren für sinnvoll ?

Ja, allerdings wuerde ich zum dump noch eine checksum generieren lassen (dauert nicht lange, bietet aber die Sicherheit das die Uebertragung auch wirklich OK war, no ECC memory laesst gruessen)
- haltet ihr mich für kompetent genug um zB auf Grund meiner Empfehlung eine Entscheidung zu treffen ?

Ja
- was wäre euch so eine Analyse im Schadensfall wert ?

Kommt wohl auf den Einzelfall an z.B.
- wie lange ist die Fa. beeintraechtigt
- Wochentag, Uhrzeit usw.
- Wenn es es dumm lauft 800MB durch eine 1M Leitung ziehen (ist auch deine Zeit)
- Kunden am Tel. assistieren

Denke hier halt in Tages Sätzen zw. 800 - 1500, wobei ich den Aufwand inkl. (seelischer) Betreuung und weiterer Hilfen sicherlich auf 1/2 Tag schaetze.
Mangels Erfahrungswerten kann ich keine bessere Aussage machen.

Benutzeravatar
Member
Beiträge: 448
Registriert: 03.08.2010, 11:13
Wohnort: Sauerland

Beitragvon stahly » 11.11.2015, 14:11

Hi!

Der Service einer Schnellanalyse ist eine gute Sache (die man hoffentlich nicht braucht :-))

Wir hatten bisher nur einmal so einen Fall:
Nach einem All-Path-Down waren einige Heart-Beat-Bereiche einiger LUNs defekt.

Alle LUNs wurden von Vmware geprüft. Falls defekt, exportiert, gepackt und nach Vmware geschickt. Dort repariert und anschl. wieder bei uns importiert.

Ich hoffe, so ein Fall haben wir nie wieder :-) Wobei ich sagen muss, dass der Vmware-Support sehr schnell und sehr gut gearbeitet hat.

In so einem Fall wäre es aber immer gut, einen weiteren Storagespezialisten an der Hand zu haben. Und wenn der dann auch noch aus dem Sauerland kommt :-)

FAZIT: Grundsätzlich Interesse! :!:


Zurück zu „Datenrettung“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast