Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!

datastore1 nach Reboot weg

Tips und Hinweise zur Datenrettung bei defekten VMs oder unlesbaren Datastores

Moderatoren: irix, Dayworker

Member
Beiträge: 4
Registriert: 26.01.2016, 09:35

datastore1 nach Reboot weg

Beitragvon Roi » 01.02.2016, 18:13

Hallo zusammen,

habe auf einem ESXi Server ein komisches Problem.

Der datastore1, der auf dem gleichen Medium (Hardware RAID1) liegt wie die Systempartition von ESXi, ist nach einem Reboot ab und zu weg. Über den vSphere Client dann allerdings problemlos wieder importierbar, die VMs laufen dann auch alle, als wäre nichts geschehen. Diese Verhalten trat das erste Mal nach dem Upgrade von 4.x auf 5.1 und dann 5.5 auf.

Erschwerend kommt dazu, dass nun seit einigen Wochen der Server ab und zu einfriert und mittels Resetknopf neu gestartet werden muss. Der datastore1 fehlt dann immer.

Das erste Problem hätte ich nun erstmal als Softwareproblem identifiziert bzw dieses vermutet, beim zweiten Problem wäre ich eher in Richtung Hardware unterwegs.

Aus den Logs ist mir nun nichts direkt ins Auge gestochen außer dem hier:

Code: Alles auswählen

2016-01-12T17:59:11.236Z cpu3:34086)Vol3: 661: Unable to register file system datastore1 for APD timeout notifications: Already exists


Weiß aber auch nicht so recht, nach was ich suchen soll.

Die Suche im Internet verlief auch nicht gerade erquicklich, daher erhoffe ich mir hier, in die richtige Richtung gestupst zu werden. ;-)

Vielen Dank und viele Grüße
Roi

King of the Hill
Beiträge: 12942
Registriert: 02.08.2008, 15:06
Wohnort: Hannover/Wuerzburg
Kontaktdaten:

Beitragvon irix » 01.02.2016, 18:27

APD steht fuer All Path Down und wenn eine LUN erstmal als solche gekennzeichnit so kommt sie automatisch auch nicht wieder. Allerdings ist die Behandlung von APD auch von jeder Version zu Version etwas anders.

Ich wuerde aber Richtung Hardware gucken... steht der Server und vor allen Dingen der Controller auf der HCL? Wenn ja was fuer Plattentypen stecken da drin bzw. was sag das Log des Controllers.
Ich hatte hier einen Kunden welcher meinte das Desktop Platten vom Grossdistributor eine Tolle Idee waeren und hat dann 6 Monate benoetigt um heraus zubekommen warum es so komisch laeuft. Die Platten sind per Stromspar Modi immer aus gegangen ohne siche am Kontroller richtig abzumelden.

Gruss
Joerg

Member
Beiträge: 4
Registriert: 26.01.2016, 09:35

Beitragvon Roi » 01.02.2016, 18:39

Hallo Jörg,

vielen Dank für Deine Antwort. Ich liste hier mal grob die Hardware auf:

Intel Xeon Quad-Core E5506, X8DTN+ EATX (Intel 5520), Adaptec 6405 SAS RAID 5405 Controller, 2mal Seagate 146 GB SAS 15.000 U/min

Nein, die Kiste ist nicht mehr die neueste, aber damals immerhin mit einer sogenannten ESXi Zertifizierung vom Händler gekauft. Der ursprüngliche Controller (Adaptec 5405 SAS RAID) wurde aufgrund eines Defektes durch o.g. Controller ersetzt. Dieser erscheint mir nicht optimal zu sein, weil ich beim Upgrade erstmal ESXi Medien mit dem passenden Treiber erzeugen musste, was ziemlich zeitaufwändig und nervig war. Ansonsten scheint es mir allerdings ein auch für ESXi eher gebrächlicher Controller zu sein, nach dem, was ich damals im Netz dazu recherchiert habe.

Zusätzlich kam vor dem Defekt des Controllers noch 2mal 600 GB SAS dazu. Bei allen Platten handelt es sich um Enterpriseplatten. Im Controller haben wir weder beim alten noch beim neuen Controller irgendwas verändert - außer der Konfiguration des RAIDs. Der datastore2 (die beiden 600 GB SAS) haut übrigens nicht ab.

Controller Log habe ich nicht geprüft. Um ehrlich zu sein - da muss ich erstmal gucken, ob der Contoller hier etwas liefert. ;-) Ansonsten auch schwer. Wenn die Kiste abkachelt, guckt der Kunde natürlich, dass sie schnell wieder an den Start kommt.

Viele Grüße
Roi

Member
Beiträge: 4
Registriert: 26.01.2016, 09:35

Beitragvon Roi » 01.02.2016, 18:44

PS:

irix hat geschrieben:APD steht fuer All Path Down und wenn eine LUN erstmal als solche gekennzeichnit so kommt sie automatisch auch nicht wieder. Allerdings ist die Behandlung von APD auch von jeder Version zu Version etwas anders.


Wie kann denn die Hardware down sein, wenn das System auf dem gleichen Medium liegt. Wie gesagt, ESXi liegt auf den 2mal 146 GB SAS, der datastore1 nimmt den Rest ein. Wenn also das Medium abkachelt, dann sollte auch im Log nix mehr stehen können - weil das System keinen Zugriff mehr drauf hat und einfriert/abstürzt. So würde ich das zumindest vermuten und auch erwarten. Vielleicht lieg ich ja auch komplett daneben. ;-)

Viele Grüße
Roi

Experte
Beiträge: 1337
Registriert: 25.04.2009, 11:17
Wohnort: Thüringen

Beitragvon Supi » 01.02.2016, 18:53

Welche Treiber-Version hast du denn für den Adaptec installiert?

https://www.thomas-krenn.com/de/wiki/ES ... Controller

Ob dieses "MSI Interrupts setzen" was bringt, kann ich nicht beurteilen.

Welchen Stand hat der ESXI?

King of the Hill
Beiträge: 12942
Registriert: 02.08.2008, 15:06
Wohnort: Hannover/Wuerzburg
Kontaktdaten:

Beitragvon irix » 01.02.2016, 19:16

Roi hat geschrieben:Wie kann denn die Hardware down sein, wenn das System auf dem gleichen Medium liegt.



Weil der ESXi sich mit dem Start in eine RAM Disk laedt und dann kann man ihm im lfd. Betrieb das Storage wegziehen und man muss sich Muehe geben zu erkennen das ihm etwas fehlt. Auf jeden Fall laeuft und funktioniert er erstmal weiter und Einzig Konfigaenderungen und Logging fallen ihm schwer. Letzteres kann mit mit einer Verlagerung der Scratch Disk oder auch Syslog noch entschaerfen.

Ist der "datastore1" nicht der Rest von der 146er Platte oder liegt dieser DS auf anderen Platten?

APD und PDL sich auch eher Feature fuer Datastores und weniger die FAT16 Partitionen auf denen der ESXi liegt.

Ja ich meine sowohl das Log des Controllers als auch das vmkernel.log des ESXi.

Gruss
Joerg

Member
Beiträge: 4
Registriert: 26.01.2016, 09:35

Beitragvon Roi » 01.02.2016, 19:28

Welche Version des Treibers müsste ich recherchieren. Habe dieses Image verwendet, nachdem ich lange Zeit rumgesucht und probiert habe: https://level7systems.co.uk/en/esxi-5-5-adaptec-6405e-raid-controller/
Hier steht nun halt nicht wirklich etwas dabei.

Der Link von thomas-krenn.de klingt spannend, das könnte man tatsächlich mal ausprobieren. :-) Vielen Dank!

Nein, der datastore liegt tatsächlich auf dem Rest der 146 GB.

Die Logs habe ich erst gezogen als die Kiste resettet war. Also irgendwie gab es da noch eine Zugriffsmöglichkeit für das System. Oder die gefundenen Einträge habe nicht direkt mit dem Absturz oder dem Verlust bzw Fehlerhafter Wiederverbindung des datastore1 zu tun.


Zurück zu „Datenrettung“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 13 Gäste