Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!

ON-DISK ERROR auf externem Datastore (Raid System)

Moderatoren: Dayworker, irix

Member
Beiträge: 3
Registriert: 02.08.2013, 12:31

ON-DISK ERROR auf externem Datastore (Raid System)

Beitragvon Morpheus_TS » 02.08.2013, 12:54

Hi zusammen,

wir haben auf einem unserer ESXi 5.1.0 (799733) Server folgende Fehler auf dem externen Datastore gefunden und wollten jetzt wissen ob das schon jemand hatte bzw. ob das betriebskritisch ist.

    - Was sind das für Fehler ?
    - Wo kommen sie her?
    - Wie bekommt man sie wieder weg?


Geprüft habe ich den Datastore mit folgendem Befehl:

Code: Alles auswählen

voma -m vmfs -f check -d /vmfs/devices/disks/naa.60004d980660d9c30000000000000000:1


Ausgabe des Befehls:

Code: Alles auswählen

Checking if device is actively used by other hosts
Running VMFS Checker version 0.9 in check mode
Initializing LVM metadata, Basic Checks will be done
Phase 1: Checking VMFS header and resource files
   Detected file system (labeled:'Int-Raid_Datastore_ESXiKW02') with UUID
:4ceba77c-a3c8efd0-9104-001517f4a38d, Version 3:46
Phase 2: Checking VMFS heartbeat region
Phase 3: Checking all file descriptors.
   Found stale lock [type 10c00001 offset 41717760 v 975, hb offset 3678208
         gen 59, mode 1, owner 51a3d3d1-1888ae64-b971-001517f7d149 mtime 983
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41721856 v 979, hb offset 3678208
         gen 59, mode 1, owner 51a3d3d1-1888ae64-b971-001517f7d149 mtime 1129
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41725952 v 985, hb offset 3678208
         gen 59, mode 1, owner 51a3d3d1-1888ae64-b971-001517f7d149 mtime 1342
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41730048 v 988, hb offset 3678208
         gen 59, mode 1, owner 51a3d3d1-1888ae64-b971-001517f7d149 mtime 1470
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41734144 v 992, hb offset 3678208
         gen 59, mode 1, owner 51a3d3d1-1888ae64-b971-001517f7d149 mtime 1613
         num 0 gblnum 0 gblgen 0 gblbrk 0]
 ON-DISK ERROR: <FD c68 r42> : Invalid linkCount  0
   Found stale lock [type 10c00001 offset 41738240 v 996, hb offset 3678208
         gen 59, mode 1, owner 51a3d3d1-1888ae64-b971-001517f7d149 mtime 1766
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41760768 v 409, hb offset 3678208
         gen 35, mode 1, owner 5151388e-49d66140-166f-001517f7d149 mtime 3274
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41768960 v 1043, hb offset 3678208
         gen 77, mode 1, owner 51baa0c8-40b62d60-f916-001517f7d149 mtime 939
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41779200 v 1046, hb offset 3678208
         gen 77, mode 1, owner 51baa0c8-40b62d60-f916-001517f7d149 mtime 1054
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41789440 v 1054, hb offset 3678208
         gen 77, mode 1, owner 51baa0c8-40b62d60-f916-001517f7d149 mtime 1350
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41803776 v 447, hb offset 3678208
         gen 41, mode 1, owner 516bc8c3-88251dec-525f-001517f7d149 mtime 2690
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41805824 v 1058, hb offset 3678208
         gen 77, mode 1, owner 51baa0c8-40b62d60-f916-001517f7d149 mtime 1563
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41809920 v 452, hb offset 3678208
         gen 41, mode 1, owner 516bc8c3-88251dec-525f-001517f7d149 mtime 3018
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41811968 v 1061, hb offset 3678208
         gen 77, mode 1, owner 51baa0c8-40b62d60-f916-001517f7d149 mtime 1675
         num 0 gblnum 0 gblgen 0 gblbrk 0]
 ON-DISK ERROR: <FD c68 r82> : Invalid linkCount  0
   Found stale lock [type 10c00001 offset 41820160 v 457, hb offset 3678208
         gen 41, mode 1, owner 516bc8c3-88251dec-525f-001517f7d149 mtime 3231
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41836544 v 470, hb offset 3678208
         gen 41, mode 1, owner 516bc8c3-88251dec-525f-001517f7d149 mtime 3793
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41842688 v 1086, hb offset 3678208
         gen 77, mode 1, owner 51baa0c8-40b62d60-f916-001517f7d149 mtime 4528
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41852928 v 473, hb offset 3678208
         gen 41, mode 1, owner 516bc8c3-88251dec-525f-001517f7d149 mtime 3920
         num 0 gblnum 0 gblgen 0 gblbrk 0]
 ON-DISK ERROR: <FD c68 r100> : Invalid linkCount  0
   Found stale lock [type 10c00001 offset 41873408 v 1118, hb offset 3678208
         gen 95, mode 1, owner 51cabe35-5cccf0cc-c77a-001517f7d149 mtime 744
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41879552 v 1124, hb offset 3678208
         gen 95, mode 1, owner 51cabe35-5cccf0cc-c77a-001517f7d149 mtime 979
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41883648 v 1126, hb offset 3678208
         gen 95, mode 1, owner 51cabe35-5cccf0cc-c77a-001517f7d149 mtime 1083
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41887744 v 1133, hb offset 3678208
         gen 95, mode 1, owner 51cabe35-5cccf0cc-c77a-001517f7d149 mtime 1302
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41895936 v 1136, hb offset 3678208
         gen 95, mode 1, owner 51cabe35-5cccf0cc-c77a-001517f7d149 mtime 1424
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41904128 v 1140, hb offset 3678208
         gen 95, mode 1, owner 51cabe35-5cccf0cc-c77a-001517f7d149 mtime 1605
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41908224 v 1146, hb offset 3678208
         gen 117, mode 1, owner 51d3ac37-dc54ed90-31e8-001517f7d149 mtime 765
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41916416 v 1151, hb offset 3678208
         gen 117, mode 1, owner 51d3ac37-dc54ed90-31e8-001517f7d149 mtime 951
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41922560 v 1154, hb offset 3678208
         gen 117, mode 1, owner 51d3ac37-dc54ed90-31e8-001517f7d149 mtime 1067
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41926656 v 1157, hb offset 3678208
         gen 117, mode 1, owner 51d3ac37-dc54ed90-31e8-001517f7d149 mtime 1183
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41930752 v 1161, hb offset 3678208
         gen 117, mode 1, owner 51d3ac37-dc54ed90-31e8-001517f7d149 mtime 1321
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41938944 v 1166, hb offset 3678208
         gen 117, mode 1, owner 51d3ac37-dc54ed90-31e8-001517f7d149 mtime 1567
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 41992192 v 647, hb offset 3678208
         gen 41, mode 1, owner 516bc8c3-88251dec-525f-001517f7d149 mtime 52289
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 42043392 v 384, hb offset 3678208
         gen 35, mode 1, owner 5151388e-49d66140-166f-001517f7d149 mtime 2115
         num 0 gblnum 0 gblgen 0 gblbrk 0]
   Found stale lock [type 10c00001 offset 42047488 v 389, hb offset 3678208
         gen 35, mode 1, owner 5151388e-49d66140-166f-001517f7d149 mtime 2333
         num 0 gblnum 0 gblgen 0 gblbrk 0]
Phase 4: Checking pathname and connectivity.
Phase 5: Checking resource reference counts.

Total Errors Found:           3


Vorab schon einmal danke für die Hilfe!

Viele Grüße

Morpheus_TS

King of the Hill
Beiträge: 13657
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Beitragvon Dayworker » 02.08.2013, 17:23

Du schreibst "externer Datastore" und läßt dann den ESXi das darüberliegende Dateisystem prüfen. Wäre es nicht sinnvoller, erstmal das Raid-Volume selbst zu testen?
Falls nämlich eine Platte/SSD eures "externen Datastores" das zeitliche gesegnet oder einen Badblock notiert hat, hilft dir eine Dateisystem-Reparatur in meinen Augen nicht weiter. Durch die erhöhte Last beim Prüfen oder Rebuilden des vorhandenen Raidlevels könnten sogar noch weitere Defekte auftreten und im Falle eines Raid5 wäre ein erneuter Fehler beim Rebuild ein Totalausfall...
Ich würde daher schnellstens noch ein Backup fahren, wenn es denn überhaupt noch möglich oder sinnvoll ist und mich erst dann an die Problemlösung machen.

Member
Beiträge: 3
Registriert: 02.08.2013, 12:31

Beitragvon Morpheus_TS » 05.08.2013, 15:54

Wie soll ich das Volume des Raids testen?

Was wir gemacht haben ist alle Platten auszutauschen bei denen der Riad Controller Fehler erkannt hat. Deshalb haben wir jetzt an dieser Stelle weiter gesucht und deshalb auch meine Fragen.

    - Was sind das für Fehler ?
    - Wo kommen sie her?
    - Wie bekommt man sie wieder weg?

King of the Hill
Beiträge: 13657
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Beitragvon Dayworker » 05.08.2013, 18:53

Das ihr alle Platten ausgetauscht habt, konnten wir nicht ahnen. Damit bist du erst jetzt rausgerückt...
In meinen Augen sind das durch fehlerhafte Platten verursachte Defekte im VMFS. Entweder kannst du die mit dem VMware-Tool auch beheben oder dir bleibt nichts anderes übrig, als alles runter zu sichern und den DS neu aufzusetzen.

Das Raidvolume kannst du eigentlich im Controller-Bios oder unter Windows/Linux testen. Unter ESXi ist es davon abhängig, welche Möglichkeiten der Controllerhersteller remote umgesetzt hat oder hast du vom Serverhersteller vielleicht eine CD dafür bekommen?
Wenn ale Stricke reissen, kannst du auch den Weg gehen, dir vom Plattenhersteller ein entsprechendes Tools zu laden und die Platten einzeln zu testen.

Benutzeravatar
UNSTERBLICH(R.I.P.)
Beiträge: 14759
Registriert: 09.08.2003, 05:41
Wohnort: sauerland
Kontaktdaten:

Beitragvon continuum » 06.08.2013, 17:05

voma-Resultate sind mit Vorsicht zu geniessen - ein Grossteil der Meldungen sind Fehlalarme.

Wenn du den Verdacht hast, dass ein Volume teilweise defekt ist - grep alle vmware.logs nach "AIOMgr"
Wenn es Probleme bei bestehenden VMs gibt erkennt man die damit in der Regel.
Ansonsten clone alle vmdks einmal mit vmkfstools - wenn das geht sind sie ok

Member
Beiträge: 3
Registriert: 02.08.2013, 12:31

[Solved] ON-DISK ERROR auf externem Datastore (Raid System)

Beitragvon Morpheus_TS » 09.08.2013, 15:50

Hi zusammen,

erst einmal danke für Eure Hilfe!

Dayworker hat geschrieben:In meinen Augen sind das durch fehlerhafte Platten verursachte Defekte im VMFS. Entweder kannst du die mit dem VMware-Tool auch beheben oder dir bleibt nichts anderes übrig, als alles runter zu sichern und den DS neu aufzusetzen.


Nein, voma kann keine Fehler beheben von daher haben wir damit keine Chance.

continuum hat geschrieben:Wenn du den Verdacht hast, dass ein Volume teilweise defekt ist - grep alle vmware.logs nach "AIOMgr"
Wenn es Probleme bei bestehenden VMs gibt erkennt man die damit in der Regel.
Ansonsten clone alle vmdks einmal mit vmkfstools - wenn das geht sind sie ok


Hmmm, das könnten wir noch testen.

Werde das ganze mal mit den Kollegen und dem Chef durchsprechen und dann müssen wir sehen wie wir hier weiter machen.

Danke!!!

Gruß

Morpheus_TS


Zurück zu „vSphere 5 / ESXi 5 und 5.1“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 7 Gäste