Ausfall SAN-Speicher bewirkt VM-Freeze

nightflight · Beitragvon **nightflight** » 04.07.2012, 18:31

Hallo,

vielleicht kann von euch jemand folgendes Verhalten erklären:

Wir haben als SAN-Speicher eine EVA4400.
Die VMDK's der VMs liegen alle in Datastores auf vDisk's mit Raid5.
Lediglich der ISO-Datastore ist Raid0.
Einige VMs hatten ISO's aus diesem Datastore als CD-Rom gemountet.

Vor kurzem ist uns eine Platte der EVA gestorben - ganz klar, das Raid0 war futsch.
Eine der VMs (event. wurde gerade auf das CD-Rom zugegriffen) ist dadurch einfach eingefroren - Einschalten,ausschalten, Reset - alle Knöpfe ausgegraut.
Per ssh ließ sich die VM mit vmware-cmd stop nicht finden - beim Auflisten des Verzeichnisses /vmfs/volumes ist die ganze shell eingefroren...
Hilft nur der Neustart des ESX - vorher die restlichen (hoch produktiven) VMs rüber auf einen anderen Host - aber:
Ein Storage-vMotion der restlichen VMs ist irgentwo bei 75% eingeschlafen und dann nach 2 Stunden (und 4 Liter Schweiß) doch durchgelaufen.

meine Frage jetzt: wieso friert bei Nicherreichbarkeit des SAN-Speichers für eine gemoutete CD die komplette VM dermaßen ein (und zieht scheinbar den ganzen ESX in Mitleidenschaft)?
Immerhin können ISO's im laufenden Betrieb einfach unmounted werden.
Wenn die VM wenigstens einfach abgestürzt wäre - dann wäre das ganze ein Mausklick gewesen, aber so...

mbreidenbach · Beitragvon **mbreidenbach** » 04.07.2012, 19:03

Das Phänomen nennt sich 'All Paths Down' - wenn alle SAN Pfade zu einer LUN weg sind dann reagiert ESX 4 ziemlich bescheuert. Das kann man auch produzieren indem man z.B. im SAN eine LUN löscht von der man meint der ESX bräuchte die nicht mehr.

Für das gezielte wegnehmen einer LUN gibt es Lösungen (siehe VMware KB). Für den Fehlerfall kenne ich noch keine.

nightflight · Beitragvon **nightflight** » 04.07.2012, 19:17

Na supi ...
Da kann man das ganzen Hochverfügbarkeitsgeraffel wie HA,FT, 2.Eva mit ContiniousAccess usw. implementieren und wenn eine LUN mit CDRom-Iso's wegfliegt geht fast der ESX krachen - is ja hammer-hart...

HA und FT greifen ja auch nicht, wenn sich einzelne VMs "nur" festfahren ...

Naja, mal schauen wie wir das dem Kunden verkaufen

bla!zilla · Beitragvon **bla!zilla** » 04.07.2012, 19:29

Naja, mal schauen wie wir das dem Kunden verkaufen

Als Designfehler. APD Events sind bei VMware schon länger bekannt.

e-e-e · Beitragvon **e-e-e** » 04.07.2012, 19:50

nightflight hat geschrieben:
Naja, mal schauen wie wir das dem Kunden verkaufen

Nicht DAS verkaufen, sondern einen zweiten Controller und noch ein paar HDDs zum Bau eines RAID1 oder höher. Du gehst das Problem von der falschen Perspektive an.

nightflight · Beitragvon **nightflight** » 04.07.2012, 20:08

Klar - die vDisks die die vmdk's der virtuellen Server beinhalten als Raid0 zu konfigurieren wäre ein Designfehler aber ISO-Stores ...

Naja, inzwischen ist alles Raid5, die EVA levelt nach dem Einbau der Ersatzplatte seit 5 Stunden so vor sich hin und alle hoffen, das inzwischen keine 2.Platte aussteigt.

Wäre halt logisch und wünschenswert gewesen, wenn der ESX mit dem Wegfall der ISO-Lun etwas weniger empfindlich umgegangen wäre (CD-Rom im virt. Server einfach weg oder zumindest Server aus)

Danke für eure Anregungen

mbreidenbach · Beitragvon **mbreidenbach** » 04.07.2012, 20:16

Och... ich hab den APD induzierten Tobsuchtsanfall halt schon hinter mir

bla!zilla · Beitragvon **bla!zilla** » 04.07.2012, 21:54

e-e-e hat geschrieben:Nicht DAS verkaufen, sondern einen zweiten Controller und noch ein paar HDDs zum Bau eines RAID1 oder höher. Du gehst das Problem von der falschen Perspektive an.

Na ja, HP EVA und Continous Access klingen jetzt nicht das DAS... Fakt ist: Mit einem Netapp Filer, einer EMC CLARiiON oder $STORAGE wäre das auch passiert.

e-e-e · Beitragvon **e-e-e** » 05.07.2012, 09:24

bla!zilla hat geschrieben:
e-e-e hat geschrieben:Nicht DAS verkaufen, sondern einen zweiten Controller und noch ein paar HDDs zum Bau eines RAID1 oder höher. Du gehst das Problem von der falschen Perspektive an.

Na ja, HP EVA und Continous Access klingen jetzt nicht das DAS... Fakt ist: Mit einem Netapp Filer, einer EMC CLARiiON oder $STORAGE wäre das auch passiert.

Aber Fakt ist auch, dass mit dem richtigen RAID-Level die Situation wohl anders geendet wäre.

bla!zilla · Beitragvon **bla!zilla** » 05.07.2012, 12:33

Jaha, da ist was dran.

Martin · Beitragvon **Martin** » 05.07.2012, 12:50

um weiter spitzfindig etwas ins off-topic zu gehen:
Auf einem Netapp Filer hätte ich die ISOs im NFS liegen, da hätte es dieses Problem auch nicht gegeben :twisted:

nightflight · Beitragvon **nightflight** » 05.07.2012, 17:26

Hallo,

wie gesagt, der Raid0-Datastore wurde entfernt.
Allerdings macht mir der Prozess des Releveling jetzt Kopfzerbrechen.
Ich habe meine Bedenken dazu hier im Forum unter Hardware\Diskgroups auf EVA4400
beschrieben.
Könnt ihr dazu vielleicht auch eine Aussage treffen?

Danke im Vorab

VMware-Forum

Ausfall SAN-Speicher bewirkt VM-Freeze

Ausfall SAN-Speicher bewirkt VM-Freeze

Wer ist online?