Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!

Ausfall SAN-Speicher bewirkt VM-Freeze

Hilfe bei Problemen mit Installation & Benutzung des VMware ESX Server 4/VMware vSphere 4.0.

Moderatoren: irix, Dayworker

Member
Beiträge: 22
Registriert: 01.02.2011, 15:45

Ausfall SAN-Speicher bewirkt VM-Freeze

Beitragvon nightflight » 04.07.2012, 18:31

Hallo,

vielleicht kann von euch jemand folgendes Verhalten erklären:

Wir haben als SAN-Speicher eine EVA4400.
Die VMDK's der VMs liegen alle in Datastores auf vDisk's mit Raid5.
Lediglich der ISO-Datastore ist Raid0.
Einige VMs hatten ISO's aus diesem Datastore als CD-Rom gemountet.

Vor kurzem ist uns eine Platte der EVA gestorben - ganz klar, das Raid0 war futsch.
Eine der VMs (event. wurde gerade auf das CD-Rom zugegriffen) ist dadurch einfach eingefroren - Einschalten,ausschalten, Reset - alle Knöpfe ausgegraut.
Per ssh ließ sich die VM mit vmware-cmd stop nicht finden - beim Auflisten des Verzeichnisses /vmfs/volumes ist die ganze shell eingefroren...
Hilft nur der Neustart des ESX - vorher die restlichen (hoch produktiven) VMs rüber auf einen anderen Host - aber:
Ein Storage-vMotion der restlichen VMs ist irgentwo bei 75% eingeschlafen und dann nach 2 Stunden (und 4 Liter Schweiß) doch durchgelaufen.

meine Frage jetzt: wieso friert bei Nicherreichbarkeit des SAN-Speichers für eine gemoutete CD die komplette VM dermaßen ein (und zieht scheinbar den ganzen ESX in Mitleidenschaft)?
Immerhin können ISO's im laufenden Betrieb einfach unmounted werden.
Wenn die VM wenigstens einfach abgestürzt wäre - dann wäre das ganze ein Mausklick gewesen, aber so...

Experte
Beiträge: 1006
Registriert: 30.10.2004, 12:41

Beitragvon mbreidenbach » 04.07.2012, 19:03

Das Phänomen nennt sich 'All Paths Down' - wenn alle SAN Pfade zu einer LUN weg sind dann reagiert ESX 4 ziemlich bescheuert. Das kann man auch produzieren indem man z.B. im SAN eine LUN löscht von der man meint der ESX bräuchte die nicht mehr.

Für das gezielte wegnehmen einer LUN gibt es Lösungen (siehe VMware KB). Für den Fehlerfall kenne ich noch keine.

Member
Beiträge: 22
Registriert: 01.02.2011, 15:45

Beitragvon nightflight » 04.07.2012, 19:17

Na supi ...
Da kann man das ganzen Hochverfügbarkeitsgeraffel wie HA,FT, 2.Eva mit ContiniousAccess usw. implementieren und wenn eine LUN mit CDRom-Iso's wegfliegt geht fast der ESX krachen - is ja hammer-hart...

HA und FT greifen ja auch nicht, wenn sich einzelne VMs "nur" festfahren ...

Naja, mal schauen wie wir das dem Kunden verkaufen :(

Guru
Beiträge: 2082
Registriert: 21.10.2006, 08:24

Beitragvon bla!zilla » 04.07.2012, 19:29

Naja, mal schauen wie wir das dem Kunden verkaufen


Als Designfehler. APD Events sind bei VMware schon länger bekannt.

Experte
Beiträge: 1188
Registriert: 08.11.2005, 13:08
Wohnort: bei Berlin

Beitragvon e-e-e » 04.07.2012, 19:50

nightflight hat geschrieben:
Naja, mal schauen wie wir das dem Kunden verkaufen :(


Nicht DAS verkaufen, sondern einen zweiten Controller und noch ein paar HDDs zum Bau eines RAID1 oder höher. Du gehst das Problem von der falschen Perspektive an.

Member
Beiträge: 22
Registriert: 01.02.2011, 15:45

Beitragvon nightflight » 04.07.2012, 20:08

Klar - die vDisks die die vmdk's der virtuellen Server beinhalten als Raid0 zu konfigurieren wäre ein Designfehler aber ISO-Stores ...

Naja, inzwischen ist alles Raid5, die EVA levelt nach dem Einbau der Ersatzplatte seit 5 Stunden so vor sich hin und alle hoffen, das inzwischen keine 2.Platte aussteigt.

Wäre halt logisch und wünschenswert gewesen, wenn der ESX mit dem Wegfall der ISO-Lun etwas weniger empfindlich umgegangen wäre (CD-Rom im virt. Server einfach weg oder zumindest Server aus)

Danke für eure Anregungen

Experte
Beiträge: 1006
Registriert: 30.10.2004, 12:41

Beitragvon mbreidenbach » 04.07.2012, 20:16

Och... ich hab den APD induzierten Tobsuchtsanfall halt schon hinter mir :)

Guru
Beiträge: 2082
Registriert: 21.10.2006, 08:24

Beitragvon bla!zilla » 04.07.2012, 21:54

e-e-e hat geschrieben:Nicht DAS verkaufen, sondern einen zweiten Controller und noch ein paar HDDs zum Bau eines RAID1 oder höher. Du gehst das Problem von der falschen Perspektive an.


Na ja, HP EVA und Continous Access klingen jetzt nicht das DAS... Fakt ist: Mit einem Netapp Filer, einer EMC CLARiiON oder $STORAGE wäre das auch passiert.

Experte
Beiträge: 1188
Registriert: 08.11.2005, 13:08
Wohnort: bei Berlin

Beitragvon e-e-e » 05.07.2012, 09:24

bla!zilla hat geschrieben:
e-e-e hat geschrieben:Nicht DAS verkaufen, sondern einen zweiten Controller und noch ein paar HDDs zum Bau eines RAID1 oder höher. Du gehst das Problem von der falschen Perspektive an.


Na ja, HP EVA und Continous Access klingen jetzt nicht das DAS... Fakt ist: Mit einem Netapp Filer, einer EMC CLARiiON oder $STORAGE wäre das auch passiert.


Aber Fakt ist auch, dass mit dem richtigen RAID-Level die Situation wohl anders geendet wäre.

Guru
Beiträge: 2082
Registriert: 21.10.2006, 08:24

Beitragvon bla!zilla » 05.07.2012, 12:33

Jaha, da ist was dran.

Profi
Beiträge: 875
Registriert: 18.03.2005, 14:05
Wohnort: Ludwigshafen

Beitragvon Martin » 05.07.2012, 12:50

um weiter spitzfindig etwas ins off-topic zu gehen:
Auf einem Netapp Filer hätte ich die ISOs im NFS liegen, da hätte es dieses Problem auch nicht gegeben :twisted:

Member
Beiträge: 22
Registriert: 01.02.2011, 15:45

Beitragvon nightflight » 05.07.2012, 17:26

Hallo,

wie gesagt, der Raid0-Datastore wurde entfernt.
Allerdings macht mir der Prozess des Releveling jetzt Kopfzerbrechen.
Ich habe meine Bedenken dazu hier im Forum unter Hardware\Diskgroups auf EVA4400
beschrieben.
Könnt ihr dazu vielleicht auch eine Aussage treffen?

Danke im Vorab


Zurück zu „vSphere 4 / ESX 4“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste