Seite 1 von 1

All Paths Down Dilemma

Verfasst: 09.02.2012, 02:29
von ch-hunn
Hatte heute bei einem Kunden Besuch von Murphy höchstpersonlich :evil:

Am Storage 1. Disk ausgefallen. Noch während dem Rebuild auf die Spare fällt eine zweite Disk aus. Randvolles 14TB RAID5 tot, nicht mehr wiederzubeleben und somit APD.
In diesem Zustand lassen sich die Hosts nicht mehr verwalten. Die gestorbenen VMs lassen sich nicht mehr aus dem Inventory entfernen, die Pfade auf das defekte Storage liessen sich auch nicht löschen, iSCSI HBA Rescan schlägt fehl, etc pp.
Somit blieb mir nichts anderes übrig, als alle Hosts mitsamt den VMs auf dem anderen Storages hart abzuschalten.

Gibt es irgend eine andere Möglichkeit, die Hosts sanfter aus diesem APD Dilemma zu befreien?

Gruss
Chregu

Verfasst: 09.02.2012, 08:38
von andiwe
Ich meine ich hätte damals (http://vmware-forum.de/viewtopic.php?p=118925) einfach auf der lokalen ESX shell die Pfade deaktiviert (#esxcfg-mpath).
Ab 4.1 Update1 sollte glaube ich ein Fix integriert sein, welche Version setzt du ein?

Verfasst: 09.02.2012, 20:10
von ch-hunn
Hallo Andi

Beim besagten Kunden läuft 4.1 Essential plus mit den aktuellsten Patches, vCenter physikalisch.
Scheinbar erkennt der ESX des APD nicht und versucht dauernd das nicht mehr vorhandene Storage zu erreichen. In diesem Zustand lässt sich der swiscsi Initiator nicht mehr konfigurieren um das fehlende Target zu entfernen. Der Host lässt sich so auch nicht neu starten.
Ich suche nach einem Befehl wo sich der swiscsi zuverlässig neustarten lässt. Dass Hierbei die anderen VMs kurzzeitig die Verbindung auf das noch gesunde Storage verlieren ist zu verkraften.
Nach dem Neustart versucht er scheinbar nicht mehr unentwegt das Storage zu erreichen, die Datastores sind augegraut, wie auch die betroffenen VMs.
So lässt sich das Inventory problemlos bereinigen und die einbindung des "neuen" Storage klappt wie erwartet.

Nun ja, jetzt muss mal Equallogic ran. Es kann ja nicht sein, dass seit Mai bereits insgesamt 4 Platten den Geist aufgegeben haben. Andere EQL laufen seit Jahren ohne die geringsten Probleme...



Gruss
Chregu