HP Lefthand Failover

MarcelMertens · Beitragvon **MarcelMertens** » 04.06.2013, 15:15

Hallo Zusammen,

in einem aktuellen Projekt gehts bei uns um die HP Lefthand.
Der Kunde hat als Anforderung einen sync. Spiegel sowie automatischer transparenter Failover ohne händischen Eingriff/Downtime etc.
Ich habe in Erinnerung, dass es bei der Lefthand eine Failover Manager gibt, der allerdings ein SPOF ist. Bedeutet Site mit Failover Manager down, kein Failover.
Ist dieses in der akutellen Version immer noch so?
Kann wer einen kurzen Umriss geben wie automatisch und transparent der Failover wirklich ist?

Viele Grüße,

Marcel

Beitragvon **irix** » 04.06.2013, 17:47

Es muss gewaehrleistet sein das mind. 2 Komponenten sich noch sehen und ja das bedingt eigentlich das der FOM an einer 3. Location steht oder zumind. seine eigene Strom/Netzanbindung hat und nun nicht von einem Ausfall der Virtuellen Plattform betroffen ist.

Wir haben hier einen User im Forum welcher einen P4500 Multisite Cluster im Einsatz hat. Ich guck mal das er sich meldet. Da faellt mich eigentlich noch gleich einer 2 User ein... bloss auf die Nicks komme ich nicht :oops:

Gruss
Joerg

Beitragvon **Dayworker** » 04.06.2013, 17:54

Suchst du etwa "pirx"?

Beitragvon **irix** » 04.06.2013, 17:57

Dayworker hat geschrieben:Suchst du etwa "pirx"?

Eigentlich Georg und Peter

Gruss
Joerg

Beitragvon **Dayworker** » 04.06.2013, 18:00

Na dann würde ich "Nukite2007" im Thread hohe Latenzzeiten mit P4500 Lefthands versuchen, bevor du wieder das Problem bekommst und "dann geht mir gleich schon das Klappmesser in der Hose auf".

IronEagle · Beitragvon **IronEagle** » 04.06.2013, 22:11

Ich haeng mich hier mal rein - wenn man diese Anforderungen hat, also synchroner Spiegel ueber zwei Datacenter, automatischer Failover ala NetApp MetroCluster - wer kann das denn noch so ausser NetApp liefern?

MarcelMertens · Beitragvon **MarcelMertens** » 04.06.2013, 22:17

IBM SVC, DataCore...

bla!zilla · Beitragvon **bla!zilla** » 04.06.2013, 23:11

...HP 3PAR, HP LeftHand/ P4000/ StoreVirtual... das ist heute keine große Besonderheit mehr. Das ging sogar schon mit HP EVAs und CA (mit ein paar Besonderheiten), hat aber keiner offiziell supported. NetApp Metro-Cluster ist, wie DataCore auch, nichts anderes als ein Dual-Controller System, bei dem jeder Controller eigenen Speicher hat und die Daten gespiegelt werden. Ein Controller Failover führt IMMER zu einem Failover in die zweite Site. Je nach Anforderungen und Design ist das doof.

Der Failover Manager bei der StoreVirtual ist kein SPoF. Zudem sollte dieser IMMER (wie bei jedem Quorum) in einer dritten Site liegen. Hat man nur zwei Sites, dann muss die Site OHNE FOM mehr Nodes haben.

Die StoreVirtual leidet nicht per se unter hohen Latenzen. Es ist iSCSI und in den meisten Fällen kommen die Latenzen aus dem Netzwerk. Ich habe diverse StoreVirtual (LeftHands, P4000 und StoreVirtual) bei Kunden fliegen, alle mir ordentlich Bumms. Multi-Site Cluster sind noch mal ein Sonderfall, gerade mit VMware. Das Design ist nicht ganz so einfach und da baut man auch schnell einen Bock rein.

@ Marcel

Wenn der Kunde das unbedingt haben möchte, was spricht gegen DELL PE, ein paar MDs und DataCore SSV?

MarcelMertens · Beitragvon **MarcelMertens** » 05.06.2013, 07:56

@Patrick: Wir bieten auch einen SYMV unter Dell an. Der Kunde schaut sich auch noch Lefthand an und bevor ich Argumente Für/Gegen Lefthand außere, wollte ich zumindest wissen ob diese (noch) Stimmen.
Ein paar Fragen:

- Für einen FailOver bei der Lefthand ist zwingend der FOM erforderlich?
- Dieser alleine entscheidet beim Ausfall von Site A dass die aktiven Volumes auf Site A nun (transparent und ohne "impact" für die Host) auf Site B erscheinen?
- Eine VMware bekommt davon nichts mit (Pfad Fail Over mal ausgenommen)?
- Nach meinen Infos ist der FOM nicht Cluster fähig, wieso ist er dann kein SPOF? Kein FOM, kein Failover.
- Was passiert wenn die Verbindung zwischen den beiden Lefthands unterbrochen ist, der FOM aber noch beide erreicht?
- Ich meine ich hatte "irgendwo" gelesen, dass für dieses Konstrukt 10Gb iSCSI erforderlich ist. Korrekt?

Grüße,

Marcel

IronEagle · Beitragvon **IronEagle** » 05.06.2013, 08:08

@bla!zilla 3par? Das ist dann spannend, wir hatten letztes Jahr HP im Haus, um zu hoeren was sie genau dafuer zu bieten hatten, und ihre Antwort war: automatischen Failover ala NA Metrocluster haben wir nicht.

bla!zilla · Beitragvon **bla!zilla** » 05.06.2013, 08:39

@ IronEagle

HP 3PAR Peer Persistence.

@ Marcel

- Für einen FailOver bei der Lefthand ist zwingend der FOM erforderlich?
- Dieser alleine entscheidet beim Ausfall von Site A dass die aktiven Volumes auf Site A nun (transparent und ohne "impact" für die Host) auf Site B erscheinen?

Der FOM ist nicht zwingend erforderlich. Der FOM ist ein spezieller Typ Qorum Managers. Der FOM entscheidet NICHT ob und wie ein Failover passiert. Welche Site bei einem Ausfall überlebt entscheidet, wie bei vielen anderen Clustertechnologien auch, das Quorum der verbleibenden Manager.

- Eine VMware bekommt davon nichts mit (Pfad Fail Over mal ausgenommen)?

Korrekt.

- Nach meinen Infos ist der FOM nicht Cluster fähig, wieso ist er dann kein SPOF? Kein FOM, kein Failover.

Der FOM hat mit dem Failover nichts zu tun. Es ist ein Tie Breaker.

- Was passiert wenn die Verbindung zwischen den beiden Lefthands unterbrochen ist, der FOM aber noch beide erreicht?

In einem Multi-Site Cluster (und das brauchst du bei zwei Sites) legst du eine Primary Site fest. Beim split brain gewinnt die Primary Site.

- Ich meine ich hatte "irgendwo" gelesen, dass für dieses Konstrukt 10Gb iSCSI erforderlich ist. Korrekt?

Nein, nicht korrekt. Sonderfall: Du willst StoreVirtual Hardware und FIbre-Channel einsetzen. Fibre-Channel in den StoreVirtual ist nur für Front-End Connectivity. Das Clusternetzwerk im Backend läuft weiterhin komplett über iSCSI. Und deswegen auch 10 GbE bei 8 GbE FC im Front-End.

Noch mal zur Funktion der LeftHand/ P4000/ StoreVirtual: Das ist ein Cluster. Alle Nodes im Cluster sind über eine Virtual IP erreichnbar (beim Multi-Site auch mehrere VIPs). Die gesamte iSCSI Kommunikation läuft erst über die VIP und anschließend laufen die Sessions gegen die einzelnen Nodes. Damit wird die Lastverteilung erreicht. Alle Boxen liefern Storage und IO. Wie bei jedem Cluster muss es ein Quorum geben. Dieses Quorum bilden die sog. Virtual Manager bzw. die Failover Manager. Ein Virtual Manager ist eine Softwarekomponente auf JEDEM Node, der gestartet und gestoppt werden kann. Ein Clusterbetrieb ist also auch OHNE FOM möglich. Bei einer geraden Anzahl Nodes laufen dann eine ungerade Anzahl Virtual Manager. Solange min. N/2+1 Manager (gezählt werden Virtual Manager und FOM) einen Ausfall überleben, bleibt das Cluster online. Sind es weniger, dann geht das Cluster offline. Es ist also, wie bei allen Clustern, eine Frage des Designs. Ich muss Boxen und Manager so verteilen, dass beim Ausfall genügend Manager zusammenkommen. Das ist i.d.R. kein Problem und funktioniert in der Praxis absolut problemlos. Selbst in einem Standardcluster kann man 50% der Nodes außer Betrieb nehmen, wenn ein FOM vorhanden ist. In diesem Fall laufen auf allen Nodes VIrtual Manager und der FOM bildet dann den Tie-Breaker. Erst beim Ausfall von 50% der Nodes und Ausfall des FOM geht das Cluster down (double failure).

MarcelMertens · Beitragvon **MarcelMertens** » 05.06.2013, 09:14

Ok, ich denke ich habs verstanden. Also ist jeder Clusterknoten ein FOM. Der weitere FOM am Dritten Standort gilt sozusagen als Entscheidungsinstanz.

Ausgangssituation:

Site A - Lefthand Node A
Site B - Lefthand Node B
Site C - Virtual FOM

Fliegt Site B weg (Stromausfall) entscheidet der FOM in Site C das die Node A die Volumes (da der FOM in Site C nur noch die Noda A erreicht) von Node B transparent übernimmt.

Was passiert wenn der Virtal FOM mit in Site A oder B steht bzw. Site A/B und C zusammen ausfallen? Übernimmt die verbleibene Node ohne Virtal FOM die Volumes?

bla!zilla · Beitragvon **bla!zilla** » 05.06.2013, 10:19

Wenn die Anzahl der laufen Manager (Virtual Manager und FOM) unter dem Quorum liegt, geht das Cluster auf die Bretter.

Wenn du FOM und einen Node in einer Site, und nur einen Node in der anderen Site hast, und dir gehen FOM und Node fliegen, dann geht das Cluster auf die Bretter. FOM + 2 Virtual Manager, 2 ist das Quroum Gehen ein Virtual Manager und der FOM fliegen, läuft nur noch ein Virtual Manager. 1 < 2 == Cluster down, da Quorum nicht erfüllt. Das ist aber dann auch kein optimales Design. Bei einem Servercluster würdest du sowas ja auch nicht bauen.

MarcelMertens · Beitragvon **MarcelMertens** » 05.06.2013, 11:29

Vielen Dank für die Info Patrick

pirx · Beitragvon **pirx** » 05.06.2013, 20:16

Der Link http://kb.vmware.com/selfservice/micros ... Id=2020097 könnte ganz hilfreich sein.

Wir haben einen recht großen LH Cluster mit 20 Knoten (10 Gb/s). Teilweise sehen wir aber lastunabhängig recht hohe Latenzen. Es ist keine Seltenheit in den Performance Graphen der Hosts, Datastores mit >20ms zu sehen. Der Rest liegt immer noch > 10ms. Und das ohne großartige IOs. Die Daten im vSphere Client decken sich mit den Lefthand CMC Graphen der Volumes.

Ursache ist weiterhin unklar, wir suchen schon seit > 1 Jahr mit HP danach. Aktuell wird vermutet, dass bei uns das Advisory vom April ( http://h20000.www2.hp.com/bizsupport/Te ... Id=3936136 ) zutreffen könnte.

Der neuen Lösungen werden nun mit EMC VPLEX und HP EVAs dahinter aufgebaut...

bla!zilla · Beitragvon **bla!zilla** » 05.06.2013, 20:55

Ihr kauft neue EVAs oder sind das bestehende Systeme?

pirx · Beitragvon **pirx** » 05.06.2013, 21:06

bla!zilla hat geschrieben:Ihr kauft neue EVAs oder sind das bestehende Systeme?

Sowohl als auch. Gebraucht gekaufte EVAs, richtig neue EVAs und die bestehenden alten EVAs.

Die Frage warum man keine 3PAR gekauft hat wenn es HP sein soll, müsste man anderen Leuten stellen. Ich nix Storage...

VMware-Forum

HP Lefthand Failover

HP Lefthand Failover

Wer ist online?