Seite 1 von 1

vmware Cluster "KillSwitch" erwünscht.

Verfasst: 17.07.2012, 16:55
von vrmgoesvm
Hi.

Wir hatten die Tage einen Ausfall der Klimaanlage.
Die Reparatur dauerte länger, als der Temparaturanstieg in den Griff zu kriegen war. Zeit hatte ich nicht viel, da 50°C schon bei meiner Ankunft erreicht waren.
Kurzum, ich habe alles herunterfahren müssen.
Das war grob:
über 200VMs, 8 ESX-Server und mehrere Equallogic SANs; das alles verteilt auf 2 Cluster.

Für mich war es das "Erste mal", dass ich wirklich alles herunterfahren musste.
Aus diesem Grund tat ich mich anfangs ein wenig schwer, die richtige Reihenfolge zu finden bzw. die richte Entscheidung zu treffen.
So bin ich dann in der Hektik vorgegangen:
1. HA und DRS in den Clustern ausgeschaltet, damit die VMs nicht auf einen anderen Host verschoben oder registriert werden, wenn der ESX heruntergefahren wird oder in Wartung geht.
2. Alle VMs (außer die vCenter-Server) heruntergefahren.
3. vCenter Server herunterfahren.
4. ESXe heruntergefahren.
5. Equallogic SANs ausgeschaltet.

Unklar war (ist) mir aber immer noch Punkt 1.

Da ich das auch in unsere Desaster-Doku mit einbauen möchte, ist jetzt die genaue Vorgehensweise entscheidend, da man so was schlecht üben kann.

Ein "KillSwitch", der die Schriitte 1 bis 4 automatisiert wäre auch eine Alternative.

Kann mir einer von euch den Punkt 1 genau erläutern bzw. wie man damit genau umgeht.
Oder anders gefragt, wie geht Ihr genau mit so einem Scenario um?
(Wobei man so was ja keinem wünscht....)
Habt Ihr euch darum auch schon mal Gedanken gemacht oder habt sogar einen "KillSwitch"?

Gruß
Jörg

Verfasst: 17.07.2012, 18:48
von Martin
Über so einen Fall habe ich mir noch nie Gedanken gemacht.
Eine "Komplettabschaltung" widerspricht bei uns ziemlich vielen Verträgen mit unseren Kunden.
Daher ist die Klimatisierung in jeder Brandschutzzone mind. N+1-fach aufgebaut, die Stromversorgung sogar N+N ;)

Verfasst: 17.07.2012, 19:05
von e-e-e
Hallo,

für solche Notfälle bauen wir eine Belüftung mit hohem Volumenstrom und sehr guten Luftfiltern ein, die halt für ein paar Stunden bis wenige Tage eine Wärmeabfuhr hinbekommt. Wir haben dann dort Luftwechselzahlen bis 50 (also fast Tornado), geht aber nicht überall.

Verfasst: 17.07.2012, 20:14
von Supi
Also das hatten wir auch mal 2010...zur WM Zeit.
Nach APC log war schön zu sehen das die Klima am Freitag gegen 18 Uhr nicht mehr kühlte.... und Montag früh war Hochsommer im Serverraum.... Bei uns ging's per Stand-Lüfter ein wenig kühler zu bekommen.. bis die neue Klima eingebaut wart.
Seit dem ist das Monitoring angepasst, dass auch schon bei 5 Grad mehr im Serverraum ein Alerting (per Mail,etc) beginnt.
Das war hier sowieso meine erste Frage, wieso nicht schon zuvor ein Alarm (Mail oder SMS) losging? Bei 8 Servern und mehreren SAN doch essentiell.

Verfasst: 17.07.2012, 23:01
von irix
Wir haben hier Notfallplaene und dazu gehoert auch eine Notabschaltung sowie das Wiederanfahren der Infrastruktur [1]. Sowas kann nicht nur wegen Umweltbedingungen mal notwendig sein sondern auch wegen Security. Allerdings haengt nun laetzteres vom Geschaeftsmodell ab und die wenigsten von uns hier sind wohl im Hosting unterwegs.

@Jörg
Ja auch hier wird scriptgesteuert in allen Clustern HA und DRS deaktiviert wenn eine Abschaltung durchgefuehrt wird. Sollten daei Teile der Infrastruktur ausfallen moechte ich nicht das mir VMware nun versucht zu helfen in dem es die Systeme wo anders versucht zu starten. Das Ganze kann natuerlich durch den Einwurf von kleinen Muenzen und den Erwerb einen Netapp MetroClusters deutlich entschaerft werden.

Gruss
Joerg

[1] Das Ganze ist auch schonmal komplett getestet worden und in Teilen passiert es auch Regelmaessig. Aber das hat man davon wenn man sich eine DIN ISO an die Backe nagelt.

Verfasst: 18.07.2012, 12:55
von Tschoergez
Für die Automatisierung der ersten Punkte helfen natürlich PowerCLI, Orchestrator und co.
Mit ein bisschen Geschick in Design der Architektur und der scripte/Workflows lässt sich dann auch das Wieder-Anfahren weitestgehend automatisieren.
(Stichwort: Extra Management-Cluster (oder standalone-host) mit vCenter, orchestrator, script-maschine, SAN-verwaltung usw. . Der wird manuell gestoppt/gestartet.. Die restliche Plattform für die produktiven Systeme kann dann vollständig automatisiert werden.)

Für die Implementierung solcher "kill-switch" scripte oder Workflows:
Mach das ganze einmal manuell im vSphere Client, lass Onyx nebenher laufen, und Du hast eine sehr gute Vorlage für Deine Scripte....

Viele Grüße,
Jörg

Verfasst: 18.07.2012, 15:10
von vrmgoesvm
Hi.

Erst mal besten Danke für Eure Hinweise und Anregungen.

Natürlich werden wir bei solchen Ausfällen gewarnt bzw. alarmiert. Wir haben via WhatsUpGold eine Temperaturüberwachung. WhatsUpGold sendet im Fehlerfall auch eine SMS. Die ist auch geschehen.

Darüber hinaus ist die Klimaanlage, wie auch die EMA und die BMZ, auf einen Wachdienst aufgeschaltet. Der wiederrum telefoniert dann eine Alarmkette ab.
Das ist auch geschehen.
Das hat auch in der Vergangenheit gut funktioniert, aber diesmal nicht. Über das "warum diesmal nicht" möchte ich hier nicht reden. :oops:
Aber wir haben draus gelernt und es wird bereits aktuelle was verändert. Das ist sicherlich das Wichtigste.

Ich denke wir werden uns trotzdem (obwohl man natürlich eine Totalabschaltung vermeiden will) über eine dokumentierte und über eine gescriptete Lösung Gedanken machen.

@Tschoergez
Danke für den Tipp mit Onyx

Gruß
Jörg