bisher haben wir in unserer VMware Umgebung auf Memory Overcommitment im großen Stiel verzichtet. D.h. wir haben versucht nicht mehr vRAM an die VMs zu vergeben als physisch in den Hosts verbaut ist. Dazu kommt das Ziel den Ausfall eines Host abfangen zu können.
Der aktuelle Cluster setzt sich zusammen aus 10 Hosts a 256 GB RAM. Soll der Ausfall von einem Host abgefangen werden, sollten also nicht mehr als ~2,25 TB den VMs zugeteilt werden. Nun kam es zu Verzögerungen mit dem Aufbau eines neuen Cluster und der aktuelle Cluster muss nun etwas mehr Last tragen als geplant. Wenn ich mir die Zahlen im vCOPS und vCenter anschaue, werde ich aber nicht ganz schlau, wie die aktuelle Lage tatsächlich ist.
Zum Einen weiß ich, dass die VMs bei uns i.d.R. zu groß angelegt werden. Dies kommt aus den Anforderungen des Fachbereichs und wir haben praktisch keine Möglichkeit ein "right sizing" durchzuführen. Daher sieht man an den Graphen, das active RAM im Cluster nur bei rund 300-350 GB liegt.
Letzte Woche habe ich Patches auf den Hosts eingespielt, wobei immer ein Host aus dem Cluster in Maint. Mode gesetzt und rebootet wurde (+FW Updates). Dabei habe ich mir die MEM Statistiken angeschaut und war überrascht, dass neben Ballooning auch Hypervisor Swapping eingesetzt hat - was ja böse ist Dazu gab es entsprechende Warnungen vom vCenter.
Code: Alles auswählen
Alarm Definition:
([Yellow metric Is above 90%; Red metric Is above 95%])
Current values for metric/state:
Metric Memory Usage = 98%
Mir ist nicht klar warum Swapping eingesetzt hat. Aus meiner Sicht hätten genug Reserven noch zur Verfügung gestanden, Consumed RAM war immer unter Total Capacity. Oder der benötigte Speicher hätte komplett durch Ballooning frei gemacht werden können.
Mir geht es um 3 Punkte:
- warum wurde in der Situation geswappt?
- wie muss ich die aktuelle Overcommitment Situation einschätzen?
- nach was schaue ich in der Zukunft? Ich habe bisher gedacht, dass das active RAM der Wert ist, der Überwacht werden soll. Das würde aber bedeuten, dass ich z.B. in der Cluster Ressorce Ansicht bei allen Host bei 100% wäre und permanent Alarme aktiv wären.
Cluster Ressourcen Übersicht:
http://s7.directupload.net/file/d/3284/qpp2x2yh_png.htm
Memory Graphen:
http://s14.directupload.net/file/d/3284 ... 2c_png.htm


