wir haben seit über zwei Jahren einen ESXi 4.1 am laufen.
In dieser Zeit hat sich hardwaretechnisch nichts geändert und an den VM-Einstellungen wurde auch seit langer Zeit nichts geändert.
Auf den Gastbetriebssystemen wurde ebenfalls (ausser den Windows-Updates) nichts verändert.
Hier die technischen Daten:
Host
ESXi 4.1.0 348481
Dell PowerEdge R210 II
4x 3,1 GHz Intel Xeon E31220 (1 Prozessor, 4 Kerne)
16 GB RAM (4x 4 GB DDR3 ECC)
PERC H200 Raid-Controller
2x 750 GB Samsung HD753LJ im RAID1-Verbund (Caching aktiviert, ca. 300 GB in datastore1 frei)
Gäste
6x Win XP Pro 32bit, je max. 2 Kerne, 1 GB RAM (Testweise auf 2 GB erhöht)
2x Win XP Pro 32bit, je max. 4 Kerne, 3 GB RAM
1x CentOS 5 64bit, 1 Kern, 2 GB RAM
Die CPU-Auslastung des Hosts liegt in der Regel bei 70-80%, der aktive Arbeitsspeicher bei ca. 5-8 GB.
Nun haben wir seit ca. 2 Wochen das Problem, dass auf den Win-Gästen ein Arbeiten kaum möglich ist, obwohl die Gesamt-CPU-Auslastung bei 70-80% liegt und auf den einzelnen Gästen kaum CPU-Auslastung zu verzeichnen ist.
Wenn man nun ein Programm öffnet, kann das mehrere Minuten dauern. Gefühlt kommt die Leistung in Schüben, bis sie wieder für längere Zeit ausbleibt.
Neustarts des Hosts oder der Gästen bringt keine Verbesserung. Ein vollständiger Bootvorgang EINES Win-Gastes dauert ca. 10-15 Minuten.
Wir haben bereits viele verschiedene Dinge probiert:
- Scan auf Schädlinge mit Kaspersky Endpoint Security 10 und Avast! Endpoint Protection 5)
- Deaktivierung der Firwall / des Virenscanners
- Freischauffeln von Festplattenplatz auf datastore1 (es waren noch 24 GB verfügbar, durch Löschen einiger inaktiven VMs nun 300 GB frei)
- Prüfung auf freien Festplattenplatz auf den Gästen (mindesten 10-15% der Gesamtkapazität frei)
- Defragmentieren der Gäste-Platten
- Defragmentieren des virtuellen Arbeitsspeichers der Gäste (der nur aus einem Fragment bestand)
- Deaktivierung der Prefetch-Funktion unter Windows
- Erhöhung des RAMs von 1 auf 2 GB bei den 6 Windows-Gästen
- Höhere Priorität bei der Ressourcenzuteilung (Kurriosum weiter unten!)
- Prüfung auf Hardwaredefekte über Dell OpenManage Server Administrator (alle Werte grün, keine Fehler)
- Raid ist laut Dell OpenManage im optimalen Zustand
- Prüfung der Festplattenaktivität auf dem Host (Laut Leistungsbericht lediglich 10.000-20.000 kbit/s Nutzung)
Zu den Windows-Updates ist zu sagen, dass die automatischen Updates auf den Gästen aktiviert waren, die VMs aber bis vor Kurzem nur über einen Proxy rausgehen konnten.
Als das Performance-Problem anfing, haben wir den Proxy-Zugang der VMs deaktiviert, die nun direkten Zugang haben. Interessanterweise hatten wir in den darauffolgenden Tagen massig Win-Updates (bis zu 170 Stück), da die automatischen Updates durch den Proxy wohl nicht möglich waren. Aber das nur am Rande der Vollständigkeit halber.
Als das Abstellen des Proxys nichts nutzte, haben wir Kaspersky Endpoint Security 10 deinstalliert und Avast Endpint Protection installiert.
Erfreulicherweise ist die CPU-Last insgesamt etwas gesunken, an den Performance-Problemen hat sich allerdinmgs nichts geändert.
Wie oben beschrieben, haben wir testweise die CPU-Priorität einer VM von "Normal" auf "Hoch" eingestellt, mit dem Ergebniss, dass es sich auf der VM einigermassen arbeiten ließ.
Das Kuriosum ist, dass die Priorisierung nach meinem Verständnis doch erst greift, wenn die Gesamtressource zu annähernd 100% ausgelastet ist. Das ist bei uns nicht der Fall. Wie gesagt liegt die CPU-Last im Durchschnitt (wenn alle VMs am arbeiten sind) bei 70-80%.
Sinkt die Gesamtlast auf unter 50% ist tatsächlich ein normales Arbeiten (wie durchgehend seit 2 Jahren mit 70-80%) möglich.
D.h. wenn morgens Kollegen auf 1-2 VMs arbeiten läuft alles einwandfrei, bis nach und nach mehr VMs aktiv sind und die Last auf über 50% ansteigt.
Ich habe den Verdacht, dass die CPU nicht mehr ordnungsgemäß arbeitet und evtl. 2 Kerne den Geist aufgegeben haben.
Das würde ja das 50%-Last-Verhalten erklären.
Ist das möglich?
Und wenn ja, warum zeigen sowohl der vSphere Client, als auch Dell OpenManage eine einwandfrei arbeitende CPU aus?
vSphere zeigt unter "Konfiguration" -> "Systemstatus" -> "Prozessoren" folgende Werte an:
CPU1 -> Normal
CPU1 Level-1 Cache is 32768 B -> Normal
CPU1 Level-2 Cache is 262144 B -> Normal
CPU1 Level-3 Cache is 8388608 B -> Normal
Processor 1 Status 0: IERR - Deassert -> Normal
Processor 1 Status 0: Thermal Trip - Deassert -> Normal
Processor 1 Status 0: Configuration Error - Deassert -> Normal
Der Temperatursensor liefert konstante 32°C.
Gibt es eine Möglichkeit den Prozessor auf Defekte zu testen?
Zufällig habe ich keinen baugleichen Prozessor auf Vorrat

Oder hat das Ganze einen anderen Hintergrund?
Ich bin langsam am verzweifeln und die Kollegen, die auf den VMs arbeite auch...

Wenn noch mehr Daten benötigt werden, kein Problem.
Über jeden Tipp und Hinweis würde ich mich sehr freuen!
In diesem Sinne
Herzlichen Dank!
CmdrChakotay