Kein Arbeiten möglich trotz CPU-Last von 70-80%. CPU defekt?

CmdrChakotay · Beitragvon **CmdrChakotay** » 02.08.2013, 18:40

Hallo liebe Gemeinde,

wir haben seit über zwei Jahren einen ESXi 4.1 am laufen.
In dieser Zeit hat sich hardwaretechnisch nichts geändert und an den VM-Einstellungen wurde auch seit langer Zeit nichts geändert.
Auf den Gastbetriebssystemen wurde ebenfalls (ausser den Windows-Updates) nichts verändert.

Hier die technischen Daten:

Host
ESXi 4.1.0 348481
Dell PowerEdge R210 II
4x 3,1 GHz Intel Xeon E31220 (1 Prozessor, 4 Kerne)
16 GB RAM (4x 4 GB DDR3 ECC)
PERC H200 Raid-Controller
2x 750 GB Samsung HD753LJ im RAID1-Verbund (Caching aktiviert, ca. 300 GB in datastore1 frei)

Gäste

6x Win XP Pro 32bit, je max. 2 Kerne, 1 GB RAM (Testweise auf 2 GB erhöht)
2x Win XP Pro 32bit, je max. 4 Kerne, 3 GB RAM
1x CentOS 5 64bit, 1 Kern, 2 GB RAM

Die CPU-Auslastung des Hosts liegt in der Regel bei 70-80%, der aktive Arbeitsspeicher bei ca. 5-8 GB.

Nun haben wir seit ca. 2 Wochen das Problem, dass auf den Win-Gästen ein Arbeiten kaum möglich ist, obwohl die Gesamt-CPU-Auslastung bei 70-80% liegt und auf den einzelnen Gästen kaum CPU-Auslastung zu verzeichnen ist.

Wenn man nun ein Programm öffnet, kann das mehrere Minuten dauern. Gefühlt kommt die Leistung in Schüben, bis sie wieder für längere Zeit ausbleibt.
Neustarts des Hosts oder der Gästen bringt keine Verbesserung. Ein vollständiger Bootvorgang EINES Win-Gastes dauert ca. 10-15 Minuten.

Wir haben bereits viele verschiedene Dinge probiert:
- Scan auf Schädlinge mit Kaspersky Endpoint Security 10 und Avast! Endpoint Protection 5)
- Deaktivierung der Firwall / des Virenscanners
- Freischauffeln von Festplattenplatz auf datastore1 (es waren noch 24 GB verfügbar, durch Löschen einiger inaktiven VMs nun 300 GB frei)
- Prüfung auf freien Festplattenplatz auf den Gästen (mindesten 10-15% der Gesamtkapazität frei)
- Defragmentieren der Gäste-Platten
- Defragmentieren des virtuellen Arbeitsspeichers der Gäste (der nur aus einem Fragment bestand)
- Deaktivierung der Prefetch-Funktion unter Windows
- Erhöhung des RAMs von 1 auf 2 GB bei den 6 Windows-Gästen
- Höhere Priorität bei der Ressourcenzuteilung (Kurriosum weiter unten!)
- Prüfung auf Hardwaredefekte über Dell OpenManage Server Administrator (alle Werte grün, keine Fehler)
- Raid ist laut Dell OpenManage im optimalen Zustand
- Prüfung der Festplattenaktivität auf dem Host (Laut Leistungsbericht lediglich 10.000-20.000 kbit/s Nutzung)

Zu den Windows-Updates ist zu sagen, dass die automatischen Updates auf den Gästen aktiviert waren, die VMs aber bis vor Kurzem nur über einen Proxy rausgehen konnten.
Als das Performance-Problem anfing, haben wir den Proxy-Zugang der VMs deaktiviert, die nun direkten Zugang haben. Interessanterweise hatten wir in den darauffolgenden Tagen massig Win-Updates (bis zu 170 Stück), da die automatischen Updates durch den Proxy wohl nicht möglich waren. Aber das nur am Rande der Vollständigkeit halber.
Als das Abstellen des Proxys nichts nutzte, haben wir Kaspersky Endpoint Security 10 deinstalliert und Avast Endpint Protection installiert.
Erfreulicherweise ist die CPU-Last insgesamt etwas gesunken, an den Performance-Problemen hat sich allerdinmgs nichts geändert.

Wie oben beschrieben, haben wir testweise die CPU-Priorität einer VM von "Normal" auf "Hoch" eingestellt, mit dem Ergebniss, dass es sich auf der VM einigermassen arbeiten ließ.
Das Kuriosum ist, dass die Priorisierung nach meinem Verständnis doch erst greift, wenn die Gesamtressource zu annähernd 100% ausgelastet ist. Das ist bei uns nicht der Fall. Wie gesagt liegt die CPU-Last im Durchschnitt (wenn alle VMs am arbeiten sind) bei 70-80%.

Sinkt die Gesamtlast auf unter 50% ist tatsächlich ein normales Arbeiten (wie durchgehend seit 2 Jahren mit 70-80%) möglich.
D.h. wenn morgens Kollegen auf 1-2 VMs arbeiten läuft alles einwandfrei, bis nach und nach mehr VMs aktiv sind und die Last auf über 50% ansteigt.

Ich habe den Verdacht, dass die CPU nicht mehr ordnungsgemäß arbeitet und evtl. 2 Kerne den Geist aufgegeben haben.
Das würde ja das 50%-Last-Verhalten erklären.

Ist das möglich?
Und wenn ja, warum zeigen sowohl der vSphere Client, als auch Dell OpenManage eine einwandfrei arbeitende CPU aus?

vSphere zeigt unter "Konfiguration" -> "Systemstatus" -> "Prozessoren" folgende Werte an:

CPU1 -> Normal
CPU1 Level-1 Cache is 32768 B -> Normal
CPU1 Level-2 Cache is 262144 B -> Normal
CPU1 Level-3 Cache is 8388608 B -> Normal
Processor 1 Status 0: IERR - Deassert -> Normal
Processor 1 Status 0: Thermal Trip - Deassert -> Normal
Processor 1 Status 0: Configuration Error - Deassert -> Normal

Der Temperatursensor liefert konstante 32°C.

Gibt es eine Möglichkeit den Prozessor auf Defekte zu testen?
Zufällig habe ich keinen baugleichen Prozessor auf Vorrat :-)

Oder hat das Ganze einen anderen Hintergrund?

Ich bin langsam am verzweifeln und die Kollegen, die auf den VMs arbeite auch... :-(

Wenn noch mehr Daten benötigt werden, kein Problem.

Über jeden Tipp und Hinweis würde ich mich sehr freuen!

In diesem Sinne
Herzlichen Dank!
CmdrChakotay

mbreidenbach · Beitragvon **mbreidenbach** » 02.08.2013, 18:56

Wie sehen denn die CPU Ready Werte so aus ?

Supi · Beitragvon **Supi** » 02.08.2013, 19:21

CmdrChakotay hat geschrieben:Hallo liebe Gemeinde,

Hier die technischen Daten:

Host
ESXi 4.1.0 348481
Dell PowerEdge R210 II
4x 3,1 GHz Intel Xeon E31220 (1 Prozessor, 4 Kerne)
16 GB RAM (4x 4 GB DDR3 ECC)
PERC H200 Raid-Controller
2x 750 GB Samsung HD753LJ im RAID1-Verbund (Caching aktiviert, ca. 300 GB in datastore1 frei)

Gäste

6x Win XP Pro 32bit, je max. 2 Kerne, 1 GB RAM (Testweise auf 2 GB erhöht)
2x Win XP Pro 32bit, je max. 4 Kerne, 3 GB RAM
1x CentOS 5 64bit, 1 Kern, 2 GB RAM

Das das überhaupt mal ordentlich lief, wäre schon erstaunlich.
Ein H200 hat keinerlei Cache und der einzige Write Cache ist somit der der SATA Consumer Platten.
Ich hoffe, der Server hängt zumindest hinter eine USV.

Aber zu den VM's : Wirklich 2 mal 4 Kerne bei den XP's vergeben? Schleunigst auf max 2 kerne ändern. Ebenso bei den anderen 6 VM's nur wenns wirklich nötig ist 2 Kerne.

Aber bestimmt kam erst vor kurzem eine XP VM mit 2-4 Kerne dazu, oder? Zuvor hat das der Scheduler vom ESXi vielleicht noch gerade so hinbekommen.

ggf. hilft als schnelle Lösung aber auch ein Tausch der CPU gegen einen Xeon E3-1230V2 mit HT. http://geizhals.de/intel-xeon-e3-1230v2 ... 81378.html

Beitragvon **Dayworker** » 02.08.2013, 19:39

Aus eigener Erfahrung kann ich sagen, daß der H200-Controller nicht der schnellste ist und auch wenn man dank USV zumindest den Plattencache aktiviert, es nicht unbedingt besser wird. Ich habe inzwischen die Erfahrung gemacht, daß wenn man den H200 mit mehreren, zur selben Zeit ausgeführten Kopieraktionen (1 - 4) streßt, dieser erstmal voll loslegt und bei 3 noch seine von der Datenträgergeschwindigkeit abhängende Performance bringt. In meinem Fall mit 2x 500er WD-Platten werden noch ~110MiB/s (Lesen und Schreiben) angezeigt. Wenn dann ein vierter Kopierjob gestartet wird, bricht jedoch die Performance massiv ein und liegt nur noch bei ~40MiB/s. Selbst wenn man den vierten Job abbricht, verweilt der Durchsatz auf diesem niedrigen Niveau und erholt sich erst nach 15-20 Sekunden wieder.

CmdrChakotay · Beitragvon **CmdrChakotay** » 02.08.2013, 20:43

Das das überhaupt mal ordentlich lief, wäre schon erstaunlich.
Ein H200 hat keinerlei Cache und der einzige Write Cache ist somit der der SATA Consumer Platten.
Ich hoffe, der Server hängt zumindest hinter eine USV.

Ja, lief über zwei Jahre einwandfrei.
Das der H200 nicht optimal ist, haben wir schnell bemerkt.
Aber mit aktiviertem Caching direkt an den Platten, genügt es unseren Anforderungen.
Riesengroße Datenmengen weren nicht verschoben.
Und natürlich ist eine USV am Host und das automatische Herunterfahren der Systeme wird regelmäßig getestet.

Aber bestimmt kam erst vor kurzem eine XP VM mit 2-4 Kerne dazu, oder?

Nein, seit mind. einem Jahr ist keine neue VM dazugekommen bzw. wurden alte VMs mit neuen Ressourcen ausgestattet.

Wie sehen denn die CPU Ready Werte so aus ?

Von den Werten habe ich bisher noch nichts gelesen. Danke für den Tipp.
Habe einen interessanten Artikel zum Thema CPU-Ready und CPU-Überbuchung gefunden.

http://blog.net2net.de/virtualisierung-und-storage/erweitere-vmware-leistungswerte-teil-1-cpu-ready

Mir war nicht bewusst, dass wir eine Überbuchung von über 1:5 hatten.
Bis dato lief ja auch alles einwandfrei.

Die Werte waren momentan (nachdem ich für etwas Last gesorgt habe) je nach VM bei 500-4.500 ms je vCPU. Laut dem Artikel sind Werte über 1.000ms nicht förderlich....

Ich habe nun allen normalen Hosts 1 Kern und den anderen zweien 2 Kerne zugeteilt.
Damit liegt die Ratio bei 1:3.

Nach dem Neustart der VMs liegt der CPU-Ready nun bei unter 100ms... sieht besser aus.

Werde das jetzt die nächsten Tage beobachten.

Es wundert mich lediglich, dass bisher alles einwanfrei lief und nichts an den VMs geändert wurde..... mal sehen. Vielleicht ist das Problem ja jetzt behoben.

Kennt Ihr ein Tool, mit dem man den Prozessor auf einem ESXi überprüfen kann?
Oder kann man vSphere und Dell OpenManage vertrauen, wenn die grün melden?

Herzliche Grüße
CmdrChakotay

Beitragvon **Dayworker** » 02.08.2013, 21:49

Da der ESXi weder Windows noch Linux ist und auch nur über eine "busybox" verfügt, sind mir keine CPU-Tools bekannt, die sich direkt starten lassen und in einer VM macht das nicht wirklich einen Sinn. Mein Rat wäre daher, von einer beliebige Live-CD zu booten.

Auch wenn ihr VM-technisch nichts an der Config verändert habt, sind in den letzten Jahren die meisten Programme ziemlich fett geworden und vor allem Virenscanner tragen ihr Scherflein dazu bei.

CmdrChakotay · Beitragvon **CmdrChakotay** » 03.08.2013, 12:17

Die CPU-Ready-Werte sind zwar jetzt nach neuer Ressourcenzuteilung in Ordnung, es lässt sich allerdings weiterhin nur schleppend auf den VMs arbeiten....

[/img]

Auch wenn ihr VM-technisch nichts an der Config verändert habt, sind in den letzten Jahren die meisten Programme ziemlich fett geworden und vor allem Virenscanner tragen ihr Scherflein dazu bei.

Das ist richtig. Allerdings ist auf den einzelnen VMs nichts besonderes los in Sachen CPU-Last, RAM-Auslastung, Festplattenzugriff, etc.

Und in der Summe ist der Host auch icht überlastet.
Momentan (Wochenende) ist die durchschnittliche CPU-Last bei 33,5% und der aktive Arbeitsspeicher liegt bei 4,2 GB (von 16).

Die Durchschnittliche Festplattennutzung liegt bei 11.900 kbit/s, die Latenz für Schreibvorgäne liegt bei 17,7ms und für Lesevorgänge bei 42,2ms.

Und trotzdem lässt sich auf einer VM nur schleppend arbeiten, die selbst nur eine durchnittliche CPU-Last von 10% und einen CPU-Ready-Wert von 125-350ms aufweist.

Zudem ist das Performance-Problem nicht schleppend über die Jahre entstanden, sondern in den letzten Wochen. Also ich tippe entweder auf Hardwaredefekt (CPU, Festplatte, Controler) oder vielleicht liegt es doch an einem der vielen Windows-Updates, die nach der Proxyöffnung hereingetrudelt sind?

Werde mal versuchen an einem Wochenende, an dem ich den Host mal für mehrere Stunden herunterfahren kann, eine Analyse über eine Live-CD durchzuführen.

Danke!
CmdrChakotay

MarcelMertens · Beitragvon **MarcelMertens** » 03.08.2013, 12:30

Wo ließt du den rdy wert ab? Normal wird der rdy wert in % angegeben. Der vcenter wert ist außerdem eine summierung von 20sek.

http://kb.vmware.com/selfservice/micros ... Id=2002181

Schau mal mit esxtop.

Rdy sollte <5% und read/write latency <20ms sein

Supi · Beitragvon **Supi** » 03.08.2013, 12:52

CmdrChakotay hat geschrieben:
Also ich tippe entweder auf Hardwaredefekt (CPU, Festplatte, Controller)

Läuft den auf dem Server ein Dell OMSA VIB File?
http://de.community.dell.com/techcenter ... ieren.aspx
Was zeigt denn der ESXi als Status für das Raid an?

Wenn du einfach mal testweise ein (weiteres) XP neu installierst, wie verhält sich das denn?
Seltsam ist aber schon, dass ihr noch mit 2014 aus dem Support laufenden XP arbeitet, aber 2 AV Business Lizenzen da sind, die ja auch nicht wenig kosten werden.
Vielleicht habt ihr euch auch nen Virus eingefangen, der das verursacht?
Bei XP würde ich mindestens Java als auch Flash deinstallieren. Dazu zumindest nen aktuellen Acrobat Reader.

kastlr · Beitragvon **kastlr** » 03.08.2013, 15:19

Hallo zusammen,

habe zwar keinen vergleichbaren Storage, aber bei den von dir genannten IO Antwortzeiten unter geringer Last schüttelt es mich.
Da Windows Clients deutlich mehr Lese als Schreibaktivitäten verursachen sind 42ms ein ziemlich schlechter Wert.
Unsere Kunden werden schon nervös, wenn sich die Durchschnittswerte den 10ms annähern.

Ich würde mal folgendes testen.
Starte zuerst mal nur eine VM, damit sollte die Performance ja noch ok sein.
Kopiere dann eine größere Datei von dieser VM auf einen anderen Client übers Netzwerk und beobachte die Performance Statistiken und die benötigte Zeit.
Starte danach eine zweite VM und kopiere die gleiche Datei von VM1 nach VM2.

Sollten die Zeiten nicht grob voneinander abweichen sind die Platten noch nicht ausgelastet.

Gruß,
Ralf

CmdrChakotay · Beitragvon **CmdrChakotay** » 03.08.2013, 15:36

Wo ließt du den rdy wert ab? Normal wird der rdy wert in % angegeben. Der vcenter wert ist außerdem eine summierung von 20sek.

Den angegebenen Wert habe ich aus dem vcenter.
Auf einer VM liegt der 1-Stunden-Durchschnitt bei 42,75ms.
Nach der Formel umgerechnet ist das ein Wert von 0,21%
Ein Arbeiten ist trotz Minimalauslastung des Hosts nicht möglich.

esxtop kann ich momentan nicht nutzen, da SSH auf dem Host nicht aktiviert ist und ich den Host momentan nicht neu starten kann.
Oder gibt es ausser beim Bootvorgang direkt am Host noch eine andere Möglichkeit SSH zu aktivieren?

Läuft den auf dem Server ein Dell OMSA VIB File?

Ja, Dell Open Manage ist installiert.

Was zeigt denn der ESXi als Status für das Raid an?

Alles Normal (grüner Haken).
Controller 0 (PERC H200A)
Drive 0 on controller 0 Fw: 1108 - ONLINE
Drive 1 on controller 0 Fw: 1108 - ONLINE
RAID 1 Logical Vlume 0 on controller 0, Drives(1,0) - OPTIMAL
Port 0 on Controller 0
Port 1 on Controller 0

Im Dell Openmanage Server Administrator werden auch keine Fehler angezeigt.

Wenn du einfach mal testweise ein (weiteres) XP neu installierst, wie verhält sich das denn?

Ich werde jetzt erst eimal ein Backup aller VMs machen und dann mal einen neuen XP-Gast einrichten und berichten.

Seltsam ist aber schon, dass ihr noch mit 2014 aus dem Support laufenden XP arbeitet, aber 2 AV Business Lizenzen da sind, die ja auch nicht wenig kosten werden.

Ja, wir wollten schon länger auf Win Server 2008 umstellen, aber wie sagt man so schön: "Never change a running system". Und bisher lief ja alles einwandfrei. Da geht es weniger um die Kosten für ein neues BS, sondern eher um den Aufwand, denn eine Umstellung so mit sich bringt....

Zu den AV-Lizenzen: Kaspersky läuft aus und Avast ist momentan die 30-Tage-Trial installiert.

Vielleicht habt ihr euch auch nen Virus eingefangen, der das verursacht?

Haben wir auch gedacht. Aber weder Kaspersky noch Avast finden etwas.

Ich Vollpfosten habe übrigens ganz vergessen, dass wir für den Fall eines Ausfalls einen baugleiches Backupserver haben. :idea:

Muss nur den RAM mitnemen, da das Backupsystem nur 2 GB hat....

Werde jetzt erst mal die VMs rüberschauffeln und berichte dann, ob auf dem anderen System alles läuft...

Und nochmal Danke für die Unterstützung!

Grüße
CmdrChakotay

Beitragvon **irix** » 03.08.2013, 15:53

Ueber DCUI kann jederzeit ssh/console aktiviert werden. Ein Neustart ist dazu nicht notwendig. War es in all den Jahren noch nie.

Gruss
Joerg

MarcelMertens · Beitragvon **MarcelMertens** » 03.08.2013, 17:24

Oder über das sicherheitsprofil

CmdrChakotay · Beitragvon **CmdrChakotay** » 03.08.2013, 17:44

Oder über das sicherheitsprofil

Wieder was gelernt. Danke, hat geklappt.

Momentan sind alle VMs bis auf zwei heruntergefahren, da ich sie auf das Backupsystem ziehe.

Laut vcenter liegt der Ready-Wert bei einer VM bei durchschnittlich nur noch 5,6ms.
esxtop liefert für diese VM nun zwischen 0 und 0.1% unter %RDY.

Da nun alle VMs ausgeschaltet sind, ist das natürlich jetzt kein representativer Wert....

Ich berichte morgen, wie es auf dem backuphost läuft.

Gruß
CmdrChakotay

CmdrChakotay · Beitragvon **CmdrChakotay** » 04.08.2013, 20:45

So, einen Hardwaredefekt kann ich (so gut wie) ausschliessen.

Auch auf dem Backupsystem geht alles in die Knie, wenn die 10 VMs laufen.

Habe jetzt folgendes gemacht:
2 VMs laufen permanent:
- XP Pro 32bit mit 2 Kernen und 3 GB RAM
- Centos 64bit mit einem Kern und 2 GB RAM

Starte ich jetzt eine dritte VM (XP Pro 64bit, 1 Kern, 2 GB RAM), läuft alles tip top.
Starte ich anschliessen die restlchen VMs parallel (mit je 3 Minuten Zweitversatz) ist die Performance im Keller, obwhol esxtop bei %RDY für alle VMs jeweils werte weit unter 1% anzeigt. Die Gesamt-CPU-Last liegt dann momentan bei ca. 40% (momentan wird nicht auf alles VMs gearbeitet).

Soweit so gut. Alle VMs wieder ausgeschaltet bis auf die zwei oben genannten. Habe jetzt nach und nach alle andern 8 VMs jeweils gestartet, Malwarebytes laufen lassen (alles OK) und wieder ausgeschaltet. Soweit so gut.

Wenn du einfach mal testweise ein (weiteres) XP neu installierst, wie verhält sich das denn?

Mit den beiden o.g. zwei eingeschalteten VMs habe ich testweise eine frische XP-VM aufgesetzt. Performance einwandfrei. Schalte ich weitere VMs ein, geht auch in der Neuinstallation die Performance runter.

Ich würde mal folgendes testen.
Starte zuerst mal nur eine VM, damit sollte die Performance ja noch ok sein.
Kopiere dann eine größere Datei von dieser VM auf einen anderen Client übers Netzwerk und beobachte die Performance Statistiken und die benötigte Zeit.
Starte danach eine zweite VM und kopiere die gleiche Datei von VM1 nach VM2.

Sollten die Zeiten nicht grob voneinander abweichen sind die Platten noch nicht ausgelastet.

Habe ich probiert. Eine VM angeschaltet.
Gesamtfestplattennutzung auf dem System nach dem Start der VM: 113 kbit/s

4,1 GB-Datei vom NAS auf die VM kopiert: 4 Min 35 Sek. bei max. 35.000 kbit/s Gesamtsystemnutzung.

Zweite VM gestartet. Gesamtfestplattennutzung: 1.541 kbit/s

Selbe Datei von VM1 auf VM2 über Netzwerkfreigabe kopiert: 3 Min 58 Sek bei max. 56.500 kbit/s

Dann habe ich nach und nach alle VMs gestartet.
Und siehe da: Alle VMs laufen einwandfrei...... warum?

Die Festplattennutzung liegt momentan bei max. 20.000 kbit/s.
Muss ich das verstehen?!?

Nochmal:
- Alle VMs mit Zeitverzögerung gestartet -> lahmt
- Alle VMs bis auf zwei heruntergefahren
- Nacheinander gestartet, Malwarebytes laufen lassen (ohne Virenfund), runterfahren
- Kopiertest auf 1-2VMs gemacht und den Controller mal etwas angeheizt
- Alle VMs mit Zeitverzögerung gestartet -> Alles einwandfrei

Muss der Controller erstmal warm werden?!? Ist jetzt nicht erst gemeint....

Ich kann mir das Verhalten beim besten Willen nicht erklären.
Habt Ihr eine Idee?

Liebe Grüße
CmdrChakotay

Beitragvon **Dayworker** » 04.08.2013, 22:56

Bei 10 VMs belegst du einfach noch immer zuviele Kerne. Ändere bitte testweise alle Dualcore- zu Singlecore-VMs. Dann steigen die Chancen auf einen freien Kern und damit Ausführung einer VM. Eine VMware-VM wird bekanntlich nur ausgeführt, wenn die für die VM eingestellte vCPU-Anzahl auch frei ist oder eine VM beim RR genügend oft mangels freier Kerne übergangen wurde und der dafür eingestrichene Bonus hoch genug für deren einmalige Ausführung ist.
Meine persönliche Erfahrung mit Dualchannel-Speicherinterfaces ist, nicht mehr als 4 VMs pro CPU-Kern laufen zu lassen und auch beim vRAM sachlich zu bleiben. Bei XP-VMs mit 3GB RAM dürfte der Bogen bereits reichlich gespannt sein. Bei DDR3-1333 bzw PC3-10600 stehen dir nur 21.2GB/s und bei DDR3-1600 bzw PC3-12800 zumindest 25.6GB/s Speicherbandbreite zur Verfügung. Da VMs zur Laufzeit auch dank ASLR (Address space layout randomization) durch den geamten RAM rauschen, wird in meinen Augen die Speicherbandbreite nach der IO-Schreibleistung zum zweitwichtigsten Begrenzer der Anzahl laufender VMs. Dazu kommt, daß die Packungsdichte vieler Server die RAM-Temperaturen noch stärker ansteigen läßt und dadurch der RAM-Durchsatz sinkt. Dieses Verhalten war aber bereits bei SDRAM zu beobachten gewesen.

CmdrChakotay · Beitragvon **CmdrChakotay** » 05.08.2013, 12:24

Bei 10 VMs belegst du einfach noch immer zuviele Kerne.
Meine persönliche Erfahrung mit Dualchannel-Speicherinterfaces ist, nicht mehr als 4 VMs pro CPU-Kern laufen zu lassen und auch beim vRAM sachlich zu bleiben

Deiner Erfahrung nach, könnten wir auf dem Host also 16 VMs laufen lassen (4 Kerne x 4 VMs = 16 VMs). Wir haben allerings nur 10 VMs mit insgesamt 12 Kernen laufen (8x 1 Kern, 2x 2 Kerne). Ergibt eine Ratio von 1:3, bei der es normalerweise keine Probleme geben sollte.

Das ist auf den zwei Maschinen mit 2 Kernen auch notwendig, da hier Anwendungen laufen, die teilweise entsprechende Ressourcen benötigen. Gleiches gilt für die 3 GB vRAM auf den zwei Maschinen.

Insgesamt hatten wir bisher 16 GB physischen Arbeitsspeicher, wovon auf die VMs lediglich 14 GB virtuell verteilt waren (8x 1GB + 2x 3 GB).... sollte doch in Ordnung sein.
Erst nach den Performance-Problemen haben wir testweise den RAM auf 2 GB bei den 8 Maschinen erhöht. Aber auch dass sollte doch noch in Ordnung sein: 16 GB physisch -> 22 GB virtuell (8x2 + 2x3 GB). Der aktiv genutzte Speicher liegt momentan im Normalbetrieb bei lediglich 5 GB summiert auf dem Host.

Dazu kommt, daß die Packungsdichte vieler Server die RAM-Temperaturen noch stärker ansteigen läßt und dadurch der RAM-Durchsatz sinkt.

Das wäre vielleicht ein Ansatz. In den letzten Wochen ist es sehr heiß geworden.... kann es sein, dass der RAM durch Überhitzung einen Schaden erlitten hat?

Ich konnte das Pronlem gerade live miterleben.
Bis gerade eben (11:27 Uhr) lief im Normalbetrieb wieder alles in Ordnung....
Alle VMs waren gestartet und wurden seit ca. 8.30 Uhr genutzt.

Die Festplattennutzung (Schreiben-/Lesen) lag bis dahin bei 15.000 - 20.000 kbit/s und die Gesamt-CPU-Last bei 80-90%, aktiver RAM 5 GB.

Ab 11:27 Uhr gingen alle VMs in die Knie. Eine E-Mail zu öffnen dauert z.B. 2-3 Minuten.
Die Festplattennutzung ist auf ca. 6.000 kbit/s und die CPU-Last auf ca. 50% gesunken. Der aktive Arbeitsspeicher hat sich nicht merklich geändert. Die %RDY-Werte einzelner VMs sind von 0,x% auf 2-13% gestiegen.

Auf keiner der VMs sind sichtlich größere Prozesse am laufen, die das Verhalten erklären könnten.

Werde mir jetzt jede VM genauer vornehmen... bei der Arbeitsgeschwindigkeit wird das eine Weile dauern.....

Bin für jeden Tipp dankbar.

Grüße
CmdrChakotay

MarcelMertens · Beitragvon **MarcelMertens** » 05.08.2013, 13:01

Was sagt die Disk Latency (GAVG)?

CmdrChakotay · Beitragvon **CmdrChakotay** » 05.08.2013, 13:14

Was sagt die Disk Latency (GAVG)?

Im vcenter liegt die 1-Stunden-Durchschnitts-Latenz der Festplatte bei 62,66ms für Lese und 44,22ms für Schreibvorgänge.

Über esxtop bekomme ich bei GAVG/cmd aktuell einen Wert von 14-80ms

Vorherige Werte, als alles noch lief, habe ich leider nicht.
Werden die irgendwo automatisch mitgeloggt?

Gruß
CmdrChakotay

CmdrChakotay · Beitragvon **CmdrChakotay** » 05.08.2013, 16:13

So, neuen RAM bestellt. Kann man ja immer gebrauchen :-)

Werde mal morgen Abend austauschen und schauen, ob es dann rund läuft.

Grüße
CmdrChakotay

Supi · Beitragvon **Supi** » 05.08.2013, 18:10

und gleich den E3-1220 durch nen E3-1230 ersetzen? Auf die 200€ wirds da auch nicht drauf ankommen. Amazon liefert next day :-)

Beitragvon **Dayworker** » 05.08.2013, 18:37

@CmdrChakotay
Der RAM wird nicht defekt sondern nur stärker erwärmt sein. Demzufolge wird dir das in kürzester Zeit auch mit dem neuen RAM passieren und auch wenn OMSA alles okay meldet, solltest du dir mal die Innentemperatur und Lüfterdrehzahl genauer ansehen.

Habt ihr wirklich Dualcore- oder DualCPU-VMs konfiguriert?
Meine Hoffnung ist, daß sich mit Dualcore der Koheränzsaufwand zwischen den Kernen in Grenzen hält und durch die CPU bei aktiver HW-Virtualisierung mit bearbeitet werden kann. Wenn ihr die VMs als Dual-CPU konfiguriert habt, wird die Kohärenz zwischen beiden Singlecore-Sockeln in SW durch die CPU geleistet. Das belastet den RAM-Durchsatz zusätzlich.

Auch nicht vergessen werden darf bei der ganzen Sache, daß VMware-Virtualisierung auch bedeutet, daß der virtuelle Plattenkontroller in SW abgebildet wird. Der Datenträger-IO-Durchsatz ist also stark von der Gast-/Hostauslastung abhängig und wenn der RAM aufgrund zu hoher Temperaturen einen Schritt zurückschaltet, fällt das auf einem Dualchannel-Chipsatz noch eher als mit Tripple- oder Quadchannel auf.
In meinen Augen ist mit deinem RAM alles in Ordnung. Er arbeitet innerhalb seiner normalen Parameter und mehr RAM wird dir bei deinem Problem sicherlich auch nicht helfen. Je nach verbauten Chipsatz könnte die RAM-Geschwindigkeit sogar noch sinken, da bei RAM-Vollausbau meist nicht mehr die maximale RAM-Geschwindigkeit gefahren werden kann. Einige Chipsätze schalten dann von 1600 auf 1333 oder noch weiter runter.

Dein R210 ist ja mehr oder minder die 1HE-Rackversion des T110. Welche Temperaturen und Lüfterdrehzahlen werden dir den in OMSA angezeigt?

CmdrChakotay · Beitragvon **CmdrChakotay** » 06.08.2013, 12:47

Der RAM wird nicht defekt sondern nur stärker erwärmt sein. Demzufolge wird dir das in kürzester Zeit auch mit dem neuen RAM passieren und auch wenn OMSA alles okay meldet, solltest du dir mal die Innentemperatur und Lüfterdrehzahl genauer ansehen.

Die Temperatur liegt bei 32°C und alle drei Lüfter laufen bei 6.900-7.200 Umdrehungen.

Habt ihr wirklich Dualcore- oder DualCPU-VMs konfiguriert?

Die VMs mit mehreren Kernen sind im vcenter folgendermassen konfiguriert:
"Anzahl der viertuellen Prozessoren: 2"

In der Leistungsübersicht werden dann auch 6 GHz (2 Kerne á 3 GHz) angezeigt.

Sorry für die Frage, aber was ist der Unterschied zwischen DualCore und DualCPU?
Wo kann man das konfigurieren?

Den neuen RAM werde ich heute Abend verbauen.
Wenn das auch nichts hilft, verteile ich die VMs gleichmäßig auf beide Server.

Aber nochmal: Ich verstehe nicht, warum die Performance von heute auf morgen eingebrochen ist.....

Liebe Grüße
CmdrChakotay

CmdrChakotay · Beitragvon **CmdrChakotay** » 06.08.2013, 14:09

Komme der Sache wohl langsam näher.

Auch heute lief alles bis ca. 11:40 Uhr einwandfrei. Ab diesem Zeitpunkt auf einmal alles wesentlich langsamer, CPU-Last von 70 auf 50% und Festplattenutzung von ca. 18.000 auf nur noch 6.000 kbit/s. Keine auffälligen Prozesse auf den VMs.

vcenter zeigt System Board 1 Ambient Temp von 32°C an.
Alle drei Lüfter auf 6.960-7.200 rpm.

Habe mal die Umgebungstemperatur gemessen, die im Raum bei 29°C liegt.

Wir haben ausser einem Ventilator keine aktive Kühlung im Serverschrank.
Im Sommer lassen wir auch immer die Tür offen, da das NAS Temperaturen von bis zu 46°C erreicht (was aber keine Probleme bereitet). Bei 53°C schaltet es sicherheitsbedingt automatisch ab. Kam aber noch nicht vor.

Kann es sein, dass es einfach zu heiß ist und der Prozessor, Controller oder was weis ich am Server automatisch die Leistung drosselt?

Das würde alles erklären, da das Problem erst seit 2 1/2 - 3 Wochen besteht..... und die Aussentemperaturen sind seit dem wohlbekannt hoch.....

Ich bleibe am Ball :-)

Liebe Grüße
CmdrChakotay

Supi · Beitragvon **Supi** » 06.08.2013, 14:17

hm... es könnte natürlich sein, dass der interne Temp Sensor der HDD's diese ausbremst aufgrund der Wärme.
Wenn du mal die Front-Bezel (die Klappe an dem R210) abnimmst und von vorne nen Lüfter drauf "pusten" lässt, vielleicht bekommst du ja so deine Temperaturen runter.
Wie hoch ist die interne Temperatur früh?

VMware-Forum

Kein Arbeiten möglich trotz CPU-Last von 70-80%. CPU defekt?

Kein Arbeiten möglich trotz CPU-Last von 70-80%. CPU defekt?

Re: Kein Arbeiten möglich trotz CPU-Last von 70-80%. CPU def

Wer ist online?