Da ich über Google schon einige interessante Beiträge in diesem Forum gefunden habe, habe ich mich kurzentschlossen auch mal hier registriert.
Kurze Info noch zu mir, abgeschlossene Ausbildung als Fachinformatiker für Systemintegration, 22 Jahre jung und arbeite in einem Systemhaus für diverse Kunden.
Aktuell habe ich jedoch bei einem meiner VMWare Server folgendes Problem. Sporadischer Ausfall von VM's, sprich Datenbankanwendungen der Benutzer brechen zusammen, RDP Zugriff nicht mehr möglich und selbst die ESXi Konsole tut sich schwer. Diese "Ausfälle" dauern dann ca. 10 bis 15 min. danach ist alles wieder vollkommen normal. Allerdings sind immer nur 2 der 6 VM's betroffen. Einmal ein SBS2011 und ein Server 2008 R2 mit einer Datenbank. Diese Ausfälle treten bis zu 4 mal am Tag auf, dann 4 Tage nichts und dann wieder 3x. Also kein wirkliches Muster
Meine Virtualisierungsumgebung besteht aus einem ESXi Host mit 8 physikalischen CPU Kernen - kein Hyperthreading - und 48 GB RAM. Als Storage dienen zwei lokal angebundene Raid 5 mit SAS Festplatten.
Weiterhin habe ich ca. 15 Benutzer die gleichzeitig auf den Server zugreifen. Mal mehr mal weniger. Das System steht genau in dieser Konstellation schon seit Sommer 2013 und hat nie Probleme bereitet.
Naja kommen wir zur meiner Fehlersuche...
Ich schreibe bewusst nochmal alles auf, vielleicht hilft es noch jemand anderem.
Als erstes habe ich die Gastsysteme auf eventuelle Fehler in den Ereignisslogs geprüft
-> keinerlei Meldungen bis auf Timeouts von Diensten die aufgrund der Ausfälle auftreten
-> VMWare Tools sind aktuell
-> Windows Updates i.O.
-> Keinerlei aktive Tasks in der Aufgabenplanung
-> Festplattenverbund i.O.
Danach habe ich mich dem ESXi gewidmet. Hier habe ich mir als erstes die CPU Auslastung und die CPU Ready Zeiten angeschaut -> Katastrophe!
Ich muss leider eingestehen das ich dieses System damals aufgesetzt habe, allerdings mit weniger KnowHow als heute. Weiterhin waren die vCores im Verhältnis zu den physikalischen Cores völligst überbucht. Es stand 8 Kerne zu 28 vCores.
Als erstes vermutete ich dann hier den Fehler. Ich habe die vCores massiv heruntergesetzt und damit haben sich meine CPU Ready Zeiten enorm verbessert und auch die Auslastung der CPUs ist um 25% - 30% gesunken! (wow!)
Leider trat das Problem dann wieder auf, Ausfall der Anwendungsserver VM. Diesmal habe ich den ESXi Host komplett heruntergefahren und direkt noch in der EFI Shell ein Hardwarelog für den Hersteller gezogen. Dieser attestierte mir dann das ein Netzteil Unregelmäßigenkeiten aufweist, jedoch läuft dieses noch ohne Probleme. Das Neue liegt schon auf meinem Schreibtisch und aktuell sind zwei Netzteile redundant eingebaut.
Da dies vermutlich auch nicht den Fehler beheben wird, habe ich Google nochmal bemüht. So bin ich mit meiner Suche hier im Forum gelandet wo das Thema BBU und extrem langsame VM's erwähnt wurden. Da ich wusste das der Server mit BBU ausgeliefert wurde habe ich mir selbst noch einmal das Log aus der EFI Shell zu Gemüte geführt. Mein Blick streifte hier über "BBU disabled".... Moment! Das kann so nicht stimmen. Ein erneutes Telefonat mit dem Hersteller brachte dann Klarheit, anscheinend hat sich die BBU still und klammheimlich verabschiedet... Ohne Alarm oder Meldung. Der gute Herr vom Support wurde aufgrund der Meldung "BBU disabled" auch nicht stutzig und hat anscheind den Serverschein nicht mehr aufgemacht.
So meine Frage ist nun, kann es wirklich damit zusammenhängen? Das die Festplatten nicht mehr mit dem Schreiben hinterher kommen?
Falls ja warum dauert das ganze 10-15 Minuten? Ich nehme an die Festplatten laufen in ihrem eigenen Cache voll, sagen wir das sind 16MB oder 32MB sind diese Größen nicht schnell wieder wegschrieben und der Server dürfte nicht so lange so unansprechbar sein?
Ich lasse mich gerne belehren deswegen schreibe das mal so aus was ich denke.
Wie verhält sich der ESXi in dem Ganzen? Bekommt der überhaupt was davon mit das die Festplatten nicht mehr hinterherkommen?
Bin dankbar für jede Aufklärung!