Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!

ESXi 5.5 / VM's brechen sporadisch zusammen

Moderatoren: Dayworker, irix

Member
Beiträge: 8
Registriert: 07.02.2015, 19:14

ESXi 5.5 / VM's brechen sporadisch zusammen

Beitragvon semperf1delis » 07.02.2015, 20:04

Hallo zusammen,

Da ich über Google schon einige interessante Beiträge in diesem Forum gefunden habe, habe ich mich kurzentschlossen auch mal hier registriert.
Kurze Info noch zu mir, abgeschlossene Ausbildung als Fachinformatiker für Systemintegration, 22 Jahre jung und arbeite in einem Systemhaus für diverse Kunden.

Aktuell habe ich jedoch bei einem meiner VMWare Server folgendes Problem. Sporadischer Ausfall von VM's, sprich Datenbankanwendungen der Benutzer brechen zusammen, RDP Zugriff nicht mehr möglich und selbst die ESXi Konsole tut sich schwer. Diese "Ausfälle" dauern dann ca. 10 bis 15 min. danach ist alles wieder vollkommen normal. Allerdings sind immer nur 2 der 6 VM's betroffen. Einmal ein SBS2011 und ein Server 2008 R2 mit einer Datenbank. Diese Ausfälle treten bis zu 4 mal am Tag auf, dann 4 Tage nichts und dann wieder 3x. Also kein wirkliches Muster

Meine Virtualisierungsumgebung besteht aus einem ESXi Host mit 8 physikalischen CPU Kernen - kein Hyperthreading - und 48 GB RAM. Als Storage dienen zwei lokal angebundene Raid 5 mit SAS Festplatten.
Weiterhin habe ich ca. 15 Benutzer die gleichzeitig auf den Server zugreifen. Mal mehr mal weniger. Das System steht genau in dieser Konstellation schon seit Sommer 2013 und hat nie Probleme bereitet.

Naja kommen wir zur meiner Fehlersuche...
Ich schreibe bewusst nochmal alles auf, vielleicht hilft es noch jemand anderem. :)

Als erstes habe ich die Gastsysteme auf eventuelle Fehler in den Ereignisslogs geprüft
-> keinerlei Meldungen bis auf Timeouts von Diensten die aufgrund der Ausfälle auftreten
-> VMWare Tools sind aktuell
-> Windows Updates i.O.
-> Keinerlei aktive Tasks in der Aufgabenplanung
-> Festplattenverbund i.O.

Danach habe ich mich dem ESXi gewidmet. Hier habe ich mir als erstes die CPU Auslastung und die CPU Ready Zeiten angeschaut -> Katastrophe!
Ich muss leider eingestehen das ich dieses System damals aufgesetzt habe, allerdings mit weniger KnowHow als heute. Weiterhin waren die vCores im Verhältnis zu den physikalischen Cores völligst überbucht. Es stand 8 Kerne zu 28 vCores.

Als erstes vermutete ich dann hier den Fehler. Ich habe die vCores massiv heruntergesetzt und damit haben sich meine CPU Ready Zeiten enorm verbessert und auch die Auslastung der CPUs ist um 25% - 30% gesunken! (wow!)
Leider trat das Problem dann wieder auf, Ausfall der Anwendungsserver VM. Diesmal habe ich den ESXi Host komplett heruntergefahren und direkt noch in der EFI Shell ein Hardwarelog für den Hersteller gezogen. Dieser attestierte mir dann das ein Netzteil Unregelmäßigenkeiten aufweist, jedoch läuft dieses noch ohne Probleme. Das Neue liegt schon auf meinem Schreibtisch und aktuell sind zwei Netzteile redundant eingebaut.


Da dies vermutlich auch nicht den Fehler beheben wird, habe ich Google nochmal bemüht. So bin ich mit meiner Suche hier im Forum gelandet wo das Thema BBU und extrem langsame VM's erwähnt wurden. Da ich wusste das der Server mit BBU ausgeliefert wurde habe ich mir selbst noch einmal das Log aus der EFI Shell zu Gemüte geführt. Mein Blick streifte hier über "BBU disabled".... Moment! Das kann so nicht stimmen. Ein erneutes Telefonat mit dem Hersteller brachte dann Klarheit, anscheinend hat sich die BBU still und klammheimlich verabschiedet... Ohne Alarm oder Meldung. Der gute Herr vom Support wurde aufgrund der Meldung "BBU disabled" auch nicht stutzig und hat anscheind den Serverschein nicht mehr aufgemacht.


So meine Frage ist nun, kann es wirklich damit zusammenhängen? Das die Festplatten nicht mehr mit dem Schreiben hinterher kommen?

Falls ja warum dauert das ganze 10-15 Minuten? Ich nehme an die Festplatten laufen in ihrem eigenen Cache voll, sagen wir das sind 16MB oder 32MB sind diese Größen nicht schnell wieder wegschrieben und der Server dürfte nicht so lange so unansprechbar sein?
Ich lasse mich gerne belehren deswegen schreibe das mal so aus was ich denke. :)

Wie verhält sich der ESXi in dem Ganzen? Bekommt der überhaupt was davon mit das die Festplatten nicht mehr hinterherkommen?

Bin dankbar für jede Aufklärung! 8)

Experte
Beiträge: 1337
Registriert: 25.04.2009, 11:17
Wohnort: Thüringen

Beitragvon Supi » 07.02.2015, 20:15

Hallo "unbekannt",

du hast so viel geschrieben aber wiederum auch nicht das wesentliche:

ggf liegt es ja schon nur an einem E1000 NW Adapter und einem ESXI ohne aktuellen Patch?

---

Wenn nein, dann brauchen wir genauere Infos:

Also: Welche HW Genau: Hersteller, Typ, Ausstattung. Die zwei Raid-5 bestehen aus genau wievielen Platten? An welchem Controller?

die 6 VM's sind genau wie konfiguriert? (also vcpu und vram)? Und außer den genannten laufen welche vm's?
Wie greifen denn die 15 User drauf zu?



Du schreibst was von Azubi: Was sagt denn der Ausbilder zu dem Problem? Denn die Kunden haben ja nicht ein Testsystem gekauft, an dem der Azubi "lernt". Der zahlende Kunde will ein fehlerfrei laufendes System.

Member
Beiträge: 8
Registriert: 07.02.2015, 19:14

Beitragvon semperf1delis » 07.02.2015, 20:40

Du schreibst was von Azubi: Was sagt den der Ausbilder zu dem Problem? Denn die Kunden haben ja nicht ein Testsystem gekauft, an dem der Azubi "lernt". Der zahlende Kunde will ein fehlerfrei laufendes System.


Nein kein Azubi. Ich besitze eine abgeschlossene Ausbildung als Fachinformatiker für Systemintegration. Dein Text hört sich etwas schon etwas beleidigend an. In der heutigen Zeit kann man vor allem als Systemhaus nicht mehr auf jeder Hochzeit perfekt tanzen. Noch dazu habe ich geschrieben das das System seit 2013 (von mir eingerichtet) OHNE Probleme läuft und ich jetzt die BBU in Verdacht habe. Außerdem ist der "zahlende" Kunde sehr zufrieden mit meiner Arbeit... Das aber nur am Rande.

du hast so viel geschrieben aber wiederum auch nicht das wesentliche:

Entschuldige das ich in meinem Anfangsthread noch nicht alles komplett und ich mich hier gerade erst registriert habe.
Wenn ich schon freundlich um Hilfe frage kannst du auch freundlich antworten oder? :)


2x Intel E5-2609
1x LSI MegaRAID 9271-8i 1GB Cache + BBU
1x Raid 5 mit 3x 600GB SAS 10k RPM
1x Raid 5 mit 2x 300GB SAS + 2x 147GB SAS ( ich weiß das dann Speicherplatz wegfällt allerdings waren diese Platten über)

Die Benutzer greifen über 3 NIC auf die einzelnen VM's zu.

VM1 2 vCores 4GB RAM
VM2 4 vCores 4GB RAM
VM3 4 vCores 20GB RAM
VM4 2 vCores 16GB RAM
VM5 2 vCores 4GB RAM
VM6 4 vCores und 6GB RAM

Alle VM's sind über VMXNET3 angebunden.

King of the Hill
Beiträge: 13063
Registriert: 02.08.2008, 15:06
Wohnort: Hannover/Wuerzburg
Kontaktdaten:

Beitragvon irix » 07.02.2015, 21:07

- Alle Stromsparoptionen im BIOS ausschalten
- Laufen zu Zeiten der "Unterbrechungen" irgendwelche Snapshots bzw. Sicherungs- oder Replizierungsprogramme?
- E-Mail Benachrichtigung fuer die Hardware aktivieren und auf "verbose" stellen. Dann gibts z.B ne Mail wenn der RAID Controller auf WriteThrough geht wenn er sein Battery Learn Cycle macht

Gruss
Joerg

Experte
Beiträge: 1006
Registriert: 30.10.2004, 12:41

Beitragvon mbreidenbach » 07.02.2015, 21:17

RAID 5 ist beim sequentiellen Schreiben ziemlich lahm und ohne Schreibcache erst recht.

Summe des Hauptspeichers der VMs ist > Hauptspeicher des ESXi. Sicher kann da der ESXi mit transparent page sharing, balloning etc noch was rausholen. Hier würde ich erstmal checken ob der ESXi swappt. Das käme zusammen mit RAID 5 ohne Schreibcache ganz besonders toll.

Liegen die VMs die gleichzeitig 'hängen' auf demselben Datastore bzw derselben RAIDgruppe ?

Guru
Beiträge: 2770
Registriert: 23.02.2012, 12:26

Beitragvon ~thc » 07.02.2015, 21:27

18 vCPUs auf einem physischen Achtkerner kann man natürlich fahren, aber ohne genaue "esxtop"-Werte können wir nicht beurteilen, ob das in deiner Konstellation immer noch ein Problem ist.

Experte
Beiträge: 1337
Registriert: 25.04.2009, 11:17
Wohnort: Thüringen

Beitragvon Supi » 07.02.2015, 21:27

semperf1delis hat geschrieben:Nein kein Azubi. Ich besitze eine abgeschlossene Ausbildung als Fachinformatiker für Systemintegration. Dein Text hört sich etwas schon etwas beleidigend an

...
Wenn ich schon freundlich um Hilfe frage kannst du auch freundlich antworten oder? :)
.


Das mit dem Azubi hab ich wirklich falsch gelesen, also sorry. Der Rest war aber im freundlichen, aber bestimmten Ton, da deine Ausführungen zu allgemein ohne genauere Hintergründe waren.

Vielleicht liegt es schon daran, dass du das letzte ESXi Update eingespielt hast, womit TPS (default) inaktiv ist:
http://kb.vmware.com/selfservice/micros ... Id=2091682

Aber ansonsten, auch die 4 Kerner auf 2 vcpu umstellen. zu wenig cpu's für zu viele virtuelle 4kerner!. Haben von vm 2,3 und 6 jeweils zwei richtig was zu tun bleibt nix mehr über. und die CPU's werden immer reserviert.

King of the Hill
Beiträge: 13063
Registriert: 02.08.2008, 15:06
Wohnort: Hannover/Wuerzburg
Kontaktdaten:

Beitragvon irix » 07.02.2015, 22:03

Wenn die BBU inaktiv ist dann ist keinerlei Cache vorhanden und ich gehe mal davon aus das sowohl im GuestOS und auch im esxtop die Disk IO Warteschlange stark angestiegen ist. Ein guter RAID Controller deaktiviert den Plattencache (kann man aber bei bestimmen Modellen wieder aktivieren)

Des weiteren sind natuerlich RAID5 mit 2 bzw. 3 Spindeln auch nicht wirklich viel.

Gruss
Joerg

Member
Beiträge: 8
Registriert: 07.02.2015, 19:14

Beitragvon semperf1delis » 08.02.2015, 12:26

Guten Morgen zusammen :) ,
Also mal der Reihe nach:

@ irix
- Keine Stromsparoptionen eingeschaltet
- Es laufen keine Sicherungen oder anderen Tasks -> die Probleme treten z.B. 4x an einem Freitag auf und 2x an einem Mittwoch auf. Oder auch Donnerstag oder Dienstag. Total sporadisch.
- Das mit der Emailbenachrichtung muss ich mir mal anschauen.

@mbreidenbach
- das Raid 5 wird in Zukunft sehr wahrscheinlich abgeschafft das aber noch unabhängig von diesem Problem.
- die betroffenen 2 VMs liegen auf unterschiedlichen Raidgruppen.

Wo kann ich prüfen ob der ESXi swappt?

@thc
- Ja da stimme ich dir zu, ich werde Montag versuchen die vCores noch weiter runterzusetzen. esxtop werte? Oder meinst du jetzt die CPU Ready Zeiten? diese pendeln beim SBS2011 und Server 2008R2 bei 200-300ms. Ab 1000ms soll es kritisch werden hatte ich gelesen und die waren vor der Anpassung der vCores ganz locker drin. Wie gesagt es waren vorher 28 vCores. Alle anderen Maschinen haben 100ms oder weniger.


@Supi
Ok dann habe ich das wohl ein bisschen falsch aufgefasst :)
Das mit dem TPS schaue ich mir gerade mal an und die Kerne wie grade schon geschrieben werde ich versuchen noch weiter runterzuschrauben.

@irix
Danke für so Infos! :o Das der Plattencache dann komplett ausgeschaltet wurde wusste ich noch nicht. Wo kann ich die I/O Warteschlange einsehen? Ja die Platten werden vermutlich auf zwei Raid 10 mit insgesamt 8 Platten aufgerüstet á 900 GB SAS.

Gruß

Guru
Beiträge: 2770
Registriert: 23.02.2012, 12:26

Beitragvon ~thc » 08.02.2015, 18:29

semperf1delis hat geschrieben:Ja da stimme ich dir zu, ich werde Montag versuchen die vCores noch weiter runterzusetzen. esxtop werte? Oder meinst du jetzt die CPU Ready Zeiten? diese pendeln beim SBS2011 und Server 2008R2 bei 200-300ms. Ab 1000ms soll es kritisch werden hatte ich gelesen und die waren vor der Anpassung der vCores ganz locker drin. Wie gesagt es waren vorher 28 vCores. Alle anderen Maschinen haben 100ms oder weniger.

Das Problem ist, das eine Überbuchung der CPUs nur in Lastsituationen zu Engpässen führt - wenn also die Server in den Ausfallzeiten viel CPU-Power ziehen, dann sind die Werte (Ready und Co-Stop) natürlich auch nur in dieser Zeit dramatisch schlecht.

Es ist vermutlich einfacher, alle VMs zusammen auf maximal 7 vCPUs runter zu setzen und zu schauen, ob die Einbrüche ausbleiben.

Experte
Beiträge: 1337
Registriert: 25.04.2009, 11:17
Wohnort: Thüringen

Beitragvon Supi » 08.02.2015, 18:45

Ich schließe mich thc an. Du musst noch mehr runter schrauben.

Gib doch mal noch genauere Infos, welche VM's das außer dem DB Server (welche DB) und dem SBS sind?

4vcpu und 4GB Ram passen eigentlich nicht zusammen.

Nur so als Beispiel: bei mir hat einzig der Exchange 2013 4cpu, aber auch nur weil der parallele Mailstore Server + AV Lösung so viel CPU braucht.
Selbst die Oracle DB des ERP System bekommt für 20 User nur 2vcpu und langweilt sich zumeist.

Grundsätzlich wird es wohl aber eher an der BBU liegen. Da ist auch nichts mit swappen des ESX, da wartet der Server einfach ewig, dass die Daten fertig geschrieben werden.

Ich mutmaße, dass da doch eine User irgendwelche Auswertungen oder sonstiges fährt. Bei 15 Usern sollte das doch eingrenzbar sein?

Am besten auch die Überwachung des LSI installieren:

http://www.lsi.com/products/raid-contro ... x#tab/tab4

FW update gibts auch von 01/2015.

VMWARE SMIS Provider
https://www.thomas-krenn.com/de/wiki/LS ... Cberwachen

Member
Beiträge: 8
Registriert: 07.02.2015, 19:14

Beitragvon semperf1delis » 17.02.2015, 15:29

Hallo zusammen,

entschuldigt die verspätete Antwort aber hatte einiges zutun in der letzten Zeit.
BBU ist nun seit dem 10.02 ersetzt und bis jetzt scheint wieder alles in Butter zu sein. Keiner der Mitarbeiter klagt mehr über Geschwindigkeitsprobleme. :)

Der DB Server hat eine SQL 2008er Datenbank (2vCores) und auf dem SBS (4vCores)läuft noch eine FastObjects Datenbank für die Warenwirtschaft.
Ansonsten habe ich die vCPUs soweit reduziert wie möglich.

VM1 2vCores
VM2 1vCores
VM5 2vCores
VM6 4vCores

LSI Raid Manager habe ich installiert inklusive SMIS Provider.

Anbei nochmal ein Screenshot von der aktuellen Auslastung auf dem ESXI.
EDIT : Attachment kann nicht hinzugefügt werden, da die maximale Anzahl von 0 Attachments in dieser Nachricht erreicht wurde
Schade!?

Experte
Beiträge: 1337
Registriert: 25.04.2009, 11:17
Wohnort: Thüringen

Beitragvon Supi » 17.02.2015, 18:20

Wer hier häufiger dabei ist, kennt die Attachement Problematik. Auf abload oder imageshack hochladen und gut ist.
Schön, wenn es jetzt wieder ordentlich läuft.
Dein Feedback ist auch eine gute Bestätigung für den User mit dem Fujitsu Server, der zwar einen Raidcontroller mit 512MB Cache gewählt hat, nur leider ein Modell ohne BBU. Und jetzt hat er den (Performance)-Salat.


Zurück zu „vSphere 5.5 / ESXi 5.5“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 14 Gäste