VMware-Forum

Verfasst: **17.11.2016, 16:19**

Hallo.
Ich habe ein Raid 10 mit 4 SSDs in meinem SAN (Dell MD3200 SAS).
Darauf ist eine VD mit einem DS.
Auf diesem DS liegen zwei virtuelle Festplatten.

Ich erhalte davon mehrmals pro Tag die Meldung das die Latenz um ein vielfaches gestiegen ist.
Außerdem das es eine unverwaltete I/O Last gibt. Diese VD ist nur diesem VSphere zugeordnet, zu den Zeiten läuft kein Backup und laut Dell läuft vom SAN keine Operation (Integritätsprüfung, Media Scan oder dergleichen).

Siehe Bild:
http://www.bilder-upload.eu/show.php?fi ... 395526.jpg

Laut Veeam One gibt es aber keine solchen Ausschläge auf diesem DS. Die
http://www.bilder-upload.eu/show.php?fi ... 395560.jpg
http://www.bilder-upload.eu/show.php?fi ... 395572.jpg
http://www.bilder-upload.eu/show.php?fi ... 396219.jpg
http://www.bilder-upload.eu/show.php?fi ... 396261.jpg
http://www.bilder-upload.eu/show.php?fi ... 396401.jpg

Eigentlich sind aber doch diese Übertragungsraten und I/O ziemlich wenig.

Was ich bereits gemacht habe ist sämtliche Firmwarestände zu aktualisieren, und die Raidgruppen/VDs/DS zu löschen und neu aufzusetzen.
Dann habe ich von Jörg einen anderen DEll PE R720 mit neuem SAS HBA besorgt und dem Cluster hinzugefügt. Dort gibt es die gleichen Fehler.
QFullSampleSize ist auf 32 und QFullThreshold auf 8 gemäß diesem KB http://kb.vmware.com/selfservice/micros ... Id=1008113
Weil ich genau die gleichen Meldungen habe im vmkernel log.
H:0x0 D:0x28 P:0x0 Valid sense data: 0x## 0x## 0x##
H:0x0 D:0x08 P:0x0 Valid sense data: 0x## 0x## 0x##

VmWare Support sagt es liegt am SAN. Man sehe in den Vmware Logs weiter.
Aber esxtop zeigt gelegentlich hohe DAVG Werte an.

Dell sagt man sieht keine Überlastung oder Fehler in den Logs des SAN.
Laut den SAN Logs langweilt sich das SAN bei unserer geringen Auslastung(Performance Logs wurden über längeren Zeitraum geloggt & ausgewertet).

Das Problem habe ich so auch mit anderen Datastores.

Das Beispiel mit diesem "SSD Raid10" habe ich lediglich genommen weil ich hier zu 99,9% sagen kann das es nicht an einer Überlastung liegen kann.

Vielleicht hat jemand eine Idee oder ein ähnliches Problem gehabt.

Danke

Verfasst: **17.11.2016, 19:33**

Alles, was ich dir dazu sagen kann, ist: "You can safely ignore this message."

Ich habe diese Meldungen auf einem selbst gebastelten SAN- und mehreren DAS-Datastores. Es gibt halt VM-Last-Szenarien, die diese Meldungen erzeugen. Mal ist es eine Datensicherungskopie und mal Kopieren die User heftig hin und her.

Entscheidend ist, das diese Meldungen nicht
- in immer kürzerem Zeitabständen auftreten
- mit ständig steigenden Latenzen auftreten

Verfasst: **19.11.2016, 19:14**

Kann da ins gleiche Horn tuten... Allerdings kann ich nicht bestätigen, dass in keinem Fall zu Eibnussen zu vernehmen waren. Bei VDI habe ich sobald die Meldung öfter kommt manchmal tatsächlich nen "Mini-Loch" wo die VM's etwas lahmen. Ich starte dann die VM's auf diesem Datastore allesamt durch und alles ist wieder gut. Habe aber 0 Plan woran das liege könnte. Habe es eher selten auf Magnet-Stores gesehen aber schon öfter auf SSD-Volumes.

Reproduzieren konnte ichs erst bei nem NFS-Storage beim reboot der Storage-App im laufenden Betrieb. Also NFS unter den Füssen weggezogen obwohl die VM's noch liefen. Da cached er ja die IO's bis das Storage wieder da ist. Meistens ist das 0 Problem wenn die VM's grad ned viel IO's produzieren, manchmal waren dann die VM's im Anschluss aber grottenlahm und hatten sporadisch freezes von 1-2 Sekunden. Bei den Servern ohne VDI merkte man es ned mal. Nach dem durchstarten der VM's war alles wieder gut.

Allerdings hast bei SAS ja immer Verbindung zum Storage. Insofern strange.

Nur ein Schuss ins Blaue: Vielleicht wirft der ESXi ja irgendwelche Kontrollmechanismen an wenn die Latenz über ein übliches Mass von einem Volume geht. Bei SSD durchaus möglich wenn ein paar mal hintereinander die Latenz bei einer Platte etwas höher angesiedelt ist und so die Gesamtlatenz mehrere IO's hintereinander deutlich höher als üblich ist. Oft geht ja der SSD-Kram nicht erst über den RAM-Cache der RAID-Controller sondern direkt auf die Platten. Nachher kriegt er sich dann vielleicht nimmer richtig ein. Völlige Spekulation aber an irgendwas muss es ja liegen.

Verfasst: **19.11.2016, 20:08**

Danke für eure Beobachtungen. Wie gesagt ich weiss auch nicht was ich davon halten soll.
Glaube aber eher schon das es ein Hinweis auf ein Problem ist.

VMware-Forum

Veeam One / SSD DS / Latenzwarnungen

Veeam One / SSD DS / Latenzwarnungen

Re: Veeam One / SSD DS / Latenzwarnungen

Re: Veeam One / SSD DS / Latenzwarnungen

Re: Veeam One / SSD DS / Latenzwarnungen