Veeam One / SSD DS / Latenzwarnungen
Verfasst: 17.11.2016, 16:19
Hallo.
Ich habe ein Raid 10 mit 4 SSDs in meinem SAN (Dell MD3200 SAS).
Darauf ist eine VD mit einem DS.
Auf diesem DS liegen zwei virtuelle Festplatten.
Ich erhalte davon mehrmals pro Tag die Meldung das die Latenz um ein vielfaches gestiegen ist.
Außerdem das es eine unverwaltete I/O Last gibt. Diese VD ist nur diesem VSphere zugeordnet, zu den Zeiten läuft kein Backup und laut Dell läuft vom SAN keine Operation (Integritätsprüfung, Media Scan oder dergleichen).
Siehe Bild:
http://www.bilder-upload.eu/show.php?fi ... 395526.jpg
Laut Veeam One gibt es aber keine solchen Ausschläge auf diesem DS. Die
http://www.bilder-upload.eu/show.php?fi ... 395560.jpg
http://www.bilder-upload.eu/show.php?fi ... 395572.jpg
http://www.bilder-upload.eu/show.php?fi ... 396219.jpg
http://www.bilder-upload.eu/show.php?fi ... 396261.jpg
http://www.bilder-upload.eu/show.php?fi ... 396401.jpg
Eigentlich sind aber doch diese Übertragungsraten und I/O ziemlich wenig.
Was ich bereits gemacht habe ist sämtliche Firmwarestände zu aktualisieren, und die Raidgruppen/VDs/DS zu löschen und neu aufzusetzen.
Dann habe ich von Jörg einen anderen DEll PE R720 mit neuem SAS HBA besorgt und dem Cluster hinzugefügt. Dort gibt es die gleichen Fehler.
QFullSampleSize ist auf 32 und QFullThreshold auf 8 gemäß diesem KB http://kb.vmware.com/selfservice/micros ... Id=1008113
Weil ich genau die gleichen Meldungen habe im vmkernel log.
H:0x0 D:0x28 P:0x0 Valid sense data: 0x## 0x## 0x##
H:0x0 D:0x08 P:0x0 Valid sense data: 0x## 0x## 0x##
VmWare Support sagt es liegt am SAN. Man sehe in den Vmware Logs weiter.
Aber esxtop zeigt gelegentlich hohe DAVG Werte an.
Dell sagt man sieht keine Überlastung oder Fehler in den Logs des SAN.
Laut den SAN Logs langweilt sich das SAN bei unserer geringen Auslastung(Performance Logs wurden über längeren Zeitraum geloggt & ausgewertet).
Das Problem habe ich so auch mit anderen Datastores.
Das Beispiel mit diesem "SSD Raid10" habe ich lediglich genommen weil ich hier zu 99,9% sagen kann das es nicht an einer Überlastung liegen kann.
Vielleicht hat jemand eine Idee oder ein ähnliches Problem gehabt.
Danke
Ich habe ein Raid 10 mit 4 SSDs in meinem SAN (Dell MD3200 SAS).
Darauf ist eine VD mit einem DS.
Auf diesem DS liegen zwei virtuelle Festplatten.
Ich erhalte davon mehrmals pro Tag die Meldung das die Latenz um ein vielfaches gestiegen ist.
Außerdem das es eine unverwaltete I/O Last gibt. Diese VD ist nur diesem VSphere zugeordnet, zu den Zeiten läuft kein Backup und laut Dell läuft vom SAN keine Operation (Integritätsprüfung, Media Scan oder dergleichen).
Siehe Bild:
http://www.bilder-upload.eu/show.php?fi ... 395526.jpg
Laut Veeam One gibt es aber keine solchen Ausschläge auf diesem DS. Die
http://www.bilder-upload.eu/show.php?fi ... 395560.jpg
http://www.bilder-upload.eu/show.php?fi ... 395572.jpg
http://www.bilder-upload.eu/show.php?fi ... 396219.jpg
http://www.bilder-upload.eu/show.php?fi ... 396261.jpg
http://www.bilder-upload.eu/show.php?fi ... 396401.jpg
Eigentlich sind aber doch diese Übertragungsraten und I/O ziemlich wenig.
Was ich bereits gemacht habe ist sämtliche Firmwarestände zu aktualisieren, und die Raidgruppen/VDs/DS zu löschen und neu aufzusetzen.
Dann habe ich von Jörg einen anderen DEll PE R720 mit neuem SAS HBA besorgt und dem Cluster hinzugefügt. Dort gibt es die gleichen Fehler.
QFullSampleSize ist auf 32 und QFullThreshold auf 8 gemäß diesem KB http://kb.vmware.com/selfservice/micros ... Id=1008113
Weil ich genau die gleichen Meldungen habe im vmkernel log.
H:0x0 D:0x28 P:0x0 Valid sense data: 0x## 0x## 0x##
H:0x0 D:0x08 P:0x0 Valid sense data: 0x## 0x## 0x##
VmWare Support sagt es liegt am SAN. Man sehe in den Vmware Logs weiter.
Aber esxtop zeigt gelegentlich hohe DAVG Werte an.
Dell sagt man sieht keine Überlastung oder Fehler in den Logs des SAN.
Laut den SAN Logs langweilt sich das SAN bei unserer geringen Auslastung(Performance Logs wurden über längeren Zeitraum geloggt & ausgewertet).
Das Problem habe ich so auch mit anderen Datastores.
Das Beispiel mit diesem "SSD Raid10" habe ich lediglich genommen weil ich hier zu 99,9% sagen kann das es nicht an einer Überlastung liegen kann.
Vielleicht hat jemand eine Idee oder ein ähnliches Problem gehabt.
Danke