Hohe Latenzen bei Datenübertragung von einem RAID zum anderen
Verfasst: 03.08.2017, 15:35
Hallo Forengemeinde,
ich habe ein größeres Problem und hoffe, dass sich möglicherweise hier jemand findet, der etwas weiterhelfen kann.
Es geht um einen recht neuen ESX 6.5-Server. Der ESX läuft auf einer kleinen 16GB-SSD.
Dazu kommt ein RAID6 mit 6 HDDs und ein RAID1 mit SSDs für die VMs. Die Platten hängen an einem LSI Megaraid 9361-4i.
Aufgekommen ist das Problem mit der ersten Sicherung der VMs, die auf der SSD liegen. Die Appliance von Acronis liegt auf dem HDD-Raid.
Während der Sicherung ist es zu extremen Latenzen auf den RAIDS gekommen, wo sämtliche VMs kaum mehr ansprechbar waren.
Wenn die Acronis-VA abgeschossen wird, scheint alles wieder zu passen.
Inzwischen konnten wir das Problem auch recht gut eingrenzen. Es reicht bereits eine Datenübertragung vom SSD-Raid auf das HDD-Raid aus um den Fehler zu reproduzieren. Datenübertragung von HDD auf SSD dagegen erzeugt den Fehler nicht.
Im Anhang habe ich einen Screenshot von esxtop hinzugefügt.
Was mich auch etwas verwundert, ist die zusätzliche Disk ganz oben. Diese ist so nicht existent und wird als Local LSI Enclosure Svc Dev erkannt.
In der vmkernel.log wird zudem quasi sekündlich folgende Meldung abgegeben :
lsi_mr3: megasas_hotplug_work:258: event code: 0x71.
Leider habe ich zu dem Code nichts finden können.
Hin und wieder sind auch ein paar SCSI-Fehlercodes zu sehen.
Soweit ich das beurteilen kann, deuten diese aber nur auf das Problem, nicht aber auf die Ursache hin (H:0x2 und selten auch D:0x2).
Dazusagen muss ich noch, dass die SSDs Anfangs nicht als SSD erkannt worden sind und ich mit dem Befehl "esxcli storage nmp satp rule add" das RAID als SSD markiert habe.
Für sämtliche Tipps, die uns in die richtige Richtung bringen, wäre ich sehr dankbar!
Geplant ist momentan ein Wartungsfenster am Freitag Abend, wo wir den LSI-Treiber und die Firmware des RAID-Controllers auf den aktuellsten Stand bringen werden.
Vielen Dank im Voraus.
VG
Max
ich habe ein größeres Problem und hoffe, dass sich möglicherweise hier jemand findet, der etwas weiterhelfen kann.
Es geht um einen recht neuen ESX 6.5-Server. Der ESX läuft auf einer kleinen 16GB-SSD.
Dazu kommt ein RAID6 mit 6 HDDs und ein RAID1 mit SSDs für die VMs. Die Platten hängen an einem LSI Megaraid 9361-4i.
Aufgekommen ist das Problem mit der ersten Sicherung der VMs, die auf der SSD liegen. Die Appliance von Acronis liegt auf dem HDD-Raid.
Während der Sicherung ist es zu extremen Latenzen auf den RAIDS gekommen, wo sämtliche VMs kaum mehr ansprechbar waren.
Wenn die Acronis-VA abgeschossen wird, scheint alles wieder zu passen.
Inzwischen konnten wir das Problem auch recht gut eingrenzen. Es reicht bereits eine Datenübertragung vom SSD-Raid auf das HDD-Raid aus um den Fehler zu reproduzieren. Datenübertragung von HDD auf SSD dagegen erzeugt den Fehler nicht.
Im Anhang habe ich einen Screenshot von esxtop hinzugefügt.
Was mich auch etwas verwundert, ist die zusätzliche Disk ganz oben. Diese ist so nicht existent und wird als Local LSI Enclosure Svc Dev erkannt.
In der vmkernel.log wird zudem quasi sekündlich folgende Meldung abgegeben :
lsi_mr3: megasas_hotplug_work:258: event code: 0x71.
Leider habe ich zu dem Code nichts finden können.
Hin und wieder sind auch ein paar SCSI-Fehlercodes zu sehen.
Soweit ich das beurteilen kann, deuten diese aber nur auf das Problem, nicht aber auf die Ursache hin (H:0x2 und selten auch D:0x2).
Dazusagen muss ich noch, dass die SSDs Anfangs nicht als SSD erkannt worden sind und ich mit dem Befehl "esxcli storage nmp satp rule add" das RAID als SSD markiert habe.
Für sämtliche Tipps, die uns in die richtige Richtung bringen, wäre ich sehr dankbar!
Geplant ist momentan ein Wartungsfenster am Freitag Abend, wo wir den LSI-Treiber und die Firmware des RAID-Controllers auf den aktuellsten Stand bringen werden.
Vielen Dank im Voraus.
VG
Max