ESXi 6.0.0 auf Fujitsu RX 2540 M2 Disk-IO-Probleme
Verfasst: 28.04.2017, 17:20
Auf einem neuen Server Fujitsu RX2540 haben wir IO-Probleme mit einem RAID-System.
Konfiguration:
PRAID EP420i, Treiber-Version: 6.605.08.00, Firmware-Package-Version: 24.7.0-0061 (RAID 5) mit 8 internen Festplatten à 1TB.
ESXi 6.0.0 Build 5224934
VMWare-Tools 10.0.9.55972, Build-3917699
Windows-Server 2012 R2
Basis-VMDK mit Windows: 160 GB
Daten-VMDK mit 6 TB
Jede Nacht starten wir einen umfangreichen Kopiervorgang mit Robocopy, der mehrere hundert Gigabyte bis zu mehrere Terabyte auf ein externes Backup-Medium kopiert.
Das Problem äußert sich folgendermaßen:
1) Hardware-Monitor meldet keinerlei Probleme
2) ESXi meldet:
> Wegen Konnektivitätsproblemen kann nicht mehr
> auf Volume
> 58b96fe1-567472d2-63b5-0090facf0bd6
> (VMStorage01) zugegriffen werden. Es wird
> versucht, eine Wiederherstellung durchzuführen.
> Das Ergebnis liegt demnächst vor.
3) Windows meldet zunächst: Warnung 129:
> Ein Zurücksetzen auf Gerät "\Device\RaidPort0" wurde ausgegeben.
Dann folgen einige Meldungen: Warnung 153:
> Der E/A-Vorgang an der logischen Blockadresse "0x2aa82ec20" für den Datenträger "1" (PDO-Name: \Device\00000030) wurde wiederholt.
Sobald diese Warnungen kommen, kann es passieren, dass das Windows-System zu stehen scheint, also beispielsweise auch keine Mausbewegungen möglich sind. Das kann von ein paar Sekunden bis zu mehreren Minuten dauern.
Vorgeschichte: Als wir die Maschine in Betrieb nahmen und einen Kopiervorgang mit 20 GB starteten, "fror" die Maschine ein und in den Protokollen waren haufenweise die oben genannten Meldungen (Konnektivitätsprobleme, Warnungs-Sequenz 129, 153). Der Kopiervorgang dauerte statt einigen Minuten bis zu 12 Stunden. Währenddessen war ein Arbeiten am Server nicht möglich.
Daraufhin tauschte Fujitsu den RAID-Controller aus. Danach schien die Maschine ordnungsgemäß zu laufen, bis auf die oben genannten Probleme.
Alternativ haben wir im gleichen vCenter einen Server Fujitsu RX300 S8 genau gleich aufgesetzt und haben dort dieses Problem nicht. Auch ein vergleichbar konfigurierter Dell-Server läuft ohne jedes Problem.
Was können wir machen? Welche Protokolle oder Logs liefern uns weitere Einsichten? Wir würden gerne den Produktiv-Start unseres Servers ohne diese Warnungen beginnen.
Konfiguration:
PRAID EP420i, Treiber-Version: 6.605.08.00, Firmware-Package-Version: 24.7.0-0061 (RAID 5) mit 8 internen Festplatten à 1TB.
ESXi 6.0.0 Build 5224934
VMWare-Tools 10.0.9.55972, Build-3917699
Windows-Server 2012 R2
Basis-VMDK mit Windows: 160 GB
Daten-VMDK mit 6 TB
Jede Nacht starten wir einen umfangreichen Kopiervorgang mit Robocopy, der mehrere hundert Gigabyte bis zu mehrere Terabyte auf ein externes Backup-Medium kopiert.
Das Problem äußert sich folgendermaßen:
1) Hardware-Monitor meldet keinerlei Probleme
2) ESXi meldet:
> Wegen Konnektivitätsproblemen kann nicht mehr
> auf Volume
> 58b96fe1-567472d2-63b5-0090facf0bd6
> (VMStorage01) zugegriffen werden. Es wird
> versucht, eine Wiederherstellung durchzuführen.
> Das Ergebnis liegt demnächst vor.
3) Windows meldet zunächst: Warnung 129:
> Ein Zurücksetzen auf Gerät "\Device\RaidPort0" wurde ausgegeben.
Dann folgen einige Meldungen: Warnung 153:
> Der E/A-Vorgang an der logischen Blockadresse "0x2aa82ec20" für den Datenträger "1" (PDO-Name: \Device\00000030) wurde wiederholt.
Sobald diese Warnungen kommen, kann es passieren, dass das Windows-System zu stehen scheint, also beispielsweise auch keine Mausbewegungen möglich sind. Das kann von ein paar Sekunden bis zu mehreren Minuten dauern.
Vorgeschichte: Als wir die Maschine in Betrieb nahmen und einen Kopiervorgang mit 20 GB starteten, "fror" die Maschine ein und in den Protokollen waren haufenweise die oben genannten Meldungen (Konnektivitätsprobleme, Warnungs-Sequenz 129, 153). Der Kopiervorgang dauerte statt einigen Minuten bis zu 12 Stunden. Währenddessen war ein Arbeiten am Server nicht möglich.
Daraufhin tauschte Fujitsu den RAID-Controller aus. Danach schien die Maschine ordnungsgemäß zu laufen, bis auf die oben genannten Probleme.
Alternativ haben wir im gleichen vCenter einen Server Fujitsu RX300 S8 genau gleich aufgesetzt und haben dort dieses Problem nicht. Auch ein vergleichbar konfigurierter Dell-Server läuft ohne jedes Problem.
Was können wir machen? Welche Protokolle oder Logs liefern uns weitere Einsichten? Wir würden gerne den Produktiv-Start unseres Servers ohne diese Warnungen beginnen.