Seite 1 von 1

Aussetzer RAID

Verfasst: 29.09.2010, 23:27
von R0ko
Bekomme auf der Konsole unendliche Fehlermeldungen mit sd 0:0:0:0
Nach einer gewissen Zeit verabschieden sich die VM's
Neustart der Maschine und alles läuft wieder

Umgebung:
HP DL370 ProLiant mit 46GB RAM und 1.5TB auf SAS RAID
ESX4.0 164009
VM's durchgängig MS W2008 R2 x64

Das Problem tritt wöchentlich auf. Erkennbar ist, dass nach Sicherung via VEEAM 4.1 - was zu erhöhter RAID Aktivität führt - das System kippt. Wenn ich VEEAM mehrere Tage deaktiviere, dann ist das Verhalten weg.

Alle Hardwarekomponenten wurden bereits von HP getauscht, die Firmware ist am aktuellsten Stand.
SD 0:0:0:0 interpretiere ich als mein HP P410i RAID Controller. Erkannt als "HP Serial Attached SCSI Disk".

Hat jemand eine Idee zu dem Thema?

Verfasst: 30.09.2010, 10:14
von saxa
Was ist in diesem HP P410i RAID Controller unter der Haube?

Welche RAID-Konfiguration?

Verfasst: 30.09.2010, 21:18
von R0ko
ein SAS RAID 10 mit 6 SAS Platten (1 davon als Ausfallreserve)

Verfasst: 06.10.2010, 09:34
von bla!zilla
Also sieben SAS PLatten. Sechs Platten inkl. einer Spare und RAID 1+0 geht nicht.

Beschreibe das Problem mal bitte etwas genauer. Frieren die Maschinen ein, oder bleiben die mit einem BSoD stehen?

Verfasst: 07.10.2010, 09:46
von R0ko
in der Konsole werden im Sekundentakt Meldungen ausgegeben
sd 0:0:0:0 still retrying 4294967523 after 360s

Die Server sind dann nicht mehr erreichbar.

Nachvollziehbar ist, dass dies immer nach einigen Sicherungen mit VEEAM passiert.
Es laufen 7 VMs auf der Maschine. Diese werden alle 6 h vom SAS RAID-Set auf ein sATA RAID-Set (gleiche Maschine - anderer RAID Controller) inkrementuell gesichert.
Zusätzlich werden die Server inkrementuell auf einen anderen HW Server mittels VEEAM gesichert. Als letzte Sicherung erfolgt eine Bandsicherung auf einen externen HP Autoloader.

sd 0:0:0:0 ist aus meiner Sicht das SAS RAID-Set

In den Protokollen erkennt man, dass bei der Sicherung durch VEEAM (inkrementuell) auf dem SAS RAID-Set ein entsprechend emsiger Betrieb herrscht. Dies bringt aus meiner Sicht das SAS RAID-Set zum Kippen.

Verfasst: 07.10.2010, 12:20
von Piddi
schau mal ob du im IML-Log verdächtige Einträge findest! Blinken die Status-LEDs gewöhnlich oder verhält sich da eine Platte auffällig?

ich beziehe mich hierauf:
http://vmware-forum.de/viewtopic.php?p=106371#106371

Verfasst: 08.10.2010, 08:57
von R0ko
Wir haben gemeinsam mit HP sämtliche Teile des Servers ersetzt.
Controller, BBU, Board, etc

Basis dieses Austauschs war eine gesamte Prüfung des Servers mittels den Software Tools von HP in Anleitung von HP-Technikern. Hierbei wurden - so wurde uns mitgeteilt - auch die Festplatten überprüft. Ich kann dies jedoch nicht bestätigen, da kein einziger Techniker mir sagen konnte was in den Protokollen rauszulesen war.

Wo finde ich diese IML Logs und wie kann ich sie auslesen?

Verfasst: 08.10.2010, 09:13
von Piddi
wenn die hp-tools installiert sind kannst du über https:servername:2381 dich anmelden und unter logs das IML anschauen.
Ansonsten von der HP SmartStart booten. Da gibts auch irgendwo einen Punkt wo du das anschauen kannst. Müsste unter Diagnostics sein.....

Verfasst: 08.10.2010, 14:37
von R0ko
keine Auffälligen Informationen. Diese Logs wurden bereits von HP geprüft.

Verfasst: 08.10.2010, 20:49
von Dayworker
R0ko hat geschrieben:keine Auffälligen Informationen.
Wenn du sagst "keine auffälligen Informationen", werden also zumindest Info's angezeigt. Welche?

Verfasst: 09.10.2010, 11:03
von R0ko
Ganz ehrlich - ich kann es nicht sagen.

Wir haben sämtliche Test mit HP gemeinsam auf feinster Einstellung durchgeführt. Die Protokolle wurde an HP geschickt. Diese haben diese ausgewertet und uns mitgeteilt, dass nicht wirklich was erkennbar ist, sämtliche Teile des Storage aber trotzdem getauscht werden.
Die Techniker vor Ort konnten uns ebenfalls keine Informationen geben. Ihnen vorgelegte Protokolle waren von den Technikern nicht auswertbar.
Meine Aussage stützt sich also ausschließlich auf die Aussage von HP.

Verfasst: 09.10.2010, 11:09
von bla!zilla
Ich glaube auch nicht an die Hardware, sieht eher nach einen Problem mit VMware aus. Möglicherweise kippen da irgendwelche Buffer o.ä. durch die Last. Hast du mal überlegt testweise auf ESXi 4.1 zu gehen?

Verfasst: 09.10.2010, 12:21
von R0ko
@bla!zilla
Zur Zeit läuft ESX4.0 - keine ESXi.
Die ESX haben wir installiert damit wir mit VEEAM sichern können - das geht auf der ESXi leider nicht. Muss dazu sagen, dass ich mit dieser Entscheidung - war meine - nachträglich gesehen nicht glücklich bin. VEEAM als Software hat mich ziemlich entäuscht.

Ja, haben wir uns schon überlegt. Habe aber auch Artikel gelesen die mich dbzgl sehr verunsichert haben. Speziell zum Thema Update auf HP Server der Klasse DL370.



Habe keine vergleichbare Maschine auf der ich ein Update testen kann. Es direkt auf dem Produktionsserver zu machen ist mir einfach zu gefährlich.

@Buffer
Kann man hier was prüfen? Gibt es Wert die man kontrollieren kann?