Beitragvon Dayworker » 04.01.2022, 23:48
Der HW-Controller verwaltet deine Platten im eingestellten Raid-Modus und meldet an das Betriebssystem nur die darauf vom User partitionierten Volumes. Nur der HW-Controller sieht intern noch Einzelplatten und kann den Gesundheitszustand an das OS melden, während das OS je nach Volumeanzahl nur noch eine entsprechende Menge an unpartitionierten Datenträgern sieht.
Etwaige Festplattenfehler kann nur noch der Raidcontroller bei Rebuild oder Überprüfung feststellen. Der ESXi kann zwar inzwischen immerhin die Fehlerfreiheit von Datastores mit dem VMFS-Dateisystem feststellen, aber es gibt keine Reparationsfunktion. In den Dimensionen in den VMware denkt, wird bei Fehlern auch nicht ein zeitraubendes Rebuild gestartet sondern einfach auf die Replik umgeschaltet und weiter gehts.
In deinem Fall mit dem Raid5 kommt noch hinzu, daß bei jedem Rebuild noch die reale Gefahr besteht, daß aufgrund der erhöhten Belastung durch das Rebuild noch eine weiterer Raidteilnehmer ausfällt und damit wäre das Raid zerstört.
SATA fehlen im Gegensatz zu SAS einige Funktionen, um beispielsweise Übertragungsfehler auf dem Kabel feststellen zu können. Etwaige Plattenfehler sollte der HW-Controller loggen, falls er dies selbständig machen kann und nicht auf Speicherplatz vom OS angewiesen ist.
Das das Problem nur mit einem Reboot wirklich gelöst ist, wage ich zu bezweifeln, versuchen kann man es ja. Ich würde jedoch je nach Gerätealter gleich die große Rundtour machen. Also zuerst Backup machen und dann alle Platten, Kabel und Controller raus und mal wieder eine grosse Innenreinigung machen. Jede Platte dann mit dem Herstellertool auf Fehler prüfen und ggf tauschen. Dann sämtliche Kabel auf Beschädigung und festen Sitz an Datenträger und Controller prüfen sowie ggf austauschen. Wenn das Problem trotzdem weiterhin besteht, wird es komplizierter und teurer. Dann bleiben noch Controller, Mainboard, RAM und Netzteil übrig. Beispielsweise meine Server-HW hatte am 30 Dezember letzen Jahres natürlich kurz vor 17 Uhr ihren Dienst quittiert und zeigte nix mehr an. Per BMC war der Server noch erreichbar, aber auch in Minimalconfig ohne Karten, Datenträger und nur mit 1 DIMM startete er nicht mehr. Meine Lösung bestand darin, mir gestern ein baugleiches Gebrauchtgerät zu besorgen (hatte da richtig viel Glück, weil das Ersatzgerät mit RAM und demselben Raidcontroller ausgestattet war) und aus zwei dann einen funktionierenden Server zusammen zu bauen.