ich hab ein Problem und weiß so in der Theorie überhaupt nicht was ich machen soll, weil ESXi einfach total abweichend ist von Debian und Ubuntu.
Also mal zum Thema.
Ich habe 4, dauerhaft laufende, virtuelle Maschinen.
- Ubuntu (Gitlab)
- Debian (TS³)
- Debian (Web)
- Windows Server 2012 R2 (DC & TS / 1 Benutzer)
Jede Maschine hat jeweils 1 Kern mit 8 virtuellen Kernen und 7 GB RAM. (Insgesamt 8 logische Prozessoren, 4 Kerne pro Socket und 1 Prozessor-Socket)
Ab und zu hat mein Windows Server 2012 nun ein Problem, erst dachte ich, dass das mit dem RAM oder so zu tun hat. (Überlagerung oder so, wobei das ja maximal 28 von 32 GB RAM sind)
Dann seit gestern macht mir das System total zu schaffen.
Ich bekomme eigentlich mit jedem Start von dem Server auf -> allen <- virtuellen Maschinen einen "Timeout".
Selbst in der ESXi Ereignisanzeige meldet er irgendetwas von wegen Timeout vom Datastorage.
Dann denke ich bisher noch, dass es die Festplatte ist.
Ist nur die Frage ob das die virtuelle VMDK oder die physikalische Festplatte ist.
Dann findet man ja recht wenig zum Thema ESXi und irgendwelche Wartung. (Das war oben gemeint mit den Abweichungen etc.)
Bis man dann endlich auf die S.M.A.R.T Werte kommt...
Festplatte 1, ESXi, Tmp und Datastorage1:
Code: Alles auswählen
Parameter Value Threshold Worst
---------------------------- ----- --------- -----
Health Status OK N/A N/A
Media Wearout Indicator N/A N/A N/A
Write Error Count N/A N/A N/A
Read Error Count 114 6 100
Power-on Hours 76 0 76
Power Cycle Count 100 20 100
Reallocated Sector Count 100 36 100
Raw Read Error Rate 114 6 100
Drive Temperature 28 0 40
Driver Rated Max Temperature 72 45 68
Write Sectors TOT Count 200 0 200
Read Sectors TOT Count N/A N/A N/A
Initial Bad Block Count 100 99 100
Festplatte 2, Datastorage2:
Code: Alles auswählen
Parameter Value Threshold Worst
---------------------------- ----- --------- -----
Health Status OK N/A N/A
Media Wearout Indicator N/A N/A N/A
Write Error Count N/A N/A N/A
Read Error Count 113 6 84
Power-on Hours 76 0 76
Power Cycle Count 100 20 100
Reallocated Sector Count 61 36 61
Raw Read Error Rate 113 6 84
Drive Temperature 28 0 40
Driver Rated Max Temperature 72 45 66
Write Sectors TOT Count 200 0 200
Read Sectors TOT Count N/A N/A N/A
Initial Bad Block Count 100 99 100
Und viel mehr kann man auch eigentlich nicht herausfinden zum Thema "Ist die Festplatte kaputt?".
Bei Ubuntu und Debian hat man deutlich mehr Möglichkeiten, wie ich finde. Oder bietet ESXi auch noch mehr?
Da ich jetzt nicht so begeistert von der Situation war - und oben ja auch "in der Theorie" geschrieben habe, jetzt mal zur Praktischen Umsetzung.
Bzw. was mache ich derzeit, um Probleme mit der Festplatte ggf. vorzubeugen?
Ich kopiere bzw. verschiebe die VMs vom Datastorage1 zum Datastorage2. (Sprich von HDD1 auf HDD2)
Vorher mache ich die VMDK immer kleiner mit vmkfstools -K ALT.vmdk und dann mach ich eine Kopie per vmkfstools -i ALT.vmdk -d thin NEU.vmdk.
Danach kopiere ich alle nicht *.vmdk Dateien vom alten Ordner in den Neuen.
Sobald das geklappt hat entferne ich die alte aus der Bestandsliste, gebe dem alten Ordner einen Prefix "Verschoben-Name" und binde die neue VM dann über den Datastorage2 Browser in die Bestandsliste ein.
Und beim Starten wähle ich bei der Frage aus, "I moved".
Wegen der kaputten VMDK dachte ich mir, ich mache eine komplett neue VM auf dem Datastorage2 (Neu) und packe als sekundäre Festplatte noch die alte, kaputte vom Datastorage1 rein.
Dann starte ich ein Live Ubuntu und starte dann dd if=/dev/sdb of=/dev/sda conv=noerror,sync.
Das tolle ist wieder, dass nach einigen Fehlern wieder bei allen anderen VMs ein Crash stattfindet und die VM in Ruhe weiter kopiert.
Jetzt ist halt die Frage: WIESO kann die eine VM alle anderen beeinflussen? Also ich meine bei den VM Einstellungen unter Ressourcen steht die Festplatte schon auf Niedrig.
Wie kann das sein?
Und was ist wahrscheinlich? VMDK kaputt? Festplatte kaputt? ESXi kaputt?
Macht es überhaupt Sinn jetzt alles auf 2 Festplatten zu haben? (Also hab im Notfall selbstverständlich Backups, nur beim Windows Server waren mir Backups ehrlichgesagt egal, da der jetzt nicht so unglaublich Wichtig ist)
Kann man die kaputte VMDK noch irgendwie reparieren?
Also was man da im Internet findet, ist auch echt nicht hilfreich oder dieses vmkfstools ist einfach defekt!?
Code: Alles auswählen
~ # vmkfstools --chainConsistent /vmfs/volumes/3333eab3-33bd3333-333b-c33333df333e/Win2012/Win2012.vmdk
Disk chain is consistent.
Code: Alles auswählen
~ # vmkfstools -K /vmfs/volumes/3333eab3-33bd3333-333b-c33333df333e/Win2012/Win2012.vmdk
vmfsDisk: 1, rdmDisk: 0, blockSize: 1048576
Hole Punching: 0% done.Read error from virtual disk (/vmfs/volumes/3333eab3-33bd3333-333b-c33333df333e/Win2012/Win2012.vmdk): Input/output error (327689)
Code: Alles auswählen
~ # vmkfstools -i /vmfs/volumes/3333eab3-33bd3333-333b-c33333df333e/Win2012/Win2012.vmdk -d thin 3333eab3-33bd3333-333b-c33333df333e/Win2012/Win2012-2.vmdk
Destination disk format: VMFS thin-provisioned
Cloning disk '/vmfs/volumes/3333eab3-33bd3333-333b-c33333df333e/Win2012/Win2012.vmdk'...
Clone: 10% done.Failed to clone disk: Input/output error (327689).
Ich bin echt dankbar für jeden Tipp oder Hinweis zu irgendeinem oben genannten Thema.
Sprich
- Wie stelle ich fest, ob die Festplatte kaputt ist? (beim ESXi System)
- Wie repariere ich sinnvoll eine VMDK Datei? (bzw. rette die Inhalte)
- Wie konfiguriert man das System, dass eine defekte VM nicht alle anderen VMs zum Absturz bringt?
Während des Schreibens dieses Textes hab ich schon die ersten beiden VMs umgezogen.
Mir ist aufgefallen, dass wenn ich jetzt auf dem Windows Server per Live Ubuntu die HDD kopiert, schmiert nur der Datastorage1 ab und alle VMs auf dem Gerät.
Auf dem Datastorage2 läuft alles friedlich.
Wieso!? HDD kaputt?
Und mir ist aufgefallen, dass der Kopiervorgang immer langsamer wird.
Also eigentlich kann ich mir das schon schenken, da das mit 1 MB/s und weniger kein Sinn macht ... Weil es crasht ja einfach alles.
Und Forum Bug?
Code: Alles auswählen
Attachment kann nicht hinzugefügt werden, da die maximale Anzahl von 0 Attachments in dieser Nachricht erreicht wurde
Habe mal hier alles hochgeladen.
Kopiervorgang der defekten Windows VM per Live Ubuntu - Inkl. Fehlermeldung die direkt nach dem Starten in allen VMs auftritt
Der Kopiervorgang, wie er immer langsamer wird bis ich abgebrochen habe
Fehler in ESXi vSphere Client Ereignisanzeige
"Unknown error" - Nichts funktioniert mehr