ESX eingefroren. Lokale VMs down - SAN-VMs weiter online
Verfasst: 13.09.2010, 10:14
Guten morgen zusammen,
zu unserer Konfiguration:
- wir betreiben ESX4.1 auf HP DL380 G7.
- der ESX ist auf einem lokalen Laufwerk installiert (RAID 1+0)
- es ist ein zusätzliches lokales Laufwerk für VMs eingerichtet (RAID 5)
- die meisten VMs liegen jedoch im SAN, das über FC angeschlossen ist
wir hatten am Freitag an einem ESX4.1 das Problem, dass die Konsole des ESX nichtmehr reagiert hat.
VMs auf dem lokalem Storage wurden nichtmehr ausgeführt. Bei direktem Blick auf dem Server konnten wir feststellen, dass von dem RAID-5 keine LEDs mehr aktiv waren. Die LEDs der System-Platte waren aktiv.
VMs auf einer SAN-LUN wurden weiterhin ausgeführt.
Ein lokaler Loginversuch mit root hat nichtmehr funktioniert. Auf der lokalen Konsole wurde "INIT: version 2.86 reloading" angezeigt, der ESX hat jedoch noch auf einen PING geantwortet.
Im Vcenter wurde dieser HOST als getrennt angezeigt, daher konnten wir die noch aktiven VMs nicht per Vmotion verschieben.
Nachdem wir die noch aktiven VMs kontrolliert per RemoteDeskop heruntergefahren und den ESX resetted haben lief alles wieder normal.
Der Fehler ist aufgetreten, wärend ich auf einer VM auf dem lokalen Storage die VMWare-Tools aktualisiert habe. Ob dies in direktem Zusammenhang mit dem Fehler steht ist fraglich.
In der VMWare-Community wurde schonmal ein ähnlicher Fehler berichtet (leider unbeantwortet): http://communities.vmware.com/thread/263592?tstart=0
Es sind für mich so aus, als ob der ESX nichtmehr auf das RAID5 zugreifen konnte und sich als Folge aufgehangen hat. Alle VMs auf SAN-Storage wurden ja weiterhin ausgeführt.
In den Logs kann ich nur erkennen, dass etwa eine halbe Stunde zuvor syslogd restarted ist, worauf einige Einträge im Log zu finden sind. Ob das ein Standard-Ereignis war, kann ich leider nicht beurteilen.
Jemand eine Idee? Ich habe parallel hierzu einen Case beim Support aufgemacht….
Christian
zu unserer Konfiguration:
- wir betreiben ESX4.1 auf HP DL380 G7.
- der ESX ist auf einem lokalen Laufwerk installiert (RAID 1+0)
- es ist ein zusätzliches lokales Laufwerk für VMs eingerichtet (RAID 5)
- die meisten VMs liegen jedoch im SAN, das über FC angeschlossen ist
wir hatten am Freitag an einem ESX4.1 das Problem, dass die Konsole des ESX nichtmehr reagiert hat.
VMs auf dem lokalem Storage wurden nichtmehr ausgeführt. Bei direktem Blick auf dem Server konnten wir feststellen, dass von dem RAID-5 keine LEDs mehr aktiv waren. Die LEDs der System-Platte waren aktiv.
VMs auf einer SAN-LUN wurden weiterhin ausgeführt.
Ein lokaler Loginversuch mit root hat nichtmehr funktioniert. Auf der lokalen Konsole wurde "INIT: version 2.86 reloading" angezeigt, der ESX hat jedoch noch auf einen PING geantwortet.
Im Vcenter wurde dieser HOST als getrennt angezeigt, daher konnten wir die noch aktiven VMs nicht per Vmotion verschieben.
Nachdem wir die noch aktiven VMs kontrolliert per RemoteDeskop heruntergefahren und den ESX resetted haben lief alles wieder normal.
Der Fehler ist aufgetreten, wärend ich auf einer VM auf dem lokalen Storage die VMWare-Tools aktualisiert habe. Ob dies in direktem Zusammenhang mit dem Fehler steht ist fraglich.
In der VMWare-Community wurde schonmal ein ähnlicher Fehler berichtet (leider unbeantwortet): http://communities.vmware.com/thread/263592?tstart=0
Es sind für mich so aus, als ob der ESX nichtmehr auf das RAID5 zugreifen konnte und sich als Folge aufgehangen hat. Alle VMs auf SAN-Storage wurden ja weiterhin ausgeführt.
In den Logs kann ich nur erkennen, dass etwa eine halbe Stunde zuvor syslogd restarted ist, worauf einige Einträge im Log zu finden sind. Ob das ein Standard-Ereignis war, kann ich leider nicht beurteilen.
Jemand eine Idee? Ich habe parallel hierzu einen Case beim Support aufgemacht….
Christian