wir haben in letzter Zeit häufiger VMs die stehen bleiben. D.h. in dem Fall, dass das W2K8 zwar noch läuft (kein Bluescreen), aber praktische alle Dienste hängen. SCOM erhält von diesen VMs keine Daten mehr, Windows beschwert sich z.B. über...
Code: Alles auswählen
"The processing of Group Policy failed. Windows could not obtain the name of a domain controller. This could be caused by a name resolution failure. Verify your Domain Name System (DNS) is configured and working correctly.".
Die CPU Last geht praktisch auf 0 zurück. Auf ping Pakete antwortet die VM aber noch ganz brav. Der W2K8 Anmeldeschirm ist an der Console noch zu sehen, mehr geht dort idR nicht mehr.
Im Log auf dem ESXi Host sieht man das die Heartbeats zu der VM kurz bevor das Problem in Windows auffällt aufhören.
Code: Alles auswählen
2013-02-05T18:08:09.658Z| vmx| GuestRpcSendTimedOut: message to toolbox timed out.
2013-02-05T18:08:24.659Z| vmx| GuestRpcSendTimedOut: message to toolbox timed out.
2013-02-05T18:08:24.659Z| vmx| GuestRpc: app toolbox's second ping timeout; assuming app is down
2013-02-05T18:08:24.660Z| vmx| GuestRpc: Reinitializing Channel 0(toolbox)
2013-02-05T18:08:24.661Z| vmx| GuestMsg: Channel 0, Cannot unpost because the previous post is already completed
2013-02-05T18:08:24.661Z| vmx| GuestRpc: Channel 0 reinitialized.
2013-02-05T18:08:24.661Z| vmx| GuestRpc: Channel 0 reinitialized.
2013-02-05T18:11:24.663Z| vmx| GuestRpcSendTimedOut: message to toolbox timed out.
2013-02-05T18:11:24.663Z| vmx| Vix: [2769194 guestCommands.c:2194]: Error VIX_E_TOOLS_NOT_RUNNING in VMAutomationTranslateGuestRpcError(): VMware Tools are not running in the guest
Das Problem tritt quer über alle verwendeten ESXi Versionen (zumindest 5.0 und 5.1) auf unterschiedlichen Clustern mit unterschiedlicher Hardware auf. Inzwischen 1-2 pro Woche. Auf physischen W2K8 Servern haben wir das bisher noch nicht beobachten können. In den Windows Log gibt es keinen Hinweis auf die Ursache des Problems.
Hat jemand so einen Fall schon mal gehabt oder hat ein Idee wer der Verursacher sein könnte?
Es wird kein HA für VMs genutzt, d.h. die betroffenen VMs werden nicht automatisch neu gestartet wenn die Heartbeats ausbleiben. Deswegen wollte ich einen Alarm erstellen, der die Heartbeats prüft. Das geht out of the box über den "VM Heartbeat" Trigger Typ in den vCenter Alarm Settings. Das dumme ist, dass der Alarm auch bei einem Reboot einer VM getriggert wird, da die Tools dann noch nicht aktiv sind. Bei diesem Alarm Typ kann man auch keine "Condition Lenght" konfigurieren.
Habe ich was übersehen, oder der Alarm im vCenter damit einfach völlig sinnlos?