ESXi "stirbt" ca. alle 3h für 2-5 min.
Verfasst: 19.09.2008, 18:10
Hallo Forum!
Ich bin neu hier und will mich kurz vorstellen:
Man nennt mich Pit, bin knapp Ü40 und techn. Leiter in einem mittelständischen Unternehmen.
Ich administriere Netzwerke seit gut 15 Jahren. Jetzt realisiere ich erstmals eine virtualisierte Umgebung auf Basis von für ESX zertifizierten IBM-Blads.
Eigentlich ist alles Prima, ich bin total begeistert vom Konzept, der Funktionalität und auch der Performance.
Alle VMs laufen wie sie sollen, null Probleme.
ABER:
ca. alle 3h (+/- 35min) ist weder der Host noch irgendeine der VM´s erreichbar. Kein Ping keine Konsole... NICHTS geht.
Nach 2-5 min. ist dann alles wieder gut.
Die VMs laufen unterdessen alle mit normaler Last weiter und können auch weiterhin auf dem virtuellen Switch untereinander als auch mit dem Host kommunizieren.
Hier ein SysLog - Auszug ab ca. 20min. vorher bis ca. 20min. nachher.
<46>-- MARK --
<77>crond[1316]: USER root pid 1196972 cmd /sbin/decodeSel.sh #Every 10 minutes, translate the latest IPMI SEL data
<180>vmkernel: 4:03:47:35.488 cpu7:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:03:47:35.488 cpu7:1497)WARNING: World: vm 1197912: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:03:47:35.488 cpu7:1497)WARNING: World: vm 1197912: 1775: WorldInit failed: trying to cleanup.
<180>vmkernel: 4:03:47:38.183 cpu5:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:03:47:38.183 cpu5:1497)WARNING: World: vm 1198018: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:03:47:38.183 cpu5:1497)WARNING: World: vm 1198018: 1775: WorldInit failed: trying to cleanup.
<180>vmkernel: 4:03:47:40.287 cpu5:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:03:47:40.287 cpu5:1497)WARNING: World: vm 1198148: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:03:47:40.287 cpu5:1497)WARNING: World: vm 1198148: 1775: WorldInit failed: trying to cleanup.
<77>crond[1316]: USER root pid 1198947 cmd /sbin/decodeSel.sh #Every 10 minutes, translate the latest IPMI SEL data
<180>vmkernel: 4:03:55:57.158 cpu5:1794)WARNING: UserSocketInet: 588: waiters list not empty!
<166>Hostd: [2008-09-19 14:43:05.708 'Vmomi' 65541 info] Activation [N5Vmomi10ActivationE:0x1830dd70] : Invoke done [waitForUpdates] on [vmodl.query.PropertyCollector:ha-property-collector]
<166>Hostd: [2008-09-19 14:43:05.708 'Vmomi' 65541 info] Throw vmodl.fault.RequestCanceled
<166>Hostd: [2008-09-19 14:43:05.708 'Vmomi' 65541 info] Result:
<166>Hostd: (vmodl.fault.RequestCanceled) { dynamicType = <unset>, msg = "" }
<166>Hostd:
<166>Hostd: [2008-09-19 14:43:05.709 'App' 65541 error] Failed to send response to the client: Broken pipe
<180>vmkernel: 4:03:57:27.530 cpu4:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:03:57:27.530 cpu4:1497)WARNING: World: vm 1195856: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:03:57:27.530 cpu4:1497)WARNING: World: vm 1195856: 1775: WorldInit failed: trying to cleanup.
<166>Hostd: [2008-09-19 14:44:48.330 'App' 638993 error] Failed to send response to the client: Broken pipe
<166>Hostd: [2008-09-19 14:44:48.331 'App' 638993 error] Failed to send response to the client: Broken pipe
<166>last message repeated 1 times
<166>Hostd: [2008-09-19 14:44:48.332 'App' 638993 error] Failed to send response to the client: Broken pipe
<166>Hostd: [2008-09-19 14:44:48.333 'App' 638993 error] Failed to send response to the client: Broken pipe
<166>Hostd: [2008-09-19 14:44:48.334 'App' 638993 error] Failed to send response to the client: Broken pipe
<46>last message repeated 1 times
<46>-- MARK --
spätestens ab jetzt ist der Server weg.
<166>Hostd: [2008-09-19 14:47:55.740 'VmMisc' 98311 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:47:56.109 'VmMisc' 131081 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:47:56.320 'VmMisc' 311308 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:47:56.363 'VmMisc' 311308 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:47:56.993 'VmMisc' 311308 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:00.896 'VmMisc' 327693 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:08.314 'VmMisc' 540687 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:08.316 'VmMisc' 540687 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:08.317 'VmMisc' 540687 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:20.837 'VmMisc' 540687 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:21.776 'VmMisc' 311308 warning] Failed to validate VM IP address: unknown
jetzt ist der Server wieder da.
<77>crond[1316]: USER root pid 1200427 cmd /sbin/decodeSel.sh #Every 10 minutes, translate the latest IPMI SEL data
<180>vmkernel: 4:04:10:32.384 cpu4:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:04:10:32.384 cpu4:1497)WARNING: World: vm 1201952: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:04:10:32.384 cpu4:1497)WARNING: World: vm 1201952: 1775: WorldInit failed: trying to cleanup.
<180>vmkernel: 4:04:10:35.034 cpu7:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:04:10:35.034 cpu7:1497)WARNING: World: vm 1202053: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:04:10:35.034 cpu7:1497)WARNING: World: vm 1202053: 1775: WorldInit failed: trying to cleanup.
<180>vmkernel: 4:04:10:37.138 cpu7:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:04:10:37.138 cpu7:1497)WARNING: World: vm 1202138: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:04:10:37.138 cpu7:1497)WARNING: World: vm 1202138: 1775: WorldInit failed: trying to cleanup.
<77>crond[1316]: USER root pid 1202505 cmd /sbin/decodeSel.sh #Every 10 minutes, translate the latest IPMI SEL data
<77>crond[1316]: USER root pid 1202717 cmd /sbin/auto-backup.sh #first minute of every hour (run every hour)
<181>vmkernel: 4:04:13:53.972 cpu1:1202773)Hardware: 2150: Setting RTC date'n'time to: 9/19/2008, 15:1:1
<166>Hostd: [2008-09-19 15:01:10.559 'App' 720914 error] Failed to send response to the client: Broken pipe
<46>-- MARK --
17:07:32
Wieso der Host seine eigene IP nicht für gültig erklärt bekommt ist mir schleierhaft. Es gibt definitiv keine doppelte Belegung dieser IP im Netz.
Ich bin auch schon von einem Switch aufs nächste umgezogen. Hab es mit 100MBit und 1GBit probiert, es bleibt wie es ist, Hardwareprobleme kann ich eigentlich ausschliessen.
Hat irgendwer ne Idee ?
Oder wenn euch sonst noch an dem SysLog auffällt, ich bin für jeden Hinweis dankbar.
Vielen Dank für eure Mühen!
Pit
Ich bin neu hier und will mich kurz vorstellen:
Man nennt mich Pit, bin knapp Ü40 und techn. Leiter in einem mittelständischen Unternehmen.
Ich administriere Netzwerke seit gut 15 Jahren. Jetzt realisiere ich erstmals eine virtualisierte Umgebung auf Basis von für ESX zertifizierten IBM-Blads.
Eigentlich ist alles Prima, ich bin total begeistert vom Konzept, der Funktionalität und auch der Performance.
Alle VMs laufen wie sie sollen, null Probleme.
ABER:
ca. alle 3h (+/- 35min) ist weder der Host noch irgendeine der VM´s erreichbar. Kein Ping keine Konsole... NICHTS geht.
Nach 2-5 min. ist dann alles wieder gut.
Die VMs laufen unterdessen alle mit normaler Last weiter und können auch weiterhin auf dem virtuellen Switch untereinander als auch mit dem Host kommunizieren.
Hier ein SysLog - Auszug ab ca. 20min. vorher bis ca. 20min. nachher.
<46>-- MARK --
<77>crond[1316]: USER root pid 1196972 cmd /sbin/decodeSel.sh #Every 10 minutes, translate the latest IPMI SEL data
<180>vmkernel: 4:03:47:35.488 cpu7:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:03:47:35.488 cpu7:1497)WARNING: World: vm 1197912: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:03:47:35.488 cpu7:1497)WARNING: World: vm 1197912: 1775: WorldInit failed: trying to cleanup.
<180>vmkernel: 4:03:47:38.183 cpu5:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:03:47:38.183 cpu5:1497)WARNING: World: vm 1198018: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:03:47:38.183 cpu5:1497)WARNING: World: vm 1198018: 1775: WorldInit failed: trying to cleanup.
<180>vmkernel: 4:03:47:40.287 cpu5:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:03:47:40.287 cpu5:1497)WARNING: World: vm 1198148: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:03:47:40.287 cpu5:1497)WARNING: World: vm 1198148: 1775: WorldInit failed: trying to cleanup.
<77>crond[1316]: USER root pid 1198947 cmd /sbin/decodeSel.sh #Every 10 minutes, translate the latest IPMI SEL data
<180>vmkernel: 4:03:55:57.158 cpu5:1794)WARNING: UserSocketInet: 588: waiters list not empty!
<166>Hostd: [2008-09-19 14:43:05.708 'Vmomi' 65541 info] Activation [N5Vmomi10ActivationE:0x1830dd70] : Invoke done [waitForUpdates] on [vmodl.query.PropertyCollector:ha-property-collector]
<166>Hostd: [2008-09-19 14:43:05.708 'Vmomi' 65541 info] Throw vmodl.fault.RequestCanceled
<166>Hostd: [2008-09-19 14:43:05.708 'Vmomi' 65541 info] Result:
<166>Hostd: (vmodl.fault.RequestCanceled) { dynamicType = <unset>, msg = "" }
<166>Hostd:
<166>Hostd: [2008-09-19 14:43:05.709 'App' 65541 error] Failed to send response to the client: Broken pipe
<180>vmkernel: 4:03:57:27.530 cpu4:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:03:57:27.530 cpu4:1497)WARNING: World: vm 1195856: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:03:57:27.530 cpu4:1497)WARNING: World: vm 1195856: 1775: WorldInit failed: trying to cleanup.
<166>Hostd: [2008-09-19 14:44:48.330 'App' 638993 error] Failed to send response to the client: Broken pipe
<166>Hostd: [2008-09-19 14:44:48.331 'App' 638993 error] Failed to send response to the client: Broken pipe
<166>last message repeated 1 times
<166>Hostd: [2008-09-19 14:44:48.332 'App' 638993 error] Failed to send response to the client: Broken pipe
<166>Hostd: [2008-09-19 14:44:48.333 'App' 638993 error] Failed to send response to the client: Broken pipe
<166>Hostd: [2008-09-19 14:44:48.334 'App' 638993 error] Failed to send response to the client: Broken pipe
<46>last message repeated 1 times
<46>-- MARK --
spätestens ab jetzt ist der Server weg.
<166>Hostd: [2008-09-19 14:47:55.740 'VmMisc' 98311 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:47:56.109 'VmMisc' 131081 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:47:56.320 'VmMisc' 311308 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:47:56.363 'VmMisc' 311308 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:47:56.993 'VmMisc' 311308 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:00.896 'VmMisc' 327693 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:08.314 'VmMisc' 540687 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:08.316 'VmMisc' 540687 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:08.317 'VmMisc' 540687 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:20.837 'VmMisc' 540687 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:21.776 'VmMisc' 311308 warning] Failed to validate VM IP address: unknown
jetzt ist der Server wieder da.
<77>crond[1316]: USER root pid 1200427 cmd /sbin/decodeSel.sh #Every 10 minutes, translate the latest IPMI SEL data
<180>vmkernel: 4:04:10:32.384 cpu4:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:04:10:32.384 cpu4:1497)WARNING: World: vm 1201952: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:04:10:32.384 cpu4:1497)WARNING: World: vm 1201952: 1775: WorldInit failed: trying to cleanup.
<180>vmkernel: 4:04:10:35.034 cpu7:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:04:10:35.034 cpu7:1497)WARNING: World: vm 1202053: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:04:10:35.034 cpu7:1497)WARNING: World: vm 1202053: 1775: WorldInit failed: trying to cleanup.
<180>vmkernel: 4:04:10:37.138 cpu7:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:04:10:37.138 cpu7:1497)WARNING: World: vm 1202138: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:04:10:37.138 cpu7:1497)WARNING: World: vm 1202138: 1775: WorldInit failed: trying to cleanup.
<77>crond[1316]: USER root pid 1202505 cmd /sbin/decodeSel.sh #Every 10 minutes, translate the latest IPMI SEL data
<77>crond[1316]: USER root pid 1202717 cmd /sbin/auto-backup.sh #first minute of every hour (run every hour)
<181>vmkernel: 4:04:13:53.972 cpu1:1202773)Hardware: 2150: Setting RTC date'n'time to: 9/19/2008, 15:1:1
<166>Hostd: [2008-09-19 15:01:10.559 'App' 720914 error] Failed to send response to the client: Broken pipe
<46>-- MARK --
17:07:32
Wieso der Host seine eigene IP nicht für gültig erklärt bekommt ist mir schleierhaft. Es gibt definitiv keine doppelte Belegung dieser IP im Netz.
Ich bin auch schon von einem Switch aufs nächste umgezogen. Hab es mit 100MBit und 1GBit probiert, es bleibt wie es ist, Hardwareprobleme kann ich eigentlich ausschliessen.
Hat irgendwer ne Idee ?
Oder wenn euch sonst noch an dem SysLog auffällt, ich bin für jeden Hinweis dankbar.
Vielen Dank für eure Mühen!
Pit