ESXi "stirbt" ca. alle 3h für 2-5 min.

ESXiU2 · Beitragvon **ESXiU2** » 19.09.2008, 18:10

Hallo Forum!

Ich bin neu hier und will mich kurz vorstellen:
Man nennt mich Pit, bin knapp Ü40 und techn. Leiter in einem mittelständischen Unternehmen.
Ich administriere Netzwerke seit gut 15 Jahren. Jetzt realisiere ich erstmals eine virtualisierte Umgebung auf Basis von für ESX zertifizierten IBM-Blads.

Eigentlich ist alles Prima, ich bin total begeistert vom Konzept, der Funktionalität und auch der Performance.

Alle VMs laufen wie sie sollen, null Probleme.

ABER:

ca. alle 3h (+/- 35min) ist weder der Host noch irgendeine der VM´s erreichbar. Kein Ping keine Konsole... NICHTS geht.
Nach 2-5 min. ist dann alles wieder gut.
Die VMs laufen unterdessen alle mit normaler Last weiter und können auch weiterhin auf dem virtuellen Switch untereinander als auch mit dem Host kommunizieren.

Hier ein SysLog - Auszug ab ca. 20min. vorher bis ca. 20min. nachher.

<46>-- MARK --
<77>crond[1316]: USER root pid 1196972 cmd /sbin/decodeSel.sh #Every 10 minutes, translate the latest IPMI SEL data
<180>vmkernel: 4:03:47:35.488 cpu7:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:03:47:35.488 cpu7:1497)WARNING: World: vm 1197912: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:03:47:35.488 cpu7:1497)WARNING: World: vm 1197912: 1775: WorldInit failed: trying to cleanup.
<180>vmkernel: 4:03:47:38.183 cpu5:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:03:47:38.183 cpu5:1497)WARNING: World: vm 1198018: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:03:47:38.183 cpu5:1497)WARNING: World: vm 1198018: 1775: WorldInit failed: trying to cleanup.
<180>vmkernel: 4:03:47:40.287 cpu5:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:03:47:40.287 cpu5:1497)WARNING: World: vm 1198148: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:03:47:40.287 cpu5:1497)WARNING: World: vm 1198148: 1775: WorldInit failed: trying to cleanup.
<77>crond[1316]: USER root pid 1198947 cmd /sbin/decodeSel.sh #Every 10 minutes, translate the latest IPMI SEL data
<180>vmkernel: 4:03:55:57.158 cpu5:1794)WARNING: UserSocketInet: 588: waiters list not empty!
<166>Hostd: [2008-09-19 14:43:05.708 'Vmomi' 65541 info] Activation [N5Vmomi10ActivationE:0x1830dd70] : Invoke done [waitForUpdates] on [vmodl.query.PropertyCollector:ha-property-collector]
<166>Hostd: [2008-09-19 14:43:05.708 'Vmomi' 65541 info] Throw vmodl.fault.RequestCanceled
<166>Hostd: [2008-09-19 14:43:05.708 'Vmomi' 65541 info] Result:
<166>Hostd: (vmodl.fault.RequestCanceled) { dynamicType = <unset>, msg = "" }
<166>Hostd:
<166>Hostd: [2008-09-19 14:43:05.709 'App' 65541 error] Failed to send response to the client: Broken pipe
<180>vmkernel: 4:03:57:27.530 cpu4:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:03:57:27.530 cpu4:1497)WARNING: World: vm 1195856: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:03:57:27.530 cpu4:1497)WARNING: World: vm 1195856: 1775: WorldInit failed: trying to cleanup.
<166>Hostd: [2008-09-19 14:44:48.330 'App' 638993 error] Failed to send response to the client: Broken pipe
<166>Hostd: [2008-09-19 14:44:48.331 'App' 638993 error] Failed to send response to the client: Broken pipe
<166>last message repeated 1 times
<166>Hostd: [2008-09-19 14:44:48.332 'App' 638993 error] Failed to send response to the client: Broken pipe
<166>Hostd: [2008-09-19 14:44:48.333 'App' 638993 error] Failed to send response to the client: Broken pipe
<166>Hostd: [2008-09-19 14:44:48.334 'App' 638993 error] Failed to send response to the client: Broken pipe
<46>last message repeated 1 times
<46>-- MARK --

spätestens ab jetzt ist der Server weg.

<166>Hostd: [2008-09-19 14:47:55.740 'VmMisc' 98311 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:47:56.109 'VmMisc' 131081 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:47:56.320 'VmMisc' 311308 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:47:56.363 'VmMisc' 311308 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:47:56.993 'VmMisc' 311308 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:00.896 'VmMisc' 327693 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:08.314 'VmMisc' 540687 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:08.316 'VmMisc' 540687 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:08.317 'VmMisc' 540687 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:20.837 'VmMisc' 540687 warning] Failed to validate VM IP address: unknown
<166>Hostd: [2008-09-19 14:48:21.776 'VmMisc' 311308 warning] Failed to validate VM IP address: unknown

jetzt ist der Server wieder da.

<77>crond[1316]: USER root pid 1200427 cmd /sbin/decodeSel.sh #Every 10 minutes, translate the latest IPMI SEL data
<180>vmkernel: 4:04:10:32.384 cpu4:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:04:10:32.384 cpu4:1497)WARNING: World: vm 1201952: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:04:10:32.384 cpu4:1497)WARNING: World: vm 1201952: 1775: WorldInit failed: trying to cleanup.
<180>vmkernel: 4:04:10:35.034 cpu7:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:04:10:35.034 cpu7:1497)WARNING: World: vm 1202053: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:04:10:35.034 cpu7:1497)WARNING: World: vm 1202053: 1775: WorldInit failed: trying to cleanup.
<180>vmkernel: 4:04:10:37.138 cpu7:1497)WARNING: UserThread: 406: Peer table full for sfcbd
<180>vmkernel: 4:04:10:37.138 cpu7:1497)WARNING: World: vm 1202138: 910: init fn user failed with: Out of resources!
<180>vmkernel: 4:04:10:37.138 cpu7:1497)WARNING: World: vm 1202138: 1775: WorldInit failed: trying to cleanup.
<77>crond[1316]: USER root pid 1202505 cmd /sbin/decodeSel.sh #Every 10 minutes, translate the latest IPMI SEL data
<77>crond[1316]: USER root pid 1202717 cmd /sbin/auto-backup.sh #first minute of every hour (run every hour)
<181>vmkernel: 4:04:13:53.972 cpu1:1202773)Hardware: 2150: Setting RTC date'n'time to: 9/19/2008, 15:1:1
<166>Hostd: [2008-09-19 15:01:10.559 'App' 720914 error] Failed to send response to the client: Broken pipe
<46>-- MARK --

17:07:32

Wieso der Host seine eigene IP nicht für gültig erklärt bekommt ist mir schleierhaft. Es gibt definitiv keine doppelte Belegung dieser IP im Netz.

Ich bin auch schon von einem Switch aufs nächste umgezogen. Hab es mit 100MBit und 1GBit probiert, es bleibt wie es ist, Hardwareprobleme kann ich eigentlich ausschliessen.

Hat irgendwer ne Idee ?
Oder wenn euch sonst noch an dem SysLog auffällt, ich bin für jeden Hinweis dankbar.

Vielen Dank für eure Mühen!

Pit

bla!zilla · Beitragvon **bla!zilla** » 19.09.2008, 20:24

Du schreibst von "Blades", also gehe ich davon aus, dass du mehrere Server hast. Hardware mal getauscht??

ESXiU2 · Beitragvon **ESXiU2** » 19.09.2008, 20:49

Ja, zu dem zweiten Rechner fehlen aber noch die Platten.
Sollen Di. kommen...

Mir ist das zu heiß die aktuellen Platten in die andere Kiste zu stecken und drauf zu hoffen das das gut geht... ich hätte zwar kein Datensicherheitsproblem, aber ich kann die VMs derzeit nirgends zwischensichern, ein Crash wär ne Menge kaputter Arbeit denn ansonsten funktioniert alles genial, bis eben auf den Ausstieg alle 3h.

Pit

od73 · Beitragvon **od73** » 20.09.2008, 09:34

Servus Pit,

wie hast du denn die Netze konfiguriert? Ein eigenes VLan für die SC und diverse VLans für die VMs? Wenn alles ausfällt, dann schau dir doch mal die Logs der Switche an. Vielleicht liegt da das Problem. Hast du irgendwelche Ports am phys. Switch zusammengefasst? So ein Verhalten hab ich bei einem ESX noch nicht erlebt. Ich Tipp eher auf ein Konfig- oder Hardware Problem.

Gruß

Alex

ESXiU2 · Beitragvon **ESXiU2** » 22.09.2008, 10:37

Vermutlich habe ich den Fehler gefunden...

Habe unsere diversen Hardwareverteilungen mal genauer gecheckt, und dabei festgestellt, das hinter einem Switch negative Pingzeiten erreicht werden. Auf diesem Switch hing auch ein Infrastructure Client. Seit dem der aus ist (So. 21:45) ist Ruhe.

Drauf gekommen bin ich dadurch, das der "Todes"-Intervall übers WE deutlich unregelmässiger und Zeitabstände bis 6h erreicht wurden. Dann starb das System aber wieder recht schnell als ich an dem entsprechenden VI-Clienten gearbeitet habe.

Der Zugriff aufs Netz und auch den VM-Server über dieses Switch bereitet eigentlich keinerlei Probleme, gut 1/3 unseres Datenverkehrs läuft über diesen Switch.

Heute Abend kann ich den Switch tauschen, dann berichte ich noch mal.

Pit

schojo · Beitragvon **schojo** » 06.11.2008, 09:28

und? hat sich noch was ergeben?

die logs kommen mir mehr als bekannt vor, allerdings stirbt er bei uns nicht alle 3 stunden, dafür aber mit denselben symptomen

zacker · Beitragvon **zacker** » 17.11.2008, 10:03

Hatte ein ähnliches Phänomen.

Lösung bei mir war das die Service-Konsole zuwenig Speicher hatte.

--> Konfiguration --> Arbeitsspeicher --> Eigenschaften --> 800 MB einstellen und neu booten

thomas_th · Beitragvon **thomas_th** » 15.03.2009, 10:36

Mhm ... mal eine Frage, wo hast Du die Arbeitsspeicherzuweisung eingestellt, unter:

Configuration > System Ressource Allocation > Edit ... oder an anderer Stelle?

Gruß
Thomas

PANIC · Beitragvon **PANIC** » 16.03.2009, 12:31

Nein:

das geht unter:

Configuration > Memory > Edit

Danach ist ein reboot fällig.

thomas_th · Beitragvon **thomas_th** » 16.03.2009, 17:27

Mhm ok ... habe glaube ich die falsche Version (3.5), da gibt es kein EDIT.

Gruß
Thomas

VMware-Forum

ESXi "stirbt" ca. alle 3h für 2-5 min.

ESXi "stirbt" ca. alle 3h für 2-5 min.

Wer ist online?