coredump/PSOD auf ESX3.5u2 - lost heartbeat?

eyebear · Beitragvon **eyebear** » 24.11.2008, 14:37

Moin,

heute morgen fand ich einen lila SOD auf unserem ESX-Server.
Da stand etwas von "lost heartbeat".
Im kernel-log findet man dann:

49:00:01:43.513 cpu5:1061)VSCSI: 2871: Completing reset on handle 8228 (0 outstanding commands)
51:04:17:07.236 cpu3:1041)BC: 814: FileIO failed with 0x0xbad0006(Limit exceeded)

Danach kommen noch ganz viele cimprovagt und cimserver Abschüsse und das war es dann wohl.

So richtig werde ich daraus nicht schlau - war es jetzt ein Hartware-Fehler oder ein Software-Fehler?

mfG
Andreas

Tschoergez · Beitragvon **Tschoergez** » 24.11.2008, 16:00

Hi,

was für storage verwendet Ihr?
FC, iSCSI oder NFS?

wie viele ESXsehen den storage?

Hast Du viele VMs mit Snapshots?

viele grüße,
jörg

eyebear · Beitragvon **eyebear** » 16.12.2008, 09:35

Tschoergez hat geschrieben:Hi,
Was für storage verwendet Ihr?
FC, iSCSI oder NFS?
wie viele ESX sehen den storage?

Wir haben bislang nur lokalen Storage mit SAS

- ein Intel/LSI MegaRaid SAS1064R an bus 1 - hier hängen die Platten dran

- ein Adaptec 29320A für den Bandwechsler.

Die Platten sind ein Raid 5-Verbund, der sich nach außen als ein Volume darstellt.

Ist bislang nur ein ESX.

Am besten ist der Support von denen: tut uns leid, wir können nichts machen.

Frohes Schaffen - Andreas

eyebear · Beitragvon **eyebear** » 16.12.2008, 16:59

Boah...

heute hat der Support-Mensch festgestellt, das meine /root-partition voll sei und das das der Grund für den Absturz sei.

Wann ist /ruth den voll?

So?
[root@raithvm02 root]# vdf -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda2 4.9G 4.1G 509M 90% /
/dev/sda1 97M 26M 67M 29% /boot
none 132M 0 132M 0% /dev/shm
/dev/sda6 2.0G 74M 1.8G 4% /var/log
/vmfs/devices 2.0T 0 2.0T 0% /vmfs/devices
/vmfs/volumes/48ad7566-1d0cedea-498b-001517668359
672G 421G 250G 62% /vmfs/volumes/raithvm02:storage1

Oder so?
[root@raithvm02 root]# du -sh *
4.0K anaconda-ks.cfg
12K install.log
4.0K install.log.syslog
97M old_cores
[root@raithvm02 root]#

Irgendwie glaub ich dem Manne nicht.

Tschoergez · Beitragvon **Tschoergez** » 17.12.2008, 12:02

Ok. sieht eigentlich ganz gut aus soweit mit den freien Speicherplatz (auch wenn nicht übermäßig viel ist).

Und die Fehlermeldung hängt mit SCSI-reservation conflicts zusammen (drum meine Frage nach den Snapshots), aber auf einem einzelnen ESX sollte das gar nicht auftreten (schließlich ist der komplett für sich selber zutändig :grin:

)

Das mit den cimagents bringt mich auf ne andere Idee (wurde vor einiger Zeit schon mal diskutiert):
Hast Du irgendwelche 3rd party agents in der Service Console?
Sachen wie die HP SIM Agenten?

Da gabs nämlich KNown issues mit solchen auswrikungen, z.B. hier
http://communities.vmware.com/message/9 ... 1C4E49B397

Vielleich bringt Dich (und den Supportler) das in die richtige Richtung...

Viele Grüße,
Jörg

eyebear · Beitragvon **eyebear** » 17.12.2008, 15:03

Hi Jörg,

ja das mit dem Agenten ist auch meine Vermutung -allerdings mehr so in Richtung das ein Teil in dem logging/cim etwas im argen ist.

Wir setzen auf der Maschine den Agenten von Intel ein - RAID Web Console 2.
Der zeigt wenigstens den Status der Hardware richtig an - der Kram von VMware war am Anfang der Meinung das unsere Bakterie (Batterie) am 2.ten Controller inne Wicken wär. Dabei war die nur am laden.

Nach ein paar mal booten war es dann auch dem VMware-Software-Zoo klar, das die Bakterie in Ordnung war.

Und - was wir noch gar nicht gemacht haben: updates eingespielt - in dem was da so durch kam tauchte auch das Wort "LSI Logic" auf und das scheint ja was für uns zu sein.

Vom Support von VMware bin ich jedenfalls nicht so begeistert. Support geht anders.

Naja, heute habe ich mich wieder beruhigt, gestern hätte ein Mittelstreckenrakete abgefeuert...

bla!zilla · Beitragvon **bla!zilla** » 17.12.2008, 15:47

Was soll der Support deiner Meinung nach machen? Dir das Händchen halten? Vorbeikommen und selber gucken? Ich finde solche Kommentare immer außerordentlich lustig.

btw: / ist zu 90% voll. Das ist schon recht viel und kurz vor "voll".

eyebear · Beitragvon **eyebear** » 18.12.2008, 20:56

bla!zilla hat geschrieben:Was soll der Support deiner Meinung nach machen? Dir das Händchen halten? Vorbeikommen und selber gucken? Ich finde solche Kommentare immer außerordentlich lustig.

Ganz einfach: mich fragen ob ich mit der Lösung zufrieden bin. Stattdessen haben sie bei VMware einfach den SR mit "Wir können nichts finden" zugemacht.

Dann habe ich ihn wieder öffnen lassen und bekam als nächstes die Nummer mit dem vollen Verzeichnis präsentiert. Froh dass der Supporter was gefunden hat, hat er den Call wieder zugemacht.

Ausserdem fehlte ihnen der dump in dem Paket was sie von mir haben wollten... sie hätten ja auch mal fragen können woher ich meine Fehlermeldung hatte - aus dem Dump.

Die haben einfach zweimal den Call zugemacht ohne mich zu frage - so geht Support einfach nicht.

MisterX · Beitragvon **MisterX** » 19.12.2008, 10:16

Hallo Andreas,

wir nutzen zwar FSC, aber hatten ähnliche Meldungen.
Bei uns war die Lösung den Speicher für die ServiceConsole (auf 800MB) zu vergrößern.
Siehe auch http://vmware-forum.de/viewtopic.php?t=14486

Meine Vermutung:
Da dieses Problem bei uns auch erst seid Update3 auftaucht, wird wohl die 272MB (Default) nicht mehr ganz reichen, gerade wenn mann dann noch wie bei Euch den HP-Agent, bei uns den FSC-Agent nutzen möchte/muss.

bei uns hat es geholfen, hoffe bei euch hilft das auch

VMware-Forum

coredump/PSOD auf ESX3.5u2 - lost heartbeat?

coredump/PSOD auf ESX3.5u2 - lost heartbeat?

Wer ist online?