MCA fatal error / Memory Controller Error

pirx · Beitragvon **pirx** » 28.04.2016, 17:34

Hallo,

im Rahmen ein Support Cases wurde festgestellt das ein ESXi Host Problem mit dem RAM hat. In dem Case ging es eigentlich um etwas anderes. Mich hat es gewundert das der Hosts selber keinen Alarm erzeugt hat, auch das ILO/iRMC zeigt keine Fehler an.

Darauf habe ich die Logs aller ESXi Hosts nach MCA Meldungen durchsucht und habe einige dutzend Einträge gefunden. Betroffen sind aktuell wohl 9 Hosts mit unterschiedlicher Hardware,

Laut VMware Support werden für diese Fehler keine Alarme generiert. Was ich mich jetzt frage - bevor ich 9 Tickets bei den Server Herstellern eröffne - sind das Fehler die kritisch sind sind, oder ist das alles im "normalen" Rahmen und kann ignoriert werden? Die Hardwareüberwachung der Server zeigt bei keinem der Hosts Fehler an. VMware verweist aber an den Hardwarehersteller.

Code: Alles auswählen

xxxx2109/xxxx2109.log.20.gz:Apr  8 08:30:58 xxxx2109 vmkernel: cpu16:2453028)MCE: 189: cpu16: bank7: MCA fatal error (CE): "Memory Controller Read Error on Channel 0."
xxxx2109/xxxx2109.log.24.gz:Apr  4 11:08:42 xxxx2109 vmkernel: cpu16:641689)MCE: 189: cpu16: bank9: MCA fatal error (CE): "Memory Controller Scrubbing Error on Channel 0."

xxxx2111/xxxx2111.log.17.gz:Apr 11 09:29:39 xxxx2111 vmkernel: cpu1:2741314)MCE: 189: cpu1: bank10: MCA fatal error (CE): "Memory Controller Scrubbing Error on Channel 1."

xxxx2112/xxxx2112.log.6.gz:Apr 22 08:09:54 xxxx2112 vmkernel: cpu16:3854326)MCE: 189: cpu16: bank10: MCA fatal error (CE): "Memory Controller Scrubbing Error on Channel 1."

xxxx2123/xxxx2123.log.1:Apr 28 00:03:35 xxxx2123 vmkernel: cpu16:4189792)MCE: 189: cpu16: bank5: MCA fatal error (CE): "Memory Controller Read Error on Channel 1."
xxxx2123/xxxx2123.log.12.gz:Apr 16 17:28:30 xxxx2123 vmkernel: cpu16:3384059)MCE: 189: cpu16: bank9: MCA fatal error (CE): "Memory Controller Scrubbing Error on Channel 1."

xxxx2416/xxxx2416.log.28.gz:Mar 31 10:32:37 xxxx2416 vmkernel: cpu12:1004048)MCE: 189: cpu12: bank9: MCA fatal error (CE): "Memory Controller Scrubbing Error on Channel 0."

xxxx8002/xxxx8002.log.24.gz:Apr  4 12:05:47 xxxx8002 vmkernel: cpu40:2802668)MCE: 189: cpu40: bank9: MCA fatal error (CE): "Memory Controller Error."

xxxx0001/xxxx0001.log.26.gz:Mar 30 17:17:10 xxxx0001 vmkernel: cpu60:37606)MCE: 189: cpu60: bank8: MCA fatal error (CE): "Memory Controller Error."
xxxx0001/xxxx0001.log.29.gz:Mar 27 06:30:03 xxxx0001 vmkernel: cpu60:37606)MCE: 189: cpu60: bank9: MCA fatal error (CE): "Memory Controller Error."
xxxx0001/xxxx0001.log.29.gz:Mar 27 07:45:23 xxxx0001 vmkernel: cpu60:1993899)MCE: 189: cpu60: bank9: MCA fatal error (CE): "Memory Controller Error."

xxxx0002/xxxx0002.log.20.gz:Apr  8 14:24:04 xxxx0002 vmkernel: cpu60:33328)MCE: 189: cpu60: bank8: MCA fatal error (CE): "Memory Controller Error."
xxxx0002/xxxx0002.log.22.gz:Apr  7 01:43:21 xxxx0002 vmkernel: cpu20:5613407)MCE: 189: cpu20: bank9: MCA fatal error (CE): "Memory Controller Error."
xxxx0002/xxxx0002.log.23.gz:Apr  5 11:35:45 xxxx0002 vmkernel: cpu1:33738)MCE: 189: cpu1: bank8: MCA fatal error (CE): "Memory Controller Error."

xxxx0003/xxxx0003.log.1:Apr 27 05:52:09 xxxx0003 vmkernel: cpu40:5849699)MCE: 189: cpu40: bank9: MCA fatal error (CE): "Memory Controller Error."
xxxx0003/xxxx0003.log.13.gz:Apr 15 14:17:05 xxxx0003 vmkernel: cpu1:5849671)MCE: 189: cpu1: bank8: MCA fatal error (CE): "Memory Controller Error."

JustMe · Beitragvon **JustMe** » 28.04.2016, 18:38

Du kannst es ja erst einmal mit "x" Tickets bei den "x" unterschiedlichen HW-Herstellern versuchen, und dann deren Antworten vergleichen.

Die Zeiten, in denen die HW-Ueberwachung jedes noch so kleine Ereignis aufgezeichnet hat, sind lange vorbei. Das kann sich kein HW-Hersteller mehr leisten, bei der Menge von Speicherzellen pro Server heutzutage noch fuer jeden in der Hardware korrigierten Fehler gleich die DIMMs zu tauschen. Frueher hiess es da noch "Wer weiss wie lange es dauert, bis aus den korrigierbaren Fehlern mal ein unkorrigierbarer wird."

Leider sind die daraus gezogenen Schluesse alles andere als kundenfreundlich...
...und bei unterschiedlichen Herstellern auch unterschiedlich implementiert.

Auch VMware selbst hat da schon "nachgearbeitet", und loest nicht mehr bei jedem unkorrigierbar gemeldeten Speicherfehler einen PSoD aus, sondern nur, wenn die Speicherzelle auch tatsaechlich verwendet wird.

Ich persoenlich wuerde mir zumindest um die "Scrubbing"-Meldungen keinen Kopf machen. Die anderen kann ich so nicht beurteilen.

Aber vielleicht kann man ja mal bei den 9 Servern aus den Logs ermitteln, ob die Meldungen immer zu denselben "banks" gemeldet werden, und dann von den Server-Herstellern detaillierte Informationen zur (HW-)Speicherorganisation anfordern.

Beitragvon **irix** » 28.04.2016, 19:45

Hmmm... habe mal in Loginsight nach "MCA fatal error" bzw. "MCA" gesucht und bei 17 Hosts nicht einen Eintrag gefunden. Aber die Frage ob der auch weitergeleitet werden wuerde wobei ich immer der Meinung war das alle an nen RemoteSyslog geht.

Was die "normalen" Speicherfehler angeht so kann ich nur sagen das je groesser die Module werden des haeufiger treten sie auf. Der "Actionplan" vom Support ist leider immer der gleiche und zwar Kreuztausch und am besten auch noch die CPU mit tauschen. Jedesmal ein gefrickel man glaubts kaum

. Das ist nun der Nachteil wenn man per Auschlussverfahren 3 Komponenten aussortieren muss.

Gruss
Joerg

pirx · Beitragvon **pirx** » 29.04.2016, 12:24

Ich werde testweise ein Ticket für einen Server eröffnen und schauen was der Hersteller zu der MCA/MCE Meldung im ESXi sagt. Ich fürchte ja, dass solange im Hardware Monitoring des Herstellers, bzw. den ILO/iRMC Logs nichts zu sehen ist, auch keine Aktionen jenseits von Memtest und Debugs sammeln erfolgen wird.

Beitragvon **Dayworker** » 29.04.2016, 18:41

Mit Memtest kannst du als Ergebnis das erhalten, was du dir oder dein HW-Lieferant sich immer wünscht zu sehen. Starte den Server mit einer Live-CD und laß dort Prime95 laufen, daß ergibt 100% zuverlässige Werte. Ob beim Memtest nun FF oder 01 in den RAM geschrieben und wieder ausgelesen wird, ist total nutzlos, da die Caches weiterhin ihre Arbeit machen und das Datum FF, 01 etc halt cachen. RAM-Fehler kannst du damit also nicht wirklich finden oder ein angezeigter RAM-Fehler wandert immer weiter. Bei Primezahlen gibt es da kein vielleicht sondern nur entweder oder und alle Abweichungen sind immer ein Fehler.

Du kannst auch mal überprüfen, ob der RAM so von eurem Server offiziell supportet wird und ob die Zugriffzeiten passen. Gerade letzteres kann sehr merkwürdige Fehler provozieren.

VMware-Forum

MCA fatal error / Memory Controller Error

MCA fatal error / Memory Controller Error

Wer ist online?