Guten Morgen zusammen,
Ich habe einen Cisco C240 M4S2 im Rechenzentrum stehen.
Leider ist dieser nun über Wochen 1-2 mal einfach in einem PSOD gelaufen. Ich habe dadurch das Problem, das ich den Server dann aus der Ferne garnicht mehr ansteuern kann. Ich muss vor Ort gehen und den Server physisch neustarten.
Hat dort jemand eine Idee wie ich das dort hin fahren umgehen kann ? Wichtig ist natürlich auch erstmal den Fehler zu analysieren, weshalb das überhaupt passiert. Wäre cool wenn sich dies mal jemand anschauen kann. Screenshot vom PSOD im Anhang. Leider habe ich echt keine Ahnung, was der PSOD mir sagen will…
Danke! und ganz liebe Grüße
Skysurfer
Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!
PSOD Problem
Re: PSOD Problem
1.) ESXi aktualisieren (der angezeigte Build ist JAHRE alt)
2.) Pruefen, ob der Cisco nicht einen BMC (Baseboard Management Controller) hat. So ein Chip auf dem Mainboard erlaubt das Aus- und Einschalten des Rechners ueber seine Webinterfaces (HTML/SSH/Telnet/...) unabhaengig vom Zustand des ausgefuehrten Betriebssystems, und eben auch aus der Ferne ueber's Netzwerk.
2a.) Falls der Cisco einen solchen BMC NICHT aufweisen sollte: Beim naechsten Mal SERVER-Hardware fuer SERVER-Aufgaben einkaufen. (Das ist NICHT CISCO-bezogen! Auch andere Server-Hersteller haben Geraetschaften OHNE solche Features im Angebot.)
3. Der PSoD sagt doch deutlich, wo das Problem aufgefallen ist: Beim Speicher-Management. Und gibt auch gleich einen Handlungsvorschlag: Den HW-Hersteller kontaktieren.
Memory Scrubbing ist eine Funktion der Mainboard-Hardware (zusammen mit Prozessor und Speichermodulen). Sollte das Mainboard einen BMC aufweisen (siehe Punkt 2.), dann fuehrt der vmtl. auch ein Log von aufgetretenen Events. Da wuerde man dann entsprechende Hinweise finden koennen.
Edit:
Gerade mal die Muehe gemacht, und nach einem Datasheet fuer diesen in Ehren ergrauten (wesewgen wohl nicht wie im PSoD angeraten der HW-Hersteller kontaktiert wird) Rechenknecht gesucht:
[...]
Cisco Integrated Management Controller
● Integrated Baseboard Management Controller (BMC)
● IPMI 2.0 compliant for management and control
● One 10/100/1000 Ethernet out-of-band management interface
● CLI and WebGUI management tool for automated, lights-out management
● KVM
[...]
Da ist doch alles vorhanden, was man so braucht.
Ehrlich, ich verstehe nicht, warum man erst teuer Geld fuer Features rauswirft, die dann nicht genutzt werden...
Obwohl sie offenbar sehr nuetzlich sein koennen
2.) Pruefen, ob der Cisco nicht einen BMC (Baseboard Management Controller) hat. So ein Chip auf dem Mainboard erlaubt das Aus- und Einschalten des Rechners ueber seine Webinterfaces (HTML/SSH/Telnet/...) unabhaengig vom Zustand des ausgefuehrten Betriebssystems, und eben auch aus der Ferne ueber's Netzwerk.
2a.) Falls der Cisco einen solchen BMC NICHT aufweisen sollte: Beim naechsten Mal SERVER-Hardware fuer SERVER-Aufgaben einkaufen. (Das ist NICHT CISCO-bezogen! Auch andere Server-Hersteller haben Geraetschaften OHNE solche Features im Angebot.)
3. Der PSoD sagt doch deutlich, wo das Problem aufgefallen ist: Beim Speicher-Management. Und gibt auch gleich einen Handlungsvorschlag: Den HW-Hersteller kontaktieren.
Memory Scrubbing ist eine Funktion der Mainboard-Hardware (zusammen mit Prozessor und Speichermodulen). Sollte das Mainboard einen BMC aufweisen (siehe Punkt 2.), dann fuehrt der vmtl. auch ein Log von aufgetretenen Events. Da wuerde man dann entsprechende Hinweise finden koennen.
Edit:
Gerade mal die Muehe gemacht, und nach einem Datasheet fuer diesen in Ehren ergrauten (wesewgen wohl nicht wie im PSoD angeraten der HW-Hersteller kontaktiert wird) Rechenknecht gesucht:
[...]
Cisco Integrated Management Controller
● Integrated Baseboard Management Controller (BMC)
● IPMI 2.0 compliant for management and control
● One 10/100/1000 Ethernet out-of-band management interface
● CLI and WebGUI management tool for automated, lights-out management
● KVM
[...]
Da ist doch alles vorhanden, was man so braucht.
Ehrlich, ich verstehe nicht, warum man erst teuer Geld fuer Features rauswirft, die dann nicht genutzt werden...
Obwohl sie offenbar sehr nuetzlich sein koennen
Re: PSOD Problem
Danke dir für die schnelle Antwort!!!
zu 1. Kann ich das ESXI einfach aus der Ferne updaten?
zu 2. Das verstehe ich nicht ganz. Soll ich prüfen ob das im Bios auf dem Server aktiviert ist?
zu 3. Sorry
Aber ich sehe da nur Verwirrung
. Habe ich jetzt einen Schaden an der Hardware oder wie ? Wen soll ich denn da kontaktieren und vor allem, was soll ich denen sagen... 
Hast du zufällig Discord, das man vielleicht mal sprechen könnte? Finde es persönlich über den schreibweg etwas schwer...
Danke dir nochmal!!!
Vielleicht hilft dir das noch:
Der Server hat folgende Hardware:
Modell: Cisco UCSC-C240-M4S2
2x Prozessor - Intel Xeon E5-2637 v4 @ 3.50 GHz
128GB RAM (von Samsung)
16 Festplatten im Raid Modus. (SSHDS)
zu 1. Kann ich das ESXI einfach aus der Ferne updaten?
zu 2. Das verstehe ich nicht ganz. Soll ich prüfen ob das im Bios auf dem Server aktiviert ist?
zu 3. Sorry
Hast du zufällig Discord, das man vielleicht mal sprechen könnte? Finde es persönlich über den schreibweg etwas schwer...
Danke dir nochmal!!!
Vielleicht hilft dir das noch:
Der Server hat folgende Hardware:
Modell: Cisco UCSC-C240-M4S2
2x Prozessor - Intel Xeon E5-2637 v4 @ 3.50 GHz
128GB RAM (von Samsung)
16 Festplatten im Raid Modus. (SSHDS)
Re: PSOD Problem
Also, zuerst s.o.
Ja, vmtl. gibt's einen Schaden an einem Speichermodul (oder unwahrscheinlicher am Memory Controller in der CPU). Details kann aber nur das Log im BMC liefern.
Ich selber kenne die Ciscos (und deren IMC) leider nicht, aber vielleicht liest ja hier jemand mit, der "schnell" ein paar Handlungstipps geben kann.
Re: PSOD Problem
Danke nochmal für deine Antwort.
Könnten wir vielleicht mal irgendwie sprechen, da es über schreiben echt etwas doof ist.
Ich habe tatsächlich kaum etwas an Geld ausgegeben, weshalb mir vieles relativ egal ist
Ich müsste dir mal die Umstände erklären, wieso weshalb das alles so ist.
ich bin ehrlich..
Baseboard Management Controller (BMC)
Absolutes Neuland für mich, ich verstehe immer noch nicht was das ist, was das macht und wie ich das nutze, ändere oder aufrufe
Könnten wir vielleicht mal irgendwie sprechen, da es über schreiben echt etwas doof ist.
Ich habe tatsächlich kaum etwas an Geld ausgegeben, weshalb mir vieles relativ egal ist
Ich müsste dir mal die Umstände erklären, wieso weshalb das alles so ist.
ich bin ehrlich..
Baseboard Management Controller (BMC)
Absolutes Neuland für mich, ich verstehe immer noch nicht was das ist, was das macht und wie ich das nutze, ändere oder aufrufe
Re: PSOD Problem
Skysurfer hat geschrieben:weshalb mir vieles relativ egal ist
Naja, das ist jetzt nicht unbedingt hilfreich...
Immerhin ist Dir ja schon einmal die "Anreise" zum Rechner laestig.
Ich wuerde empfehlen, entweder sich selbst ein klein wenig einzuarbeiten (z.B. liefert gleich die erste G*gle-Seite Links zu YouTube-Videos), oder einen Freelancer mit Cisco-KnowHow für 1-2 Stunden einzukaufen, der/die einem die Basics mal naeherbringt.
Cisco selbst wird's wohl so ohne Weiteres nicht tun, weil das Geraet seit Anfang 2024 ausser Support ist (laut deren Website).
Re: PSOD Problem
Das hinfahren ist tatsächlich für mich überhaupt nicht möglich. Server steht im Norden ich wohne im Süden.
Ein Freund arbeitet dort im Rechenzentrum, weshalb dieser bei Problemen Hand anlegt. Will ihn aber nicht ständig nerven...
Die Fehleranalyse ist eine Sache, natürlich will ich das fixen! Aber die andere Sache ist, was ist, wenn dies auf anderer Art und Weise nochmal passiert.
Ich überlege gerade eine IP-Steckdose zu kaufen und den Server somit abzuschalten und dann per Wake on Lan wieder einschalten kann...
Hast du in dem Bereich Erfahrung?
edit:
ich glaube die Lösung ist CIMC... Habe etwas recherchiert. Richte mir das jetzt ein und dann kann ich über den Cisco Management Controller meinen Server hoch und runterfahren unabhängig vom installierten Betriebssystem ESXI mit einem PSOD...
Jetzt fehlt nur noch die Analyse des PSOD's. Kann dort jemand etwas detaillierteres sagen ?
Ein Freund arbeitet dort im Rechenzentrum, weshalb dieser bei Problemen Hand anlegt. Will ihn aber nicht ständig nerven...
Die Fehleranalyse ist eine Sache, natürlich will ich das fixen! Aber die andere Sache ist, was ist, wenn dies auf anderer Art und Weise nochmal passiert.
Ich überlege gerade eine IP-Steckdose zu kaufen und den Server somit abzuschalten und dann per Wake on Lan wieder einschalten kann...
Hast du in dem Bereich Erfahrung?
edit:
ich glaube die Lösung ist CIMC... Habe etwas recherchiert. Richte mir das jetzt ein und dann kann ich über den Cisco Management Controller meinen Server hoch und runterfahren unabhängig vom installierten Betriebssystem ESXI mit einem PSOD...
Jetzt fehlt nur noch die Analyse des PSOD's. Kann dort jemand etwas detaillierteres sagen ?
- MarroniJohny
- Profi
- Beiträge: 673
- Registriert: 20.10.2011, 17:55
Re: PSOD Problem
Ja genau, das Gerät hat einen CIMC. Das ist sowas wie IPMI in grün. Problem ist halt, dass Du das irgendwo anschliessen musst, vorzugsweise über VPN. Das geht nicht über das selbe Netzwerk, wo Du auf die Gäste zugreifst. Den ESXi selbst kannst Du remote verwalten? Dann hättest Du ja schon mal gewisse Voraussetzungen erfüllt.
Re: PSOD Problem
Ich habe 2 Server. Ich gehe mit lan in meinem Firewall Server. Dort ist pfsense installiert. Von da aus schleife ich weiter in meinem Cisco Server wo ESXI drauf ist. VPN und co. Ist natürlich alles eingerichtet.
Dachte ich mache jetzt einen Switch dazwischen, sodass ich noch ein LAN Kabel in die CIMC Schnittstelle stecke.
Dann konfigurieren und fertig …
Geht doch oder ? Brauche ich ja kein separates Netzwerk …
Dachte ich mache jetzt einen Switch dazwischen, sodass ich noch ein LAN Kabel in die CIMC Schnittstelle stecke.
Dann konfigurieren und fertig …
Geht doch oder ? Brauche ich ja kein separates Netzwerk …
- MarroniJohny
- Profi
- Beiträge: 673
- Registriert: 20.10.2011, 17:55
Re: PSOD Problem
Passt, ja. CIMC hatte ich noch nie gesehen. Denke aber, das ist kein Hexenwerk. Die normalen IPMI sind selbsterklärend, da kannst Du per Browser drauf zugreifen. Unter anderem bieten die eine KVM Konsole. Die alten Teils noch mit Java, da müsstest Du die 32 bit JRE installieren auf dem Client. Die moderneren Systeme laufen mit HTML 5. Im CIMC kannst Du dann ins Eventlog schauen. Falls es RAM Probleme sind, sollten die dort auftauchen.
Zum ESXi über remote updaten: die einen IPMI bieten in der KVM Konsole Media Support, wo Du eine ISO einhängen kannst. Bei anderen Systemen ist es etwas umständlicher, da musst Du ein SMB Ziel mit der gewünschten ISO angeben. Grösstes Problem wird sein, überhaupt an ein aktuelles ISO ran zu kommen. Aber Du hast ja Broadwell Xeons drin, da wäre die aktuelle VMware-VMvisor-Installer-8.0U3e-24677879.x86_64.iso noch lauffähig, sofern der Rest der Hardware da keinen Strich durch die Rechnung macht. Habe auch Broadwell E5 Xeons, bei mir läuft die v8 ohne Probleme. Nehme an, Du betreibst die freie Version von ESXi? Ein Update über SSH ist leider nicht mehr möglich ohne Lizenz.
Wenn Du eh schon vor Ort bist um den Switch zu installieren, könntest Du noch einen USB Stick mit Ventoy anhängen. Diesen kann man dann in einem Gast temporär einhängen, und allenfalls eine aktuelle ISO rein kopieren. Falls das mit dem SMB Ziel zu kompliziert oder schlicht nicht möglich ist. Holzhammermethode halt.
Die 8.0U3e braucht keinen Lizenzschlüssel, die kannst Du bei Broadcom herunter laden. Falls Du bei v7 bleiben willst, könnte ich Dir noch eine halbwegs aktuelle anbieten. Aber halt auch nicht mehr die neueste.
Zum ESXi über remote updaten: die einen IPMI bieten in der KVM Konsole Media Support, wo Du eine ISO einhängen kannst. Bei anderen Systemen ist es etwas umständlicher, da musst Du ein SMB Ziel mit der gewünschten ISO angeben. Grösstes Problem wird sein, überhaupt an ein aktuelles ISO ran zu kommen. Aber Du hast ja Broadwell Xeons drin, da wäre die aktuelle VMware-VMvisor-Installer-8.0U3e-24677879.x86_64.iso noch lauffähig, sofern der Rest der Hardware da keinen Strich durch die Rechnung macht. Habe auch Broadwell E5 Xeons, bei mir läuft die v8 ohne Probleme. Nehme an, Du betreibst die freie Version von ESXi? Ein Update über SSH ist leider nicht mehr möglich ohne Lizenz.
Wenn Du eh schon vor Ort bist um den Switch zu installieren, könntest Du noch einen USB Stick mit Ventoy anhängen. Diesen kann man dann in einem Gast temporär einhängen, und allenfalls eine aktuelle ISO rein kopieren. Falls das mit dem SMB Ziel zu kompliziert oder schlicht nicht möglich ist. Holzhammermethode halt.
Die 8.0U3e braucht keinen Lizenzschlüssel, die kannst Du bei Broadcom herunter laden. Falls Du bei v7 bleiben willst, könnte ich Dir noch eine halbwegs aktuelle anbieten. Aber halt auch nicht mehr die neueste.
Re: PSOD Problem
Danke dir !
Ich mache jetzt cimc flott.. und dann schaue ich weiter. Denke ich werde dann Version 8 drauf knallen. Muss nur die vms Backupen iwie. Dann muss ich noch irgendwie den psod ermitteln … Hast du zufällig discord oder so ?
Ich mache jetzt cimc flott.. und dann schaue ich weiter. Denke ich werde dann Version 8 drauf knallen. Muss nur die vms Backupen iwie. Dann muss ich noch irgendwie den psod ermitteln … Hast du zufällig discord oder so ?
- MarroniJohny
- Profi
- Beiträge: 673
- Registriert: 20.10.2011, 17:55
Re: PSOD Problem
Hoi
Habe einen Teamspeak 3 Server, Adresse findest Du auf meiner Website. Musst halt den Teamspeak 3 Client herunter laden.
Die VMs brauchst Du nicht zwingend backuppen, die v8 kannst Du auch so drüber bügeln. Hast Du für den Host selbst einen eigenen Datenträger? Oder läuft das auf Deinem RAID? Bei RAID für den Host bin ich eh raus, hier läuft nur SW RAID für die Gäste, wenn überhaupt. Wobei ein Backup ja nie verkehrt ist. Ich selbst habe den Grossteil meiner Gäste auf einem ZFS Filer (napp-it), dann kann man super bequem Gäste zwischen Pools hin und her schieben, bzw. kopieren, und auch per SMB drauf zugreifen. Die Gäste werden dann über NFS dem Host zurück gegeben, also quasi über Netzwerk. ZFS bietet auch sonst noch einige Vorteile, gerade auch auf dem ESXi.
Und falls da ein HW RAID Controller in der Kiste verbaut ist, kann da die BBU auch langsam durch sein. Von dem ganzen Rust (SSHD) ganz zu schweigen. Das wäre auch eine potentielle Fehlerquelle. Aber k.A. ob sich bei Problemen in der Hinsicht gleich der Host beleidigt mit einem PSOD verabschiedet.
Wie gesagt, wenn Dein Kumpel eh schon einen Switch dazwischen hängt, soll er doch am Host noch einen USB Stick dazu stecken. Falls das mit dem Media Support per IPMI nicht klappt. So ab 32 GB. Eine zusätzliche 256 GB USB SSD wäre auch ideal. Dann könnte man auch ein baremetal OS mit drauf hauen, um z.B. mal den Status der Platten zu ermitteln. Habe ich für Troubbleshooting immer mit an Board. Und das obwohl ich bei mir alles lokal betreibe, was eh alles viel einfacher macht.
Gruss
Habe einen Teamspeak 3 Server, Adresse findest Du auf meiner Website. Musst halt den Teamspeak 3 Client herunter laden.
Die VMs brauchst Du nicht zwingend backuppen, die v8 kannst Du auch so drüber bügeln. Hast Du für den Host selbst einen eigenen Datenträger? Oder läuft das auf Deinem RAID? Bei RAID für den Host bin ich eh raus, hier läuft nur SW RAID für die Gäste, wenn überhaupt. Wobei ein Backup ja nie verkehrt ist. Ich selbst habe den Grossteil meiner Gäste auf einem ZFS Filer (napp-it), dann kann man super bequem Gäste zwischen Pools hin und her schieben, bzw. kopieren, und auch per SMB drauf zugreifen. Die Gäste werden dann über NFS dem Host zurück gegeben, also quasi über Netzwerk. ZFS bietet auch sonst noch einige Vorteile, gerade auch auf dem ESXi.
Und falls da ein HW RAID Controller in der Kiste verbaut ist, kann da die BBU auch langsam durch sein. Von dem ganzen Rust (SSHD) ganz zu schweigen. Das wäre auch eine potentielle Fehlerquelle. Aber k.A. ob sich bei Problemen in der Hinsicht gleich der Host beleidigt mit einem PSOD verabschiedet.
Wie gesagt, wenn Dein Kumpel eh schon einen Switch dazwischen hängt, soll er doch am Host noch einen USB Stick dazu stecken. Falls das mit dem Media Support per IPMI nicht klappt. So ab 32 GB. Eine zusätzliche 256 GB USB SSD wäre auch ideal. Dann könnte man auch ein baremetal OS mit drauf hauen, um z.B. mal den Status der Platten zu ermitteln. Habe ich für Troubbleshooting immer mit an Board. Und das obwohl ich bei mir alles lokal betreibe, was eh alles viel einfacher macht.
Gruss
- MarroniJohny
- Profi
- Beiträge: 673
- Registriert: 20.10.2011, 17:55
Re: PSOD Problem
Hoi
Wir hatten heute per Teamspeak mal das IPMI in Betrieb genommen und ESXi auf das 8i aktualisiert. @TE Hab mir mal Deine Hardware Specs nochmals angesehen. Du betreibst da ein riesen Eisenschwein mit zwei echt lahmen Quadcores. Würde da mal bisschen upgraden. Entweder eine oder zwei E5-2697A v4, die sind so der P/L Sweetspot. Eine alleine würde schon ca. die doppelte Power von Deinen zwei CPUs zusammen her geben. 16 Kerner, 2.6 GHz Grundtakt, 3.1 GHz Allcore und 3.6 GHz Singlecore, wenn ich das richtig in Erinnerung habe. Sehe da in der Bucht gerade ein Angebot aus GER für 50.- Euro pro Stück.
Weiss jetzt gerade nicht, was Du für RAM gesteckt hast. Ideal sind pro CPU min 4 RAM Riegel. Falls bei Dir der RAM defekt ist, würde ich je nach Anforderungen und CPU Bestückung 4x 16, 8x 16, 4x 32 oder 8x 32 GB stecken. Du bräuchtest da RDIMM oder LRDIMM 2400 MHz. Aber leider sind die RAM Preise total rauf gegangen in den letzten 2-3 Monaten. Da gilt es gute Angebote abzuwarten. Hatte letzthin für 4x 32 GB RDIMM 2400 70.- Euro bezahlt, im Mainserver habe ich für 4x 64 LRDIMM knapp 300.- hin gelegt.
Falls der Speicher Fehler wieder auftaucht, würde ich erst die CPU tauschen, eine reicht ja. Dann muss man die Sticks halt dementsprechend umstecken. Was sind denn das genau für Riegel? 8x16er?
Kannst ja sonst wie besprochen Morgen nochmal auf TS kommen. Da kann man ohne grosse Investitionen noch einiges aus der Kiste raus holen. Weil wie gesagt, zwei Quadcores machen da Null Sinn.
Wir hatten heute per Teamspeak mal das IPMI in Betrieb genommen und ESXi auf das 8i aktualisiert. @TE Hab mir mal Deine Hardware Specs nochmals angesehen. Du betreibst da ein riesen Eisenschwein mit zwei echt lahmen Quadcores. Würde da mal bisschen upgraden. Entweder eine oder zwei E5-2697A v4, die sind so der P/L Sweetspot. Eine alleine würde schon ca. die doppelte Power von Deinen zwei CPUs zusammen her geben. 16 Kerner, 2.6 GHz Grundtakt, 3.1 GHz Allcore und 3.6 GHz Singlecore, wenn ich das richtig in Erinnerung habe. Sehe da in der Bucht gerade ein Angebot aus GER für 50.- Euro pro Stück.
Weiss jetzt gerade nicht, was Du für RAM gesteckt hast. Ideal sind pro CPU min 4 RAM Riegel. Falls bei Dir der RAM defekt ist, würde ich je nach Anforderungen und CPU Bestückung 4x 16, 8x 16, 4x 32 oder 8x 32 GB stecken. Du bräuchtest da RDIMM oder LRDIMM 2400 MHz. Aber leider sind die RAM Preise total rauf gegangen in den letzten 2-3 Monaten. Da gilt es gute Angebote abzuwarten. Hatte letzthin für 4x 32 GB RDIMM 2400 70.- Euro bezahlt, im Mainserver habe ich für 4x 64 LRDIMM knapp 300.- hin gelegt.
Falls der Speicher Fehler wieder auftaucht, würde ich erst die CPU tauschen, eine reicht ja. Dann muss man die Sticks halt dementsprechend umstecken. Was sind denn das genau für Riegel? 8x16er?
Kannst ja sonst wie besprochen Morgen nochmal auf TS kommen. Da kann man ohne grosse Investitionen noch einiges aus der Kiste raus holen. Weil wie gesagt, zwei Quadcores machen da Null Sinn.
Wer ist online?
Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste