Die Foren-SW läuft ohne erkennbare Probleme. Sollte doch etwas nicht funktionieren, bitte gerne hier jederzeit melden und wir kümmern uns zeitnah darum. Danke!

Storagefehler im VMkernel

Moderatoren: Dayworker, irix

Member
Beiträge: 17
Registriert: 13.03.2013, 07:30

Beitragvon Tackla » 23.04.2013, 12:33

Hallo,

wenn Ihr die Verkabelung ( LWL ) verändert haben solltet, bitte Steckverbindungen und ggf. Geschwindigkeitseinstellungen überprüfen.

Wir haben einmal versehendlich eine LWL Leitung mit 8 GB/s FC betrieben obwohl diese nur für 4 GB/s ausgelegt war. Dadurch sind letzendlich unter Last CRC Fehler aufgetreten die zu den merkwürdigsten Fehlern führten. ( Sichtbar waren die bei uns dann im Datacore Log ).

Gruß

Jürgen

Member
Beiträge: 140
Registriert: 20.07.2012, 08:04
Wohnort: München
Kontaktdaten:

Beitragvon m.mart1n » 23.04.2013, 17:53

Ich bin mir mittlerweile fast sicher das es am FC Switch liegt, da die Fehler nur auftreten wenn richtig Last von mehreren gleichzeitigen Backups draufkommt. Ansonsten läuft das System bis auf den SCSI Fehlercode 0x28 wunderbar.

Da IBM sich den Storage angeschaut hat und nichts feststellen konnte tippe ich eher auf die Switche.

Dafür brauch ich aber wieder jemand der mit den Logfiles etwas anfangen kann :roll:

Experte
Beiträge: 1006
Registriert: 30.10.2004, 12:41

Beitragvon mbreidenbach » 23.04.2013, 19:08

Was sind das für FC Switche ? Falls Brocade mal Brocade SAN Health drauf los lassen.

Guru
Beiträge: 2082
Registriert: 21.10.2006, 08:24

Beitragvon bla!zilla » 23.04.2013, 21:53

SAN Health ist nett, wird die aber hier kaum weiterhelfen. Supportshow und supportsave schon eher. Check mal mit porterrshow die Error Counter der Ports (ggfls hier posten, ich bin BCFD).

Member
Beiträge: 17
Registriert: 13.03.2013, 07:30

Beitragvon Tackla » 24.04.2013, 07:40

Hallo,

Hat euer Systemhaus die Veränderungen vorgenommen ?

Wenn ja was sagt es zu den Problemen ? Generell sollten es doch in der Lage sein die hier angesprochenen Lösungsansätze zu überprüfen.....

Gruß

Jürgen

Member
Beiträge: 140
Registriert: 20.07.2012, 08:04
Wohnort: München
Kontaktdaten:

Beitragvon m.mart1n » 24.04.2013, 10:12

Hallo,

ja, es sind Brocade Switche. Einen supportsave habe ich schon gemacht und an das Systemhaus geschickt. Da warte ich noch auf eine Antwort.

Selber auslesen kann ich die Daten leider nicht bzw. haben wir auch niemand im Haus der damit was anfangen kann.

Was ist portershow? Ist das nur ein Befehl für den Switch?

Guru
Beiträge: 2082
Registriert: 21.10.2006, 08:24

Beitragvon bla!zilla » 24.04.2013, 11:20

porterrshow zeigt dir die Errorcounter der einzelnen Ports an. Hab ihr für die Brocade Switches keinen Support??? Wenn ja, dann kannst du den supportsave an Brocade schicken. Wenn nicht, dann habt ihr falsch eingekauft.

Member
Beiträge: 140
Registriert: 20.07.2012, 08:04
Wohnort: München
Kontaktdaten:

Beitragvon m.mart1n » 24.04.2013, 13:11

Das war leider vor meiner Zeit als die Switche gekauft wurden, aber hab ich bei meinem Chef schon angesprochen das das blöd gelaufen ist.

Ich poste einfach mal die Daten.

Switch 1:

Bild

Switch 2:

Bild

Switch 3:

Bild

Switch 4:

Bild

Gruß
Martin

Member
Beiträge: 140
Registriert: 20.07.2012, 08:04
Wohnort: München
Kontaktdaten:

Beitragvon m.mart1n » 24.04.2013, 13:14

Um das noch zu ergänzen.

Switch 1 und 2 sind im ersten Raum und Switch 3 und 4 im zweiten Raum.

Member
Beiträge: 17
Registriert: 13.03.2013, 07:30

Beitragvon Tackla » 25.04.2013, 08:48

Hallo,

Beim anschauen der Bilder fällt für mich sofort auf das beim Port 15 in Switch 2 Crc Fehler aufgetreten sind.Kann alt sein könnte aber auch auf den Problem hindeuten. Bitte überprüfen ob beim Backup die Fehleranzahl ansteigt

Was ist an diesem Port angeschlossen ?

Gruß

Jürgen

Member
Beiträge: 140
Registriert: 20.07.2012, 08:04
Wohnort: München
Kontaktdaten:

Beitragvon m.mart1n » 25.04.2013, 12:00

So wie ich das sehe sollte das eine der Verbindungen in den anderen Raum sein (roter Kreis)

Bild

Welche Spalte deuten jetzt auf die CRC fehler? Kann ich den Counter zurücksetzen?

Gruß
Martin

King of the Hill
Beiträge: 13657
Registriert: 01.10.2008, 12:54
Wohnort: laut USV-Log am Ende der Welt...

Beitragvon Dayworker » 25.04.2013, 16:16

Über der vierten Spalte steht "crc err", aber auch die anderen Werte für "link fail", "loss sync" und "loss signal" sollten auf den einzelnen Switches einer genaueren Beobachtung unterzogen werden.

Member
Beiträge: 17
Registriert: 13.03.2013, 07:30

Beitragvon Tackla » 26.04.2013, 07:11

ok,

Damit wären wir dann beim Thema Backend.

als nächstes würde ich jetzt folgende Dinge überprüfen :

Verkabelung zwischen den Räumen. Dafür benötigen wir dann weitere Infos

Ist zwischen den Räumen ein separates LWL Kabel verlegt?

Wenn ja :

- welcher Typ
- wie lang ist es
- mit welcher Geschwindigkeit wird es mit FC betrieben
- sind mechanische Beschädigungen, Qutschungen oder scharfe Knicke vorhanden ( ggf. von einer Fachfirma überprüfen lassen )

- Sind die verlegten Patchkabel von Port 15 Switch2 OK , ist der Steckkontakt frei von Schmutz oder Staub ?

- Sind die SFP OK?

- Ist die richtige Geschwindigkeit für Port 15 eingestellt ?

Solltest du mit diesen Fragen überfordert sein so rate ich dir dringend dazu einen kompetenten Dienstleister mit der Fehlersuche zu beauftragen !

Guru
Beiträge: 2082
Registriert: 21.10.2006, 08:24

Beitragvon bla!zilla » 26.04.2013, 08:09

Also loss sig , loss sync und enc out treten jedes Mal auf, wenn der Port aktiviert, deaktiviert, oder ein angeschlossenes System neu gestartet wird. Enc out Fehler deuten auf Kabelprobleme hin, da die CRC Fehler Fehlen, würde ich SFPs ausschließen. Enc Out sind Encoding Errors, die außerhalb des FC Frames aufgetreten sind. Daher treten die z.B. bei der Initialisierung auf.

Member
Beiträge: 140
Registriert: 20.07.2012, 08:04
Wohnort: München
Kontaktdaten:

Beitragvon m.mart1n » 26.04.2013, 08:11

Hallo,

vielen Dank für die zahlreichen Tipps.

Ich habe nochmal mit IBM telefoniert und die haben sich die Switche auch nochmal angeschaut.

Da jetzt am Wochenende wieder das Fullbackup ansteht werde ich einmal jetzt die Counter zurücksetzen und schauen wie es sich verhält.

Was ich noch bei sfpshow -all gesehen habe ist folgendes.

Switch 2:

=============
Port 15:
=============
Identifier: 3 SFP
Connector: 7 LC
Transceiver: 150c402001000000 100,200,400_MB/s M5,M6 sw Inter_dist
Encoding: 1 8B10B
Baud Rate: 42 (units 100 megabaud)
Length 9u: 0 (units km)
Length 9u: 0 (units 100 meters)
Length 50u: 15 (units 10 meters)
Length 62.5u:7 (units 10 meters)
Length Cu: 0 (units 1 meter)
Vendor Name: FINISAR CORP.
Vendor OUI: 00:90:65
Vendor PN: FTLF8524P2BNV
Vendor Rev: A
Wavelength: 850 (units nm)
Options: 003a Loss_of_Sig,Tx_Fault,Tx_Disable
BR Max: 0
BR Min: 0
Serial No: PK21CK0
Date Code: 110104
Temperature: 28 Centigrade
Current: 7.798 mAmps
Voltage: 3340.5 mVolts
RX Power: -18.9 dBm (13.0 uWatts)
TX Power: -4.0 dBm (395.2 uWatts)


Switch 4:

=============
Port 15:
=============
Identifier: 3 SFP
Connector: 7 LC
Transceiver: 150c402001000000 100,200,400_MB/s M5,M6 sw Inter_dist
Encoding: 1 8B10B
Baud Rate: 42 (units 100 megabaud)
Length 9u: 0 (units km)
Length 9u: 0 (units 100 meters)
Length 50u: 15 (units 10 meters)
Length 62.5u:7 (units 10 meters)
Length Cu: 0 (units 1 meter)
Vendor Name: FINISAR CORP.
Vendor OUI: 00:90:65
Vendor PN: FTLF8524P2BNV
Vendor Rev: A
Wavelength: 850 (units nm)
Options: 003a Loss_of_Sig,Tx_Fault,Tx_Disable
BR Max: 0
BR Min: 0
Serial No: PK235M9
Date Code: 110105
Temperature: 33 Centigrade
Current: 7.532 mAmps
Voltage: 3283.1 mVolts
RX Power: -4.4 dBm (360.1 uWatts)
TX Power: -4.1 dBm (391.6 uWatts)

Was mich entwas verwundert ist, das der letztere Switch einen Transmit von -4.1 dBm hat aber der erste Switch nur einen Receive von -18.9.
Das deutet ebenfalls auf Verkabelung hin, oder?

Member
Beiträge: 140
Registriert: 20.07.2012, 08:04
Wohnort: München
Kontaktdaten:

Beitragvon m.mart1n » 26.04.2013, 08:15

bla!zilla hat geschrieben: Enc Out sind Encoding Errors, die außerhalb des FC Frames aufgetreten sind. Daher treten die z.B. bei der Initialisierung auf.


Die Frage ist nur in welcher Menge.

die Enc Out werte haben sich in den letzten Tagen wie folgt verhalten:

21.04.: 650m
24.04.: 2.8g
26.04.: 3.5g

So ein schneller Anstieg ist sicher nicht mehr innerhalb der Norm :)

Guru
Beiträge: 2082
Registriert: 21.10.2006, 08:24

Beitragvon bla!zilla » 26.04.2013, 08:25

Dann würde ich die Kabel prüfen. SFP würde ich noch ausschließen, dann hättest du noch CRC Fehler.

Member
Beiträge: 140
Registriert: 20.07.2012, 08:04
Wohnort: München
Kontaktdaten:

Beitragvon m.mart1n » 26.04.2013, 08:43

Okay, ich werde erst nächste Woche wieder an den besagtem Standort vorbeifahren können. Da werde ich in erster Linie mal das Kabel gegen ein neues austauschen und schauen wie es sich verhält.

Nur nebenbei. Ich habe vor 20 Minuten die Statistiken zurückgesetzt und schon wieder einen Wert von 305k bei enc out.

Gruß
Martin

Member
Beiträge: 360
Registriert: 13.07.2011, 15:33

Beitragvon MarcelMertens » 26.04.2013, 10:50

Wie Patrick schon geschrieben hat:

ENC_OUT steigt an, CRC aber nicht hört sich nach Kabel an.
Steigt CRC mit an ist es ehr SFP oder HBA

Member
Beiträge: 140
Registriert: 20.07.2012, 08:04
Wohnort: München
Kontaktdaten:

Beitragvon m.mart1n » 06.05.2013, 10:26

Hallo Leute,

also Kabel wurde getauscht und promt gibt es keine ENC_OUT mehr. Problem besteht leider trotzdem weiterhin.
Jetzt habe ich einen VMWare KB gefunden der besagt das es bei bestimmten Firmwareständen von Emulex HBAs + VSphere (ab Version 3.5) zu Problemen kommen kann.

Da wir Anfang April sämtliche Firmwarestände aktualisiert haben (durch Erweiterung der Umgebung) war natürlich auch der HBA dabei.

Hat jemand schon mal jemand Erfahrungen mit sowas gemacht oder eine Firmware auf einen HBA wieder downgegraded?

Gruß
Martin


Zurück zu „vSphere 5 / ESXi 5 und 5.1“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 16 Gäste