wir bauen zurzeit einen neue VMware Umgebung auf. Sie besteht aus einigen ESXi 5.1 Hosts, basiernd auf Dell R820. Als Storage Adapter kommen CNAs von Qlogic QLE 8262 zum Einsatz. Obwohl es CNAs sind und wir theoretisch LAN und SAN über diese Karten abfackeln könnten, tun wir dies nicht. Die zwei CNA Storage Ports gehen an jeweils einen Cisco Nexus 5548UP. Zwischen ESXi und Nexus (NX-OS 5.2) wird FCoE gesprochen. Als Storage kommt eine gespiegelte Datacore 9.0 PSP3 Update 1 Umgebung zum tragen basierend auf Dell R720+ MD1220 Storage, der über external SAS an der R720 Server angeschlossen ist. In den Datacore Server sind FC HBAs QLE 2562 eingebaut. Pro Datacore Server gehen zwei Ports (+ 2 x Mirrorports , aber die interessieren jetzt nicht) an die Nexus Switches. Zwischen jedem ESX Host und den beiden Datacore Server bestehen vier Zonings. Die gesamte Umgebung basiert auf einem Single Initiator/ Single Target Zoning.
So, jetzt zu meinem Problem: Wenn ich einen ESX reboote (egal welchen) erhalte ich während dem Neustart (bevor ESXi geladen wird) eine Meldung via Mail von dem Datacoresystem:
02.08.2013 11:30:51 - Log messages matching [Log level = Warning] Or [Log level = Error] posted
Warning: Port dcs01-s2p2-app on bvmdcs01 has lost connection to port esx06-s3p2 on bvmesx06.
Warning: Port dcs01-s2p2-app on bvmdcs01 has lost connection to port esx02-s3p2 on bvmesx02.
Warning: Port dcs01-s2p2-app on bvmdcs01 has lost connection to port esx22-s6p1 on bvmesx22.
Warning: Port dcs01-s2p2-app on bvmdcs01 has lost connection to port esx01-s3p2 on bvmesx01.
Warning: Port dcs01-s2p2-app on bvmdcs01 has lost connection to port esx41-s3p2 on bvmesx41.
Warning: Port dcs01-s2p2-app on bvmdcs01 has lost connection to port esx05-s3p2 on bvmesx05.
Warning: Port dcs01-s2p2-app on bvmdcs01 has lost connection to port esx43-s3p2 on bvmesx43.
Warning: Port dcs01-s2p2-app on bvmdcs01 has lost connection to port esx52-s3p2 on bvmesx52.
Warning: Port dcs01-s2p2-app on bvmdcs01 has lost connection to port esx42-s3p2 on bvmesx42.
Warning: Port dcs01-s2p2-app on bvmdcs01 has lost connection to port esx51-s3p2 on bvmesx51.
Warning: Port dcs01-s2p2-app on bvmdcs01 has lost connection to port esx21-s6p1 on bvmesx21.
Warning: Port dcs01-s2p2-app on bvmdcs01 has lost connection to port esx53-s3p2 on bvmesx53.
Warning: Port dcs01-s2p2-app on bvmdcs01 has lost connection to port esx08-s3p2 on bvmesx08.
Warning: Port dcs01-s2p2-app on bvmdcs01 has lost connection to port esx07-s3p2 on bvmesx07.
Warning: Port dcs01-s2p2-app on bvmdcs01 has lost connection to port esx03-s3p2 on bvmesx03.
Warning: Port dcs01-s2p2-app on bvmdcs01 has lost connection to port esx04-s3p2 on bvmesx04.
Auch auf den ESX Hosts und den Nexus Switches ist der SCSI Bus Reset nachzuvollziehen. Inzwischen haben wir alle Hersteller von Vmware, Cisco,Dell, Datacore mit im Boot und checken, warum dieser Bus Reset durchgeführt wird. Bisher wurde folgende Maßnahmen ergriffen, um das Problem zu beheben:
* Update der Firmware und Treiber aller Dell HW Komponenten in der gespiegelten Datacore Umgebung mit der aktuellen Dell SUU 7.3 DVD
* Update der gespiegelten Datacore Umgebung auf 9.0 PSP 3, Update 1
* Eindeutige FC ID Konfiguration aller Datacore Ports (Mirror und Application) auf beiden Nexus SAN Switches
* Update eines ESX Host von ESXi 5.1.0 1065491 auf 5.1.0 1157734
* Qlogic Fast!UTIL: "Selectable Boot Settings" - "disabled" (Erfolglos, anschließend wieder auf "enabled" gesetzt)
* Qlogic Fast!UTIL: "Advanced Adpater Settings" - "Enable Target Reset" "No" (Erfolglos, anschließend wieder auf "Yes" gesetzt)
* Update der CNA Firmware von 01.11.29 auf 01.12.61
* FC Kabel (Application) an Datacoresystemen gezogen und ESX rebootet, um zu überprüfen, ob der Bus Reset "mitwandert" (Bisher erschien die Meldung immer nur auf dcs01-s2p2-app)
Diese Fehlermeldung hat, außer das sie erzeugt wird, keinen Einfluss auf die VMs, den Zugriff auf LUNs, etc. Aktuell laufen aber auch nur ca. 25 Test/Entwicklungs VMs auf der neuen Umgebung. Bevor dieses Problem nicht gelöst ist, streuben wir uns davor die restlichen 220 VMs zu migirieren, weil wir nicht wissen, wie die Umgebung reagiert, wenn erstmal Last auf ihr ist.
Ich weiß, dass ihr ohne Logs usw. keine defintiven Lösungen nennen könnt, aber vielleich hat ja jmd. noch einen guten Tipp, hat das Problem selbst schonmal gehabt oder hat die Lösung doch sofort parat
Ich hoffe, ich habe alles soweit verständlich erklärt, wenn nicht, einfach fragen.
Ich lese hier viele Threads mit und weiß, dass hier sehr fitte IT-Leute unterwegs sind.
Also, jetzt schonmal Danke.
Viele Grüße,
Nick