Exchange 2013 Crash während HDD Firmware Update im SAN
Verfasst: 16.11.2013, 12:06
Hallo zusammen,
wir hatten einen Exchange 2013 Crash während eines HDD Firmware Update im SAN. Ich muss ein bißchen ausholen, um das Problem näher zu erläutern:
Wir bauen zurzeit eine neue Exchange 2013 Umgebung auf Windows Server 2013 unter vSphere 5.1 U1 auf. Sie besteht aus 3 Mailbox Server im DAG Verbund. Jeder MB Server liegt in einer eigenen 5TB LUN (VMFS-5). Jeder MB Server besteht aus mehreren VMDKs (1xSystem/ 4xDBs/ 1x Logs). Außerdem gibt es 2 CAS Server, die ebenfalls in separaten LUNs liegen. Alle VMs können via DRS Rule nicht auf einem gemeinsamen ESXi Host liegen.
Im SAN setzen wir Datacore SANsysmphony-v 9.0.3.1 ein. Die verwendete HW ist von Dell: Server sind R720, Storage ist MD1220 DAS (2,5 Zoll, 900GB, SAS, 10k). In den Datacore Systemen sind Qlogic 2562 FC HBAs. Je zwei Ports FE und zwei Ports Mirror.
Die ESXi Host haben Qlogic 8262 FCoE CNAs. Als Swicth kommt Cisco Nexus zum Einsatz. Die ESXi sind über ein 4-Pfade Zonning im RR/ ALUA Betrieb an die Datacore Systeme angeschlossen.
Anfang der Woche hatten wir bereits ca. 20 Postfächer von unserer noch produktiven Exchange 2007 auf unsere neue Exchnage 2013 Umgebung migiriert.
Am Donnerstag Abend musste ich ein von Dell empfohlenes HDD FW Update in die Dell MD1220 einspielen.
Folgende Vorgehensweise:
1. Datacore Dienst auf Seite A gestoppt, 2 von 4 Pfade brechen -> Alles okay
2. Datacore Reboot, um Dell Nautilus FW HDD Update Tool von USB Stick booten-> Alles okay
3. FW Update der HDDs -> Alles okay
4. Reboot des Datacore Server und Start der Datacore Software -> Alles okay
5. Start des Mirrorabgleich, Überprüfung unter VMware, ob wieder alle 4 Pfade verfügbar sind -> Alles okay
6. Datacore Dienst auf Seite B gestoppt, 2 von 4 Pfade brechen -> ALLE 3 EXCHANGE 2013 MB SERVER STÜRZEN AB
7. Datacore Reboot, um Dell Nautilus FW HDD Update Tool von USB Stick booten-> Alles okay
8. FW Update der HDDs -> Alles okay
9. Reboot des Datacore Server und Start der Datacore Software -> Alles okay
10. Start des Mirrorabgleich, Überprüfung unter VMware, ob wieder alle 4 Pfade verfügbar sind -> Alles okay
Nach der Wartung haben wir den Absturz der drei Exchange 2013 Server bemerkt. Ein Reboot der VMs endete lediglich im Windows Recovery/ Repair Mode. Wir haben MS eingeschaltet, um die VMs zu reparieren. Nach mehreren Stunden MS Support war es trotzdem nicht möglich die Systeme zu reparieren und wieder lauffähig zu machen. CHKDSK hat Unmengen an Fehler entdeckt, die auch repariert werden konnten, ein Reboot in OS war trotzdem nicht möglich.
VMware analysiert zurzeit ein Support Bundle eines ESXi Host, der einen der MB Server hostete.
Inzwischen haben wir parallel Systeme aufgebaut, konnten teilweise auf die defekten DB VMDKs zugreifen und zumindest einen Datenverlust vermeiden. Die urspüngliche Exchnage 2013 MB umgebung ist aber hin, wir müssen sie komplett neu aufbauen.
Ich habe inzwischen mit vmkfstools einige der betroffenen VMDKs geprüft. Der "Check" Parameter unter vmkfstools antwortete, dass die Disk okay wäre. Allerdings wunderte ich mich, dass der Check bei einer 600GB VMDK nur Sekunden dauerte. Ist das normal ?
Außerdem habe ich mit voma (VMware Onsite Metadata Analyzer) eine der betroffenen LUNs gecheckt. Ergebnis: 2,5 Millionen Fehler. Der Gegencheck einer nicht betroffenen LUN: 0 Fehler.
Okay, soweit so gut: Ich weiß also, dass das VMFS der LUNs in Mitleidenschafft gezogen wurde. In den VMware Pubs steht allerdings: voma ist ein read-only Tool, wenn Fehler erkannt werden, VMware Support einschalten-> Hab ich gemacht.
Die für mich entscheidene Frage, die ich zurzeit absolut nicht beantowrten kann, ist folgende: Warum crashen bei einer SAN Wartung genau die drei LUNs in dennen Exchnage 2013 VMs liegen. Wir haben 250VMs verteilt auf 100 LUNs.
Das sieht für mich nicht nach Zufall aus !!!
Habt ihr solch ein Verhalten schonmal gesehen ? Das sich eine Wartung, Pfadumschaltung, Failover, etc. auf eine bestimmte Applikation innerhalb der VM auswirkt. Könnte das etwas mit SCSI Timeouts etc. zu tun haben ?
Mir geht es nicht darum, das ihr jetzt irgendwelche Logs oder so auswertet, sondern eher um Tipps und Erfahrungen, wo ich und der Support ansetzen könnte ?
Vorab Danke fürs Feedback,
Nick
wir hatten einen Exchange 2013 Crash während eines HDD Firmware Update im SAN. Ich muss ein bißchen ausholen, um das Problem näher zu erläutern:
Wir bauen zurzeit eine neue Exchange 2013 Umgebung auf Windows Server 2013 unter vSphere 5.1 U1 auf. Sie besteht aus 3 Mailbox Server im DAG Verbund. Jeder MB Server liegt in einer eigenen 5TB LUN (VMFS-5). Jeder MB Server besteht aus mehreren VMDKs (1xSystem/ 4xDBs/ 1x Logs). Außerdem gibt es 2 CAS Server, die ebenfalls in separaten LUNs liegen. Alle VMs können via DRS Rule nicht auf einem gemeinsamen ESXi Host liegen.
Im SAN setzen wir Datacore SANsysmphony-v 9.0.3.1 ein. Die verwendete HW ist von Dell: Server sind R720, Storage ist MD1220 DAS (2,5 Zoll, 900GB, SAS, 10k). In den Datacore Systemen sind Qlogic 2562 FC HBAs. Je zwei Ports FE und zwei Ports Mirror.
Die ESXi Host haben Qlogic 8262 FCoE CNAs. Als Swicth kommt Cisco Nexus zum Einsatz. Die ESXi sind über ein 4-Pfade Zonning im RR/ ALUA Betrieb an die Datacore Systeme angeschlossen.
Anfang der Woche hatten wir bereits ca. 20 Postfächer von unserer noch produktiven Exchange 2007 auf unsere neue Exchnage 2013 Umgebung migiriert.
Am Donnerstag Abend musste ich ein von Dell empfohlenes HDD FW Update in die Dell MD1220 einspielen.
Folgende Vorgehensweise:
1. Datacore Dienst auf Seite A gestoppt, 2 von 4 Pfade brechen -> Alles okay
2. Datacore Reboot, um Dell Nautilus FW HDD Update Tool von USB Stick booten-> Alles okay
3. FW Update der HDDs -> Alles okay
4. Reboot des Datacore Server und Start der Datacore Software -> Alles okay
5. Start des Mirrorabgleich, Überprüfung unter VMware, ob wieder alle 4 Pfade verfügbar sind -> Alles okay
6. Datacore Dienst auf Seite B gestoppt, 2 von 4 Pfade brechen -> ALLE 3 EXCHANGE 2013 MB SERVER STÜRZEN AB
7. Datacore Reboot, um Dell Nautilus FW HDD Update Tool von USB Stick booten-> Alles okay
8. FW Update der HDDs -> Alles okay
9. Reboot des Datacore Server und Start der Datacore Software -> Alles okay
10. Start des Mirrorabgleich, Überprüfung unter VMware, ob wieder alle 4 Pfade verfügbar sind -> Alles okay
Nach der Wartung haben wir den Absturz der drei Exchange 2013 Server bemerkt. Ein Reboot der VMs endete lediglich im Windows Recovery/ Repair Mode. Wir haben MS eingeschaltet, um die VMs zu reparieren. Nach mehreren Stunden MS Support war es trotzdem nicht möglich die Systeme zu reparieren und wieder lauffähig zu machen. CHKDSK hat Unmengen an Fehler entdeckt, die auch repariert werden konnten, ein Reboot in OS war trotzdem nicht möglich.
VMware analysiert zurzeit ein Support Bundle eines ESXi Host, der einen der MB Server hostete.
Inzwischen haben wir parallel Systeme aufgebaut, konnten teilweise auf die defekten DB VMDKs zugreifen und zumindest einen Datenverlust vermeiden. Die urspüngliche Exchnage 2013 MB umgebung ist aber hin, wir müssen sie komplett neu aufbauen.
Ich habe inzwischen mit vmkfstools einige der betroffenen VMDKs geprüft. Der "Check" Parameter unter vmkfstools antwortete, dass die Disk okay wäre. Allerdings wunderte ich mich, dass der Check bei einer 600GB VMDK nur Sekunden dauerte. Ist das normal ?
Außerdem habe ich mit voma (VMware Onsite Metadata Analyzer) eine der betroffenen LUNs gecheckt. Ergebnis: 2,5 Millionen Fehler. Der Gegencheck einer nicht betroffenen LUN: 0 Fehler.
Okay, soweit so gut: Ich weiß also, dass das VMFS der LUNs in Mitleidenschafft gezogen wurde. In den VMware Pubs steht allerdings: voma ist ein read-only Tool, wenn Fehler erkannt werden, VMware Support einschalten-> Hab ich gemacht.
Die für mich entscheidene Frage, die ich zurzeit absolut nicht beantowrten kann, ist folgende: Warum crashen bei einer SAN Wartung genau die drei LUNs in dennen Exchnage 2013 VMs liegen. Wir haben 250VMs verteilt auf 100 LUNs.
Das sieht für mich nicht nach Zufall aus !!!
Habt ihr solch ein Verhalten schonmal gesehen ? Das sich eine Wartung, Pfadumschaltung, Failover, etc. auf eine bestimmte Applikation innerhalb der VM auswirkt. Könnte das etwas mit SCSI Timeouts etc. zu tun haben ?
Mir geht es nicht darum, das ihr jetzt irgendwelche Logs oder so auswertet, sondern eher um Tipps und Erfahrungen, wo ich und der Support ansetzen könnte ?
Vorab Danke fürs Feedback,
Nick