Hallo Josch,
habe deinen Logauszug anonymisiert, damit auch weitere fleißige Helfer an deinem Problem mitarbeiten können.
Generell deutet der Logauszug auf Probleme mit dem VMFS Heartbeat hin, einmal werden sogar alle Pfade zu einem VMFS Datastore als Dead deklariert.
Die Zeilen mit folgendem Inhalt
Code: Alles auswählen
2016-10-17T10:55:30.359Z cpu3:574817)ScsiDeviceIO: 2651: Cmd(0x439d809d57c0) 0x28, CmdSN 0x1871430 from world 32818 to dev "naa.6589cfcxxxxxxxxxxxxxxx" failed H:0x5 D:0x0 P:0x0 Possible sense data: 0xe 0x1d 0x0.
2016-10-17T10:57:30.359Z cpu0:574817)NMP: nmp_ThrottleLogForDevice:3298: Cmd 0x28 (0x439d80913280, 32818) to dev "naa.6589cfcxxxxxxxxxxxxxxx" on path "vmhba37:C0:T0:L0" Failed: H:0x5 D:0x0 P:0x0 Possible sense data: 0xe 0x1d 0x
2016-10-17T10:57:30.359Z cpu0:574817)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.6589cfcxxxxxxxxxxxxxxx" state in doubt; requested fast path state update...
2016-10-17T10:57:30.359Z cpu0:574817)ScsiDeviceIO: 2651: Cmd(0x439d80913280) 0x28, CmdSN 0x1871435 from world 32818 to dev "naa.6589cfcxxxxxxxxxxxxxxx" failed H:0x5 D:0x0 P:0x0 Possible sense data: 0xe 0x1d 0x0.
deuten auf ein Problem mit dem ATS Heartbeat hin, auch wenn es sich bei den fehlgeschalgenen SCSI Befehlen um normale Reads und nicht um ATS (Compare and Write) handelt.
H:0x5 D:0x0 P:0x0 Possible sense data: 0xe 0x1d 0x
SCSI Sense Keys
0xe > Miscompare
SCSI Additional Sense Data
0x1d 0x0 > Miscompare during verify operation
Daher würde ich zuerst mal folgenden Artikel anwenden.
Connectivity to a VMFS5 datastore is lost when using VAAI ATS heartbeat (2113956)
Durch das deaktivieren verliert Ihr keinerlei Funktionalität, der ESXi Server wechselt nur vom neuen zurück auf das klassische Verfahren fürs VMFS Heartbeat Management.
Die Änderung kann auch problemlos im laufenden Betrieb durchgeführt werden, sie muß nur auf allen ESXi Servern des Clusters ausgeführt werden.
Aus meiner persönlichen Support Erfahrung heraus kann ich sagen, dass dieses neue Feature für mehr Ärger als Benefit sorgt.
Bei Kunden, denen wir nach Analyse der Logs empfohlen haben dieses Feature zu deaktivieren trat sofort eine deutliche Verbesserung und Stabilisierung der Umgebung ein.
Viel Erfolg,
Ralf