Snapshot-induzierte Latenzen beziffern?
Verfasst: 27.08.2010, 09:54
Hi,
wir hatten kürzlich einige VMs mit jeweils 5-10 Snapshots, die auf einem Datastore zu I/O-Latenzen im Sekunden-Bereich geführt hatten. Nach Konsolidieren der Snapshots war alles wieder gut. An der Aktion war ein einziger ESX beteiligt, dedizierter Datastore, kein Cluster.
Jetzt stellt sich mir die Frage: Gibt ESX irgendwelche Metriken her, die auf Snapshot-verursachte Probleme hindeuten koennten? Also z.B. I/O Time %, die mit Warten auf SCSI-Locks verbracht wird? Oder auch schon sowas wie SCSI-Locks / s? Oder Aehnliches, was durch Snapshots an I/O-Overhead generiert wird? Mir fiels schwer zu glauben, das ein paar wenige Snapshots zu solch massiven Problemen fuehrten und wuerde in Zukunft gerne besser den Finger auf die Fehler-Ursache legen koennen, wenn mir I/O-Latenz-Zeiten jenseits von Gut und Boese entgegenlaecheln.
wir hatten kürzlich einige VMs mit jeweils 5-10 Snapshots, die auf einem Datastore zu I/O-Latenzen im Sekunden-Bereich geführt hatten. Nach Konsolidieren der Snapshots war alles wieder gut. An der Aktion war ein einziger ESX beteiligt, dedizierter Datastore, kein Cluster.
Jetzt stellt sich mir die Frage: Gibt ESX irgendwelche Metriken her, die auf Snapshot-verursachte Probleme hindeuten koennten? Also z.B. I/O Time %, die mit Warten auf SCSI-Locks verbracht wird? Oder auch schon sowas wie SCSI-Locks / s? Oder Aehnliches, was durch Snapshots an I/O-Overhead generiert wird? Mir fiels schwer zu glauben, das ein paar wenige Snapshots zu solch massiven Problemen fuehrten und wuerde in Zukunft gerne besser den Finger auf die Fehler-Ursache legen koennen, wenn mir I/O-Latenz-Zeiten jenseits von Gut und Boese entgegenlaecheln.