vprob.storage in den Ereignissen

Ron123 · Beitragvon **Ron123** » 22.02.2013, 23:10

Hallo Zusammen,

wir haben hier eine/mehrere Meldungen in den Ereignissen des ESX 4.0.0
installiert ist ein DC und ein TS 2008 in 2 VM auf einem ProLiant ML330 G6
48GB RAM 8 CPU's Disk 1,2 im Raid 1 mit 232 GB für die VM's
und Disk 3,4 Raid 1 mit TB als Datenlaufwerk

es läuft auf dem TS ein MSsql wobei sich gelegntlich die Nutzer über lange
antwortzeiten der DB beschweren richtig schlimm wird es wenn grössere
Files zwischen Netzlaufwerken verschoben werden.

es läuft gelegentlich diese Fehlermeldung in den Ereignissen auf:
----------
event.vprob.storage.connectivity.lost.fullFormat (
vprob.storage.connectivity.lost)
Fehler
22.02.2013 22:41:44
----------

welche sich häuft wenn Files verschoben werden.

hatt jemand eine Idee was da schief läuft ?
er scheint da die Verbindung zum Raid zu verlieren oder ??

Danke Ron

~thc · Beitragvon **~thc** » 23.02.2013, 10:50

Da wären noch ein Paar Informationen nützlich:

- Wie sind die vier Festplatten im System angeschlossen (RAID-Controller, Chipsatz)?
- Wie sind die RAID1 realisiert (Hardware/Software)?
[- Wie sind die RAID Volumes konfiguriert (BBU/Write Back)?]
- Welcher Server gibt die Netzlaufwerke frei (liegen sie nur auf dem 1TB-RAID)?
- Wo liegt die Datenbank?

Ron123 · Beitragvon **Ron123** » 23.02.2013, 11:50

Raid Controller :
- HP Smart Array P410/Zero SATA/SAS RAID 0,1,10
HD's
-Serial ATA. Festplatten: 2 x 250
GB - Hot-Swap - Serial ATA-300 - 7200 rpm
im Raid 1 da sind 40GB für den DC und 130GB für den TS

-2 Stück HP 1TB SATA 7.2k rpm LFF Hot Plug MDL
Raid 1 komplett für den Datenspeicher
(Netzlaufwerke und MSSql DB)
wobei das Netzlaufwerk mom. noch auf einem externen
(alten Server) liegt und nun erst rübergeholt werden sollte !

[- Wie sind die RAID Volumes konfiguriert (BBU/Write Back)?] ??
kann ich mom. nciht beantoworten kann man das im VSphere auslesen ?

~thc · Beitragvon **~thc** » 23.02.2013, 12:08

Du beschreibst zunächst, dass das Problem "schlimm wird es wenn grössere
Files zwischen Netzlaufwerken verschoben werden", und dann, dass die Netzlaufwerke ja noch auf einem externen, alten Server liegen? Kannst du das mal bitte auflösen?

Welche Maschinen (physisch oder real) greifen unter Umständen gleichzeitig schreibend auf die Arrays zu?

Ron123 · Beitragvon **Ron123** » 23.02.2013, 12:22

ja mom. greifen eigenlich ca. 5-10 Arbeitsplätze auf die MSSql DB zu per SAGE
und auf den DC die Authentifizierungs Anfragen sowie Druckerspooler
(die Netzwerkdrucker sind auf dem DC installiert)
da klemmt es halt gelegentlich auch Ohne das man sorichtig nachvollziehen konnte
warum.

Nun wollte ich das Netzlaufwerk vom alten Server auf den neuen kopieren
und da wurde die DB Anwendung extrem langsam.
wobei mir dann in den Ereignissen die o.g. Fehler aufgefallen sind welche
sich häuften fast im 10 sek. Takt geloggt wurden.

Beitragvon **Dayworker** » 23.02.2013, 14:32

Eine SATA-Platte bringt nur zwischen 75 bis 100 IOPS und bei vermutlich uralten 250GB-Exemplaren werden die 75 grade mal so erreicht. Da bei dir ein Raid1 läuft, stehen dir nur magere 75 IOPS zu Verfügung.
Mit dem DC und erst recht einem TS sind diese jedoch sehr schnell erschöpft. Selbiges ist auch vom externen 1TB-Raid1 zu vermelden. Bei dem kommt noch hinzu, daß sich die Zugriffscharakteristika von Netzlaufwerke (vermutlich Datensilo) und beliebiger SQL-DB grundlegend unterscheiden. In einem Datensilo werden meist grösseren Dateien in sequentiellen Zugriff bewegt, während bei einer DB viele verteilte IO-Operationen über den gesamten Datenträger hinweg anstehen. Wenn der die DB beheimatende Rechner nicht über ausreichend pRAM verfügt und somit zumindest teilweise die Daten im Arbeitsspeicher halten kann, bindet die DB einen Großteil der eh nur in begrenzter, kaum ausreichend zu nennender Anzahl verfügbarer IO-Operationen an sich allein. Sämtliche zwischenzeitlich auflaufende IO-Anfragen kann dieser Host nicht mehr zeitnah beantworten, da er mit sich selbst beschäftigt ist und der anfragende Host erhält keine Rückmeldung mehr. Er geht dann von einem Ausfall aus, da Antworten der Art: "bin am arbeiten, aber ausgelastet" meines Wissens in keinem OS konzipiert sind.

Ron123 · Beitragvon **Ron123** » 23.02.2013, 15:09

danke für die ausführliche Ursachenschilderung !
der TS hat mom. 40GB Ram davon hat die SQL DB 12GB Liegt also eig. komplett
im RAM.

was schlägst Du zur Lösung der Problems vor wo sollte ich jetzt ansetzten
(Das 1TB Raid ist im selben Server) das alte Netztlaufwerk sollte wie gesagt jetzt
rüberkopiert werden damit der alte Server weggenommen werden kann.

nun muss er wohl erstmal noch bleiben bis ich das System im Griff habe.
Der Server ist ca. 1 Jahr alt war aber ev. ein fehlansatzt im Aufsetzten
meinerseits !?

~thc · Beitragvon **~thc** » 23.02.2013, 16:25

Als erstes solltest du überprüfen, ob die "Write Policy" deiner RAID-Volumes "Write Through" ist - das ist oft der (sicherere) Standard. Wenn der Server per USV gesichert ist oder der RAID-Controller mit einer BBU versehen ist, sollte die Policy auf "Write Back" geändert werden. Dadurch sinken die Schreiblatenzen gerade bei großen Dateien erheblich.

Ron123 · Beitragvon **Ron123** » 23.02.2013, 19:09

Ich habe gerade ev. noch einen knackpunkt gefunden !?
Der SCSI-Controller 0 der beiden VM's steht auf LSI Logic SAS
sollte das nicht besser LSI Logic Parallel sein ?

ich hab die eine VM mal runtergefahren umgestellt
ging aber erstmal mit BSOD aus.

mbreidenbach · Beitragvon **mbreidenbach** » 23.02.2013, 19:23

Ich empfehle auch einen Battery Backed Write Cache für den SmartArray. Der bringt wirklich was.

In einem ESX(i) habe ich SmartArray ohne BBWC noch nie eingesetzt aber ich habe mal einen Windows 2008R2 Server als Backupserver mit SATA 1 TB RAID1 und einem ZeroMemory SmartArray konfiguriert - das war grauenhaft langsam und erst nach Einbau des BBWC konnte man mit dem Ding vernünftig Backup to Disk to Tape machen.

An den niedrigen IOPs der SATA Platten ändert das natürlich nix - Wunder sind damit keine zu erwarten.

Beitragvon **Dayworker** » 23.02.2013, 21:17

Ich habe gerade ev. noch einen knackpunkt gefunden !?
Der SCSI-Controller 0 der beiden VM's steht auf LSI Logic SAS
sollte das nicht besser LSI Logic Parallel sein ?

Serial Attached SCSI kurz SAS ist Nachfolger von Parallelem SCSI, das mit Ultra-320 an eine ähnliche physikalische Grenze gestossen war, die auch schon den Umstieg von IDE/ATA auf Serial ATA kurz SATA vorantrieb.

Auch wenn VMware beide Schnittstellen unter SCSI entweder als scsi0.virtualDev = "lsisas1068" => LSI-SAS oder scsi0.virtualDev = "lsilogic" => LSIlogic Parallel führt, kannst du diese nach der Gast-Inst nicht ohne Vorarbeiten beliebig austauschen. Ich sehe auch keinen Sinn, weshalb man das modernere LSISAS zugunsten des älteren lsilogic austauschen sollte.

Der Server ist ca. 1 Jahr alt war aber ev. ein fehlansatzt im Aufsetzten
meinerseits !?

Klare Antwort, JA.
Raid1 bedeutet nur Mirroring, also Schutz vor Ausfall einer Platte. Je nach Controller können beide Platten ausschließlich im Lesefall zu einer Leistungssteigerung führen, den Schreibzugriff können sie jedoch niemals beschleunigen.
Wenn es auf hohen Schreibdurchsatz ankommt, führt nichts an einem Raid10 mit all seinen Nachteilen hinsichtlich 50 prozentigem Platzverschnitt vorbei. Von dessen Minimum mit 4 Platten kannst du natürlich auch keine Wunder erwarten, das sieht bei 8, 12 oder 16 Platten natürlich ganz anders aus...

~thc · Beitragvon **~thc** » 24.02.2013, 10:14

Ron123 hat geschrieben:Ich habe gerade ev. noch einen knackpunkt gefunden !?
Der SCSI-Controller 0 der beiden VM's steht auf LSI Logic SAS
sollte das nicht besser LSI Logic Parallel sein ?

Nein. Das hat nichts mit deinem Problem zu tun.

Ron123 hat geschrieben:nun muss er wohl erstmal noch bleiben bis ich das System im Griff habe.
Der Server ist ca. 1 Jahr alt war aber ev. ein fehlansatzt im Aufsetzten
meinerseits !?

Auch wenn dir RAID10 klar mehr Schreibperformance bringen würde, habe ich einen Server (ESXi 5.0 U2) in der Wartung, der deinem ganz ähnlich ist und nicht solche Phänomene zeigt. Auf diesem Server laufen drei Datenbanken, DC, Datei- und Druckdienste friedlich nebeneinander trotz RAID1 mit unterirdischen IOPS-Werten.

Also sieh erst mal nach der Write policy der RAID-Volumes.

Ron123 · Beitragvon **Ron123** » 24.02.2013, 10:45

ich habe jetzt mal ein paar tests mit dem Tool HD_Speed gemacht
(nur im READ Test)

in meinem Laptop mit SSD komme ich auf 213MB/s
im Alten Server mit Raid 5 auf ca. 80MB/s
und hier im neuen auf 6MB/s selbst im Lesen schon lahm !!?
(von beiden VM's aus)

~thc · Beitragvon **~thc** » 24.02.2013, 11:47

Die Werte, falls sie verlässlich sind (http://communities.vmware.com/docs/DOC-5490 und http://communities.vmware.com/docs/DOC-3961), sind unterirdisch. Du solltest zunächst mal herausfinden, warum die Arrays so langsam sind.

Wie im ersten Link nachzulesen, ist meist (>95%) nicht der Hypervisor Schuld. Sieh im BIOS des RAID-Controllers nach den Cache-Einstellungen der RAID-Volumes.

Beitragvon **Dayworker** » 24.02.2013, 14:31

ich habe jetzt mal ein paar tests mit dem Tool HD_Speed gemacht
(nur im READ Test)

in meinem Laptop mit SSD komme ich auf 213MB/s
im Alten Server mit Raid 5 auf ca. 80MB/s
und hier im neuen auf 6MB/s selbst im Lesen schon lahm !!?
(von beiden VM's aus)

SSDs kannst du hier komplett ausklammern, die Spielen in jedem Fall in einer anderen Liga und verfälschen in diesem Fall nur die real machbaren Werte. Auf der anderen Seite sind nur 213MB/s im READ-Test für eine SSD auch nicht gerade berauschend. Beim Lesen sollten SSDs schon sehr nahe an das jeweilige Schnittstellenmaximum von 300MB/s (Sata2) bzw 600MB/s (Sata3) herankommen.

Richtig interessant wäre jetzt wirklich die Cache-Einstellung im Raidcontroller-Bios. Für lahme Übertragungsleistungen können trotzdem noch die Platten selbst sorgen. Speziell reine Desktop-Platten machen im Raidbetrieb oftmals Ärger, falls sie nicht für den Raid- und/oder Dauereinsatz freigegeben sind und dann auch noch unterschiedliche Plattenhersteller zusammentreffen.

Ron123 · Beitragvon **Ron123** » 26.02.2013, 18:35

so hab jetzt gleich ein Cache Modul mit 1GB für den P410 bestellt
heute geliefert morgen kommt es rein.
Hab jetzt nicht erst rumgesucht im Raid Bios werd ich morgen
sehen was alles eingestellt ist bzw. einzustellen geht.
Werde dann hier berichten wie es ausging.

Gibts eig. was besonderes zu beachten von den Cache Einstellungen
im Raid Bios oder ist das "nur" zu aktivieren ?

Beitragvon **Dayworker** » 26.02.2013, 21:06

Gibts eig. was besonderes zu beachten von den Cache Einstellungen
im Raid Bios oder ist das "nur" zu aktivieren ?

Eigentlich sollte jeder HW-Raidcontroller schon einen Lesecache mitbringen. Bei einigen läßt sich dieser dann sehr datenriskant auch ohne BBU bzw FBWC in den Writeback-Modus versetzen.
Wenn du die BBU ansteckst, ist es normal, daß der Controller dann beim Booten einen deaktivierten Cache anzeigt. Das ändert sich automatisch, sobald Akku bzw Kondensator einen gewissen Ladestand erreicht haben.

Ron123 · Beitragvon **Ron123** » 02.03.2013, 10:32

Die Fehler sind verschwunden ! Habe den 1GB Cache eingebaut im Bios aktiviert,
und es wird auch bei mehreren File kopier Aktionen nichts mehr geloggt.

VMware-Forum

vprob.storage in den Ereignissen

vprob.storage in den Ereignissen

Wer ist online?