Seite 1 von 1

Verbindungsabbrüche

Verfasst: 16.10.2016, 22:19
von josch12
Hallo,
wir haben derzeit das Problem von extremen Performance Einbrüchen beim I/O
bis auf 2Mbit/s runter :oops:

Zu unserer Config:
3 x Vmware ESXI 6
1 Freenas als Storage mit 12 SATA WD Red (4TB ) im Raid 5

das ganze ist über einen HP Switsch via 1Gb/s verkabelt, und die ESXI Kisten sind als ISCSI angebunden.

In den Netzwerkeinstellungen von den ESXI Kisten wurde ein Extra Interface als VMkernel eingerichtet, der ISCSI und normale Traffic geht über die selbe Nic

Das Freenas ist gut mit CPU und Ram gefüttert, und die Netzwerkauslastung zum Freenas ist im Schnitt bei 300 Mbit/s , Peaks von bis zu 600 Mbit/s

habt ihr uns einen Tipp wo wir ansetzen könnten ?
PS: es greifen etwa 200 Vm´s über ISCSI auf das Freenas zu

Verfasst: 16.10.2016, 23:23
von kastlr
Hallo,

was steht denn in den vobd.logs der einzelnen ESXi Server?
Und wie viele LUN's habt ihr aus dem Freenas nach draußen gereicht?
Du kannst auch mal die vmkernel.logs der ESXi Server nach H:0x durchsuchen, Meldungen mit SCSI Fehlern enthalten diesen String.

esxtop ist auch eine Option, um heraus zu finden, ob der Storage die Ursache des Problems ist.

Viel Erfolg bei der Analyse.

Gruß,
Ralf

Verfasst: 17.10.2016, 07:19
von irix
200 vms auf 12 Sata disks ist das Problem.

Gruß
Joerg

Verfasst: 17.10.2016, 07:45
von ~thc
Ich habe irgendwo im Netz eine empirische Formel gefunden, um die Leistung eines RAIDs abzuschätzen. Ein S-ATA RAID 5 aus 12 Disks kommt dabei auf ca. 240 IOPS. Also 1,2 IOPS pro VM.

EDIT: Eine gut beschäftigte Windows/Office-Workstation-VM kommt auf knapp 20 IOPS durchschnittlich.

Verfasst: 17.10.2016, 09:01
von Supi
Ganz so schlimm ist es ggf nicht, je nach Anwendungsfall kommt man hier auf 400 IOPS.
Wobei das doch recht konservativ angesetzt ist.
http://wintelguy.com/raidperf.pl

schlimmer ist ja, das ein Rebuild bei 12 4TB Platten wohl einige Tage dauern wird.

https://www.memset.com/tools/raid-calculator/

Wer auch immer gemeint hat, bei 200vms wäre so ein Freenas eine gute Idee. Im KMU Umfeld steht doch selbst ab ca 10-15 VM's eine richtige SAN mit Dual Controller.
Zumindest ein Profi NAS von QNAP/Synology hätte ich hier mit Raid-6 hingestellt.

Verfasst: 17.10.2016, 09:04
von irix
Also ob es nun 240 oder 2400 IOPS sind spielt keine Rolle weil hier die Verhaeltnisse nicht stimmen
- Falsches Deployment und keine Bestpractices was iSCS Setup angeht. 2 und mehr VMKs sowie dedizierte pNICs
- Unbekannter Switch welcher evtl. nicht fuer IP basierter Storage geeignet ist oder noch nicht passend konfiguriert ist
- 66 VMs pro Host?
- 200 lfd VMs auf nem ********* Storage?
- Was bei dir erzeugt wird ist 100% Random IO und das ist immer eine Herausforderung fuer ein Storage mit HDD ohne das vorher was gecached oder optimiert wird.

Nur mal so zum Vergleich
- wir brauchen 10x (pro Spiegelseite) soviele HDDs mit 10K SAS als du fuer 200 VMs
- SSDs wuerden da ungemein helfen

Gruss
Joerg

Verfasst: 17.10.2016, 10:48
von josch12
Danke für die Antworten,
was würdet ihr uns hier empfehlen ?

ich habe mir vor paar Tagen NetApp Shelf´s angeschaut, hatte mich aber noch nicht so wirklich überzeugt, Arrays mit 300 GB SAS Platten bekommt man ja beinahe geschenkt,

z.b
https://www.servershop24.de/storage/net ... /a-108145/

wir haben aktuell ein Speicherbedarf von 3,5 TB , der natürlich wachsen wird, alleine das Array mit Max. 2,1 TB ( Raid 10 ), da wir dann 2 Stück benötigen würden, mit Filer sind da mal locker 10He Wech, und Platz ist bekanntlich nicht billig ;)

Verfasst: 17.10.2016, 11:01
von irix
Ein weiterer Vergleich.

- 120 VMs und nen Shared SAS Storage mit einer 12 Disk 15K Base und 2x24 Disk 10K und NL in Extensions. Dazu SSD als Cache.

Da ist dann das Ende auch erreicht und ab und wann merkt man das.

Zu deinem Netapp fund seit gesagt das es eine Historie ist und wird in deinem Fall nicht funktionieren und euch weiterbringen. Mal davon abgesehen das da noch die eigentlichen Controller fehlen.

In deinem Fall wuerde man eine Lastvermessung mal machen um belastbare Zahlen zu bekommen, wobei in diesem Fall ja alles schon Ueberbucht ist. Das zusammen mit einer evtl. Referenz fuehrt dann zu einer Loesung. Wenn du meinst wir sollten mal Telefonieren dann schreib eine PM.

Gruss
Joerg

Verfasst: 17.10.2016, 13:28
von kastlr
Hallo zusammen,

ist dass Problem denn erst seit kurzem vorhanden oder handelt es sich hier um ein dauerhaftes Problem?
Wie bereits angemerkt sind 12 SATA Platten und 200 VM's keine wünschenswerte Kombination.

Was sind denn das überhaupt für VM's, wie werden die denn verwendet?
Sind das reine Clients oder betreibt ihr auch Server auf der Umgebung?
Und wie viele davon werden auch aktiv verwendet?

Auch sind 66 VM's pro ESXi Server schon eine richtige Hausnummer, sofern es sich nicht ausschließlich um Clients handelt.

Schau in die Logs und nutze esxtop, denn 2 MB/s ist trotz allem etwas wenig.
Wo habt ihr denn die 2 MB/sec gemessen?

Meine Vermutung ist, dass ihr entweder Probleme mit SCSI Reservations habt (falls das FreeNas kein VAAI unterstützt) oder ihr lauft in das bekannte VAAI Heartbeat Problem.
Beides sollte in den Logs sichtbar sein.

Viel Erfolg, und lasst euch ein anständiges Budget für 2017 aufstellen, sollte es sich hierbei um eine productive Umgebung handeln.

Gruß,
Ralf

Verfasst: 17.10.2016, 16:24
von Supi
Die Frage ist ja, 2 MB/s oder 2Mbit/s, das ist dann noch mal ein Unterschied. :D

Verfasst: 18.10.2016, 13:20
von kastlr
Hallo Josch,

habe deinen Logauszug anonymisiert, damit auch weitere fleißige Helfer an deinem Problem mitarbeiten können.

Generell deutet der Logauszug auf Probleme mit dem VMFS Heartbeat hin, einmal werden sogar alle Pfade zu einem VMFS Datastore als Dead deklariert.

Die Zeilen mit folgendem Inhalt

Code: Alles auswählen

2016-10-17T10:55:30.359Z cpu3:574817)ScsiDeviceIO: 2651: Cmd(0x439d809d57c0) 0x28, CmdSN 0x1871430 from world 32818 to dev "naa.6589cfcxxxxxxxxxxxxxxx" failed H:0x5 D:0x0 P:0x0 Possible sense data: 0xe 0x1d 0x0.
2016-10-17T10:57:30.359Z cpu0:574817)NMP: nmp_ThrottleLogForDevice:3298: Cmd 0x28 (0x439d80913280, 32818) to dev "naa.6589cfcxxxxxxxxxxxxxxx" on path "vmhba37:C0:T0:L0" Failed: H:0x5 D:0x0 P:0x0 Possible sense data: 0xe 0x1d 0x
2016-10-17T10:57:30.359Z cpu0:574817)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.6589cfcxxxxxxxxxxxxxxx" state in doubt; requested fast path state update...
2016-10-17T10:57:30.359Z cpu0:574817)ScsiDeviceIO: 2651: Cmd(0x439d80913280) 0x28, CmdSN 0x1871435 from world 32818 to dev "naa.6589cfcxxxxxxxxxxxxxxx" failed H:0x5 D:0x0 P:0x0 Possible sense data: 0xe 0x1d 0x0.
deuten auf ein Problem mit dem ATS Heartbeat hin, auch wenn es sich bei den fehlgeschalgenen SCSI Befehlen um normale Reads und nicht um ATS (Compare and Write) handelt.

H:0x5 D:0x0 P:0x0 Possible sense data: 0xe 0x1d 0x
SCSI Sense Keys
0xe > Miscompare
SCSI Additional Sense Data
0x1d 0x0 > Miscompare during verify operation

Daher würde ich zuerst mal folgenden Artikel anwenden.
Connectivity to a VMFS5 datastore is lost when using VAAI ATS heartbeat (2113956)

Durch das deaktivieren verliert Ihr keinerlei Funktionalität, der ESXi Server wechselt nur vom neuen zurück auf das klassische Verfahren fürs VMFS Heartbeat Management.
Die Änderung kann auch problemlos im laufenden Betrieb durchgeführt werden, sie muß nur auf allen ESXi Servern des Clusters ausgeführt werden.

Aus meiner persönlichen Support Erfahrung heraus kann ich sagen, dass dieses neue Feature für mehr Ärger als Benefit sorgt.
Bei Kunden, denen wir nach Analyse der Logs empfohlen haben dieses Feature zu deaktivieren trat sofort eine deutliche Verbesserung und Stabilisierung der Umgebung ein.

Viel Erfolg,
Ralf

Verfasst: 18.10.2016, 18:11
von josch12
Hallo Ralf,
Herzlichen Dank für die Log Analyse,

ich habe eben auf allen 3 ESXI Kisten heartbeat deaktiviert, und werde das ganze die Tage beobachten, ob es sich bessert.

Danke euch auf jeden Fall für die Hilfe, und Tipps

Re: Verbindungsabbrüche

Verfasst: 07.01.2017, 12:53
von UrsDerBär
Wenn z.B. den meisten der 200 VM's total langweilig ist, windows-interne IOPS (Diag, Tracking, BigData) abgedreht wird, dann fressen die VM's Storage-Mässig auch nicht viel Heu. Zu wenig ist es bereits, aber um die Dimension des notwendigen Upgrades zu beurteilen sind schon deutlich mehr Infos notwendig.

Nur mal am Rande, ist diese Umgebung produktiv oder eine Spielwiese? 200VM's = über 100 arbeitende Leute?
Falls produktiv: Ich empfehle bei dieser Anzahl dringend einen Dienstleister der sich damit auskennt. Hier sind einige Kompetente unterwegs. Unter anderem der Irix.