Seite 1 von 1

Netzwerkperfomance in neuer 10GB VM Umgebung bescheiden

Verfasst: 26.07.2016, 10:09
von HolgerH
Hallo,

wir migrieren aktuell unsere VM-Landschaft, hier mal die Eckdaten der neuen Umgebung :

3 x HP ProLiant DL380 G9, 2 x CPU E5-2670 ( 48 logische Proz. pro Host ), 4 x 10 GB LAN, HP 3Par über 8G HBA FC angeschlossen

2 x Cisco Nexus Switch 3524X 10GB für LAN

Das Netzwerk für die VMs ist über 2 x 10GB angebunden, beide Ports sind aktiv.

Den Test führe ich über 2 VMs aus. Es hat keine Auswirkungen ob die VMs auf einem oder unterschiedlichen Hosts liegen.
Ich nutze zum Test netio und protokolliere parallel dazu noch mit Networx mit.

In unserer alten VM-Umgebung (1GB) sieht das dann so aus :-)

Eingehend
Maximaler Datendurchsatz 441 MB/s
Ausgehend
Maximaler Datendurchsatz 556 MB/s


Neue VM-Umgebung mit 10GB :-(

Eingehend
Maximaler Datendurchsatz 374 MB/s
Ausgehend
Maximaler Datendurchsatz 361 MB/s


Leider sind unsere Netzwerkprofis ratlos.

Ich lasse mir jetzt mal die Konfiguration der Switches geben uns sende diese noch an den VM-Support.



Gruß

Holger

Verfasst: 26.07.2016, 13:29
von Borg-HH
Was für Netzwerk Adapter haben denn die VM´s ?
Haben denn die ESXi auch die aktuellen Treiber für die 10GB Karten (erst die Treiber installieren, dann die Karten einstecken) ? Sind die 10 GB Karten supportet ?
Ich würde auch erst mal ganz langsam anfangen, also einen Port für das VM Netz. Hängt das Management Netz auch an einer 10 GB Karte ? MTU Einstellungen ? Mir fällt noch einiges ein aber erst mal die Grundkonfiguration prüfen.

Verfasst: 26.07.2016, 15:20
von hrhrhrhr
WIe ist denn die Performance ohne verbundende pNIC? Sprich ein vSwitch ohne physical Adapters und dann zwei VMs dort anbinden und testen?

Verfasst: 26.07.2016, 15:45
von HolgerH
Hallo,

die VMs haben alle VMXNET3 Adapter und wurden nach der Migration auch direkt in VM11 konvertiert, und mit den aktuellsten VMware-Tools bestückt.

MTU habe ich auch schon angepasst. Zusätzlich mit mtupath getestet. 1500 ist wohl optimal.

Managementnetz hängt auch an 2 x 10 GB.

Verbaut sind Intel 82599 10 GB DualPort Adapter, die sind supported. Treiber noch eine Version zurück.

Gruß

Holger

Verfasst: 26.07.2016, 15:46
von HolgerH
hrhrhrhr hat geschrieben:WIe ist denn die Performance ohne verbundende pNIC? Sprich ein vSwitch ohne physical Adapters und dann zwei VMs dort anbinden und testen?



Das werde ich heute Abend gleich mal testen :-)

Verfasst: 26.07.2016, 16:21
von HolgerH
Hallo,

muss ich da noch was besonders einstellen ?.

Habe einen neuen vSwitch ohne Adapter angelegt, und dann in den 2 VMs (beide auf dem gleichen Host ) die Netzwerkkarten mit diesem verbunden.

IP-Adressen sind statisch.

Bekomme aber so leider keine Verbindung zwischen beiden VMs.


Gruß

Holger

Verfasst: 26.07.2016, 17:47
von JustMe
Was genau heisst "die Netzwerkkarten mit diesem verbunden"?

Grundsaetzlich haengt man doch eher eine vNIC an eine Portgruppe (die dann selbstverstaendlich auf einem bestimmten vSwitch existiert)...
Wie ist diese Portgruppe konfiguriert?

"IP Adressen sind statisch."

Ehrlich?
Und welche genau werden verwendet? ;-)
(Ach ja: Bitte inkl. Details wie Net Mask und Default Gateway!)

Wie genau ermittelst Du "keine Verbindung"?

Und was genau fuer ein Gast-OS laeuft in den VMs?

Verfasst: 27.07.2016, 06:51
von HolgerH
Hallo,

ich denke da liegt einfach nur ein Verständnisproblem vor.

1.) Netzwerk für virtuelle Maschinen hinzufügen
2.) Dabei wird die Portgruppe erzeugt, mit dieser werden keine physikalischen NICs verbunden

3.) In der VM den virtuellen Netzwerkadapter mit diesem Netzwerk verbinden
4.) Somit tauchen dann beide VMs in der Portgruppe auf, haben aber keine Anbindung an eine physikalischen NIC

5.) Ich habe eine 22er Netmask, die ich bei dieser Aktion nicht ändere
6.) Servern gebe ich immer statische IP-Adressen, kein DHCP ...

7.) Ich pinge beide Server gegenseitig an

8.) OS ist Windows Server 2008R2

Hoffe die Angaben reichen ...

Verfasst: 27.07.2016, 08:13
von Borg-HH
Was steht denn in den Properties des vSwitch unter Network Adapter bei configured Speed und actual Speed ? Sollte 10000 Mb und Full Duplex sein. MTU von 1500 ist OK.

Verfasst: 27.07.2016, 09:25
von HolgerH
Hallo,

Konfigurierte und tatsächliche Geschwindigkeit passen ( 10000 MBit ), Duplex

Mit der MTU hatte ich ja schon etwas rumgetestet.

Verfasst: 27.07.2016, 09:57
von Borg-HH
Die reine Bandbreite teste ich immer mit iperf von einer Blechkiste aus zur VM und umgekehrt. Die Tests zwischen VM´s sind nicht aussagekräftig. Da bekomme ich auch die unmöglichsten Werte.
Was macht denn die Bandbreite von Außen in das vCenter (deine Umgebung) und umgekehrt ?

Verfasst: 27.07.2016, 10:07
von JustMe
@HolgerH:

Hm, ja, gibt es eigentlich einen bestimmten mitteilbaren Grund, warum Du auch auf direkte & explizite Nachfrage die IP-Konfiguration der beiden beteiligten VMs nicht darstellen moechtest?

Bei Deiner Antwort "Duplex" fehlt auch noch ein unterscheidendes Attribut: "Full" oder "Half"?

In den Windows-Firewalls ist aber die Antwort auf ICMP-Requests nicht geblockt, oder?

Der urspruenglich erwaehnte netio-Test ist ja doch was anderes als lediglich ein Haufen Pings...

Verfasst: 27.07.2016, 11:53
von HolgerH
Hallo,

natürlich kann ich die IP-Konfiguration gerne posten, aber ich bin mir nicht sicher was das mit meiner Anfrage zu tun hat.

Aber wenn es zielführend ist, dann mache ich das natürlich.

172.20.68.0/22, Netmask 255.255.252.0
Gateway-Adresse ist die 172.20.68.251 ( noch historisch bedingt )

Die beiden Server haben die IP-Adressen 172.20.71.80 und 172.20.71.180


Gruß

Holger

Verfasst: 27.07.2016, 12:51
von JustMe
*Seufz*
...und wieder nur Fragmente der (zwischenzeitlich) angefragten Informationen...

Sorry, wenn ich Dich gelangweilt/geaergert haben sollte. Kommt nicht wieder vor.

Die IP-Konfiguration der beiden VMs hat nicht notwendigerweise mit dem Durchsatz zu tun, stimmt. Aber mittlerweile gab's ja das Problem, dass die beiden an derselben Portgruppe "keine Verbindung" haetten. Und Du waerst sicher nicht der Erste gewesen, der sich mit einer unguenstigen IP-Adressen/Netzwerkmasken-Kombination die (direkte) Verbindung gestoert haette.

So im Nachhinein frage ich mich dann doch, wie man mit einem 1GBit-Netz einen "Datendurchsatz" von 441-556 MB/s hinbekommen will. Aber vielleicht ist das ja auch ueberhaupt nicht der "Datendurchsatz" auf dem Netz, sondern auf dem FC, oder was auch immer...

Anyway, ich bin hier raus.

Verfasst: 27.07.2016, 13:38
von Borg-HH
Ich bin dann auch raus. Hab keine Zeit, jedes Detail nachzufragen und doch keine informative Auskunft zu bekommen. Das Konstrukt ist mir auch etwas schleierhaft. Wieso Subnetting ? Um Tests zu machen bzw Fehler einzugrenzen, sollte man es sich nicht unnötig kompliziert machen. Was hat eigentlich der Durchsatz zwischen den VM´s mit dem 10 Gb LAN zu tun ?
Und schon wieder eine Frage :-(

Verfasst: 27.07.2016, 15:50
von HolgerH
Trotzdem vielen Dank für die investierte Zeit.

Verfasst: 28.07.2016, 07:59
von hrhrhrhr
Probiere es doch einmal mit ganz neu aufgesetzten VMs (also aus keinem Template oder ähnlicher Vorlage), sowie ohne zusätzlich installierte Software und mache den Test VM intern (einmal localhost innerhalb einer VM und einmal zwischen zwei VMs auf einem ESX-host) und von einer externen Kiste per 10GB angebunden, wie von Borg-HH vorgeschlagen. Im Taskmanager/Performancemonitor sieht man ja auch die genutzte Bandbreite. Der Test mit netio oben sieht ja auch so aus als wenn er auf einem ESX-Host gemacht wurde und nicht zwischen zwei ESX-Hosts. Die genutzte Bandbreite ist ja mehr als 1GBit/s (netio stellt die Werte als MB/s dar...). Bei 1Gbit/s sollten dort Werte um die 110-112MB/s stehen.
Iperf wäre für den Test besser, mit mehreren parallelen Sitzungen (-P10) kommt man so in Richtung 10GB, um wirklich 10GB zu erreichen ist die MTU dann zu klein, jedenfalls in meiner kleinen Testumgebung.
Man versucht ja zu helfen, aber dazu müssen auch die Informationen kommen. Auch wenn es banale Informationen sind, wir kennen deine Umgebung nicht und manchmal denkt man ja auch es ist unwichtig und dabei ist genau da der Fehler in der Konfiguration. :-)
Das die VMs untereinander keine Verbindung haben könnte auch daran liegen das DRS die VMs verschoben hat und sie damit auf veschiedenen Hosts liegen.

Verfasst: 28.07.2016, 10:52
von pirx
Wie viel vCPUs haben die Test VMs? Bei meinen Tests mit iperf oder netio habe ich immer wieder festgestellt, dass ab einem gewissen Durchsatz die vCPU zum Engpass wird. Wobei das bei mir dann nicht im Bereich 1 GB/s war, sondern 10 GB/s.

Kannst du die beiden physischen Server nicht mit einer aktuellen Linux Distribution booten die die Hardware inkl. 10Ge NICs unterstützt und dazwischen einen iperf Test durchführen? Nur um die VMware Schicht auszuschließen.

Verfasst: 29.07.2016, 11:06
von HolgerH
Hallo,

da ich nicht oft in solchen Foren unterwegs bin, muss ich mich wohl etwas umstellen und mir angewöhnen wohl lieber ein paar Infos mehr zu posten.

Sorry, das war keine Absicht und ich bin ja auch sehr dankbar das ihr euch überhaupt die Zeit nimmt und auf solche Probleme eingeht. Dafür vielen Dank.


Wir haben heute Mittag eine Sitzung mit der Netzwerkabteilung und werden dann das Szenario besprechen. Parallel haben wir noch Anfragen bei VM, Cisco und HP laufen.

Ich kann Änderungen aber nur außerhalb der bedienten Zeiten durchführen und testen, daher verzögert sich das alles etwas.

Ich werde dann aber hier auf jeden Fall ein Feedback geben.

Gruß

Holger

Verfasst: 30.07.2016, 09:09
von UrsDerBär
Es ist schon so, ohne genaue Infos über Konfig der Hard- und Software ist es oft nur stochern im Leeren. Oft wäre die Lösung bzw. eine allfällige Fehlkonfiguration schon mit den notwendigen Infos schnell erkennbar. Gerade wenn bei unerwarteten Performance-Problemen. Hier sind Leute unterwegs, die sowohl VmWare als auch den Hardware-Kram sehr sehr gut verstehen. Aber das geht nur mit Infos.

Nur ein Beispiel:
- Storage das gleiche oder ein neues?
- Storage hat gleiche Anzahl oder mehr Platten des gleichen Typs?
- Storage hat gleich grossen oder grösseren Cache
- Hersteller und Typ
- Ausstattung der Hosts insbesondere CPU-Taktung dieselbe, höher oder tiefer?

--> Jeweils in Zahlen nicht nur Aussage. Meist genügen aber einfach nur Angaben der neuen Hardware. ;)

Es bringt zum Beipsiel nüx, wenn Du 10Gbit hast aber nur noch die hälfte der Magnetplatten als vorher. Zum Beispiel weil ein Dienstleister gesagt hat, das neue Storage hätte doppelt soviel Cache, Du würdest die Platten nicht brauchen. Genug Speicherplatz vorhanden. Zum Beispiel weil die Platten viel grösser sind als die alten.

Dann natürlich die Hardware-Konfig, Verkabelung, Basics der Settings auf Switches, wurde es nach Best Practices des Storage-Herstellers gemacht etc.


Bezüglich der CPU: Schau einfach mal die Auslastung der CPU innerhalb der VM während eines Kopiervorgangs an. Liegt die bei annähernd 100%, dann hast schlicht eine zu lahme CPU und ihr seit dem Irrglauben aufgesessen, heute bräuche es nur Cores und nicht Taktfrequenz. Zumindest sofern ihr innerhalb einer einzelnen VM die Leistung braucht und nicht im Totalen.

Verfasst: 30.07.2016, 14:41
von Dayworker
Ein paar CPU-Specs zum Intel Xeon E5-2670v3. Ihm stehen nicht sonderlich flinke 2.3GHz Base- und 3.1GHz Turbofrequenz zur Verfügung. Bei Last auf allen 12 Kernen sinkt die Turbofrequenz auf nur noch 2.7GHz.


Wie wurde die Signalisierung für die 10GB-Nics in deinen VMs umgesetzt, läuft das über normale Interrupts oder wurde auf Adaptive-Interrupt bzw Interrupt-Moderation umgestellt?
Wenn ihr noch die alte, rein Interrupt-basierte Signalisierung setzt, wird die Ausführung der CPU bei jedem eintreffenden Packet per Interrupt angehalten. Bei Adaptive werden mehrere Packets gesammelt und erst dann der Interrupt ausgelöst. Da bei 10GB-E wesentlich mehr Daten als bei 1GB-E reinkommen, wird die CPU auch häufiger "angehalten". Dein verminderter Durchsatz kann also allein dadurch verursacht sein. Für 1GB-E ist die CPU noch schnell genug, damit sie neben den eintreffenden Netzwerk-Paketen noch ihre Arbeit verrichten kann.