Übersicht über VMs der HBv4-Serie

Artikel
10/15/2024

Gilt für: ✔️ Linux-VMs ✔️ Windows-VMs ✔️ Flexible Skalierungsgruppen ✔️ Einheitliche Skalierungsgruppen

Ein Server der HBv4-Serie verfügt über 2 * EPYC 9V33X-CPUs mit je 96 Kernen für insgesamt 192 physische „Zen4“-Kerne mit AMD 3D-V-Cache. Das simultane Multithreading (SMT) ist bei HBv4 deaktiviert. Diese 192 Kerne sind in 24 Abschnitte (12 pro Socket) unterteilt, wobei jeder Abschnitt 8 Prozessorkerne mit einheitlichem Zugriff auf einen 96 MB großen L3-Cache enthält. Außerdem gelten für Azure-Server der HBv4-Serie die folgenden AMD-BIOS-Einstellungen:

Nodes per Socket (NPS) = 2
L3 as NUMA = Disabled
NUMA domains within VM OS = 4
C-states = Enabled

Folglich startet der Server mit vier NUMA-Domänen (2 pro Socket) mit einer Größe von je 48 Kernen. Jede NUMA-Domäne hat Direktzugriff auf sechs Kanäle physischen DRAM.

Damit der Azure-Hypervisor über genügend Platz verfügt, um ohne Beeinträchtigung der VM agieren zu können, werden 16 physische Kerne pro Server reserviert.

Topologie des virtuellen Computers

In der folgenden Abbildung wird die Topologie für diesen Server veranschaulicht: Wir halten diese 16 Hypervisor-Host Kerne (gelb) symmetrisch über beide CPU-Sockets hinweg frei, wobei die ersten 2 Kerne aus bestimmten Core Complex-Matrizen (CCDs) für jede NUMA-Domäne mit den verbleibenden Kernen für die VM der HBv4-Serie (grün) genommen werden.

Screenshot der Servertopologie der HBv4-Serie.

Die CCD-Grenze unterscheidet sich von einer NUMA-Grenze. Auf HBv4 wird eine Gruppe von sechs (6) aufeinander folgenden CCDs als NUMA-Domäne konfiguriert, sowohl auf der Hostserverebene als auch innerhalb einer Gast-VM. Folglich machen alle HBv4-VM-Größen vier einheitliche NUMA-Domänen verfügbar, die für ein Betriebssystem und eine Anwendung angezeigt werden, wie unten dargestellt, jeweils mit einer unterschiedlichen Anzahl von Kernen, je nach der spezifischen HBv4-VM-Größe.

Screenshot der VM-Topologie der HBv4-Serie.

Die HBv4-VM-Größen ähneln hinsichtlich physischem Layout, Features und Leistung einer anderen CPU aus der AMD EPYC 9V33X-Serie wie folgt:

VM-Größe der HBv4-Serie	NUMA-Domänen	Kerne pro NUMA-Domäne	Ähnlichkeit mit AMD EPYC
Standard_HB176rs_v4	4	44	Dual-Socket EPYC 9V33X
Standard_HB176-144rs_v4	4	36	Dual-Socket EPYC 9V33X
Standard_HB176-96rs_v4	4	24	Dual-Socket EPYC 9V33X
Standard_HB176-48rs_v4	4	12	Dual-Socket EPYC 9V33X
Standard_HB176-24rs_v4	4	6	Dual-Socket EPYC 9V33X

Hinweis

Bei VM-Größen mit eingeschränkten Kernen wird nur die Anzahl der physischen Kerne verringert, die für den virtuellen Computer verfügbar sind. Alle global freigegebenen Ressourcen (RAM, Arbeitsspeicher-Bandbreite, L3-Cache, GMI- und xGMI-Konnektivität, InfiniBand, Azure Ethernet-Netzwerk, lokales SSD) bleiben konstant. Dadurch können Kunden die am besten auf eine bestimmte Gruppe von Workloads oder bestimmte Softwarelizenzierungsanforderungen zugeschnittene VM-Größe auswählen.

Die virtuelle NUMA-Zuordnung der einzelnen HBv4-VM-Größen wird der zugrunde liegenden physischen NUMA-Topologie zugeordnet. Es gibt keine möglicherweise irreführende Abstraktion der Hardwaretopologie.

Die genaue Topologie für die verschiedenen HBv4-VM-Größen gemäß der Verwendung der Ausgabe von Istopo sieht wie folgt aus:

lstopo-no-graphics --no-io --no-legend --of txt

Klicken Sie, um die lstopo-Ausgabe für Standard_HB176rs_v4 anzuzeigen

lstopo-Ausgabe für eine HBv4-176 VM

Klicken Sie, um die lstopo-Ausgabe für Standard_HB176-144rs_v4 anzuzeigen

lstopo-Ausgabe für eine HBv4-144 VM

Klicken Sie, um die lstopo-Ausgabe für Standard_HB176-96rs_v4 anzuzeigen

lstopo-Ausgabe für eine HBv4-64 VM

Klicken Sie, um die lstopo-Ausgabe für Standard_HB176-48rs_v4 anzuzeigen

lstopo-Ausgabe für eine HBv4-32 VM

Klicken Sie, um die lstopo-Ausgabe für Standard_HB176-24rs_v4 anzuzeigen

lstopo-Ausgabe für eine HBv4-24-VM

InfiniBand-Netzwerk

HBv4-VMs verfügen auch über NVIDIA Mellanox NDR InfiniBand-Netzwerkadapter (ConnectX-7) mit bis zu 400 Gigabits/Sek. Die NIC wird über SRIOV an die VM durchgereicht und ermöglicht dem Netzwerkdatenverkehr so, den Hypervisor zu umgehen. Demzufolge laden Kunden auf HBv4-VMs dieselben Mellanox-OFED-Standardtreiber wie in einer Bare-Metal-Umgebung.

HBv4-VMs unterstützen adaptives Routing, DCT (Dynamic Connected Transport, zusätzlich zu RC- und UD-Standardtransporten) und die hardwarebasierte Auslagerung von MPI Collectives (Sammelvorgängen) an den Onboard-Prozessor des ConnectX-7-Adapters. Diese Features verbessern die Anwendungsleistung, Skalierbarkeit und Konsistenz, und ihre Verwendung wird empfohlen.

Temporärer Speicher

HBv4-VMs verfügen über 3 physisch lokale SSD-Geräte. Ein Gerät wird vorformatiert, um als Auslagerungsdatei zu dienen, und es erscheint in Ihrer VM als generisches „SSD“-Gerät.

Zwei weitere größere SSDs werden als unformatierte NVMe-Blockgeräte über NVMeDirect bereitgestellt. Da das NVMe-Blockgerät den Hypervisor umgeht, weist es eine höhere Bandbreite, höheren IOPS und eine geringere Wartezeit pro IOP auf.

In einem Stripeset-Array kombiniert erreicht die NVMe-SSD bis zu 12 GB/s für Lesevorgänge und 7 GB/s für Schreibvorgänge sowie 186.000 IOPS (Lesevorgänge) und 201.000 IOPS (Schreibvorgänge) für große Warteschlangentiefen.

Hardwarespezifikationen

Hardwarespezifikationen	VMs der HBv4-Serie
Kerne	176, 144, 96, 48 oder 24 (SMT deaktiviert)
CPU	AMD EPYC 9V33X
CPU-Frequenz (ohne AVX)	2,4 GHz Basis, 3,7 GHz Peak Boost
Arbeitsspeicher	768 GB (RAM pro Kern je nach VM-Größe)
Lokaler Datenträger	2 × 1,8 TB NVMe (Block), 480 GB SSD (Auslagerungsdatei)
InfiniBand	400 Gb/s Mellanox ConnectX-7 NDR InfiniBand
Netzwerk	80 Gb/s Ethernet (davon 40 Gb/s nutzbar); Azure-SmartNIC der zweiten Generation

Softwarespezifikationen

Softwarespezifikationen	VMs der HBv4-Serie
Maximale MPI-Auftragsgröße	52.800 Kerne (300 VMs in einer einzelnen VM-Skalierungsgruppe mit singlePlacementGroup=true)
MPI-Unterstützung	HPC-X (2.13 oder höher), Intel MPI (2021.7.0 oder höher), OpenMPI (4.1.3 oder höher), MVAPICH2 (2.3.7 oder höher), MPICH (4.1 oder höher)
Zusätzliche Frameworks	UCX, libfabric, PGAS oder andere InfiniBand-basierte Runtimes
Azure Storage-Unterstützung	Standard- und Premium-Datenträger (maximal 32 Datenträger), Azure NetApp Files, Azure Files, Azure HPC Cache, Azure Managed Lustre File System
Unterstütztes und überprüftes Betriebssystem	AlmaLinux 8.6, 8.7, Ubuntu 20.04+
Empfohlenes Betriebssystem für die Leistung	AlmaLinux HPC 8.7, Ubuntu-HPC 20.04+
Orchestratorunterstützung	Azure CycleCloud, Azure Batch, AKS; Cluster-Konfigurationsoptionen

Hinweis

Diese VMs unterstützen nur Generation 2.
Offizielle Unterstützung auf Kernelebene von AMD ist ab RHEL 8.6 und AlmaLinux 8.6 verfügbar, einer Ableitung von RHEL.
Windows Server 2012 R2 wird auf HBv4 und anderen VMs mit mehr als 64 (virtuellen oder physischen) Kernen nicht unterstützt. Weitere Informationen finden Sie unter Unterstützte Windows-Gastbetriebssysteme für Hyper-V in Windows Server. Windows Server 2022 ist für 144 und 176 Kerne erforderlich, Windows Server 2016 funktioniert auch für 24, 48 und 96 Kerne, Windows Server funktioniert nur für 24 und 48 Kerne.

Wichtig

Empfohlener Image-URN: almalinux:almalinux-hpc:8_7-hpc-gen2:8.7.2023060101, Um dieses Image über die Azure CLI bereitzustellen, stellen Sie sicher, dass die folgenden Parameter enthalten sind: --plan 8_7-hpc-gen2 --product almalinux-hpc --publisher almalinux. Verwenden Sie für Skalierungstests den empfohlenen URN zusammen mit dem neuen HPC-X Tarball.

Hinweis

NDR-Unterstützung wird in UCX 1.13 oder höher hinzugefügt. Ältere UCX-Versionen melden den oben genannten Laufzeitfehler. UCX-Fehler: Ungültige aktive Geschwindigkeit [1677010492.951559] [updsb-vm-0:2754 :0] ib_iface.c:1549 UCX ERROR Invalid active_speed on mlx5_ib0:1: 128.
Ibstat zeigt niedrige Geschwindigkeit (SDR): Ältere Mellanox OFED-Versionen (MOFED) unterstützen NDR nicht und können langsamere IB-Geschwindigkeiten melden. Verwenden Sie die MOFED-Versionen MOFED 5.6-1.0.3.3 oder höher.

Nächste Schritte

Informieren Sie sich über die neuesten Ankündigungen, HPC-Workloadbeispiele und Leistungsergebnisse in den Tech Community-Blogs zu Azure Compute.
Eine allgemeinere Übersicht über die Architektur für die Ausführung von HPC-Workloads finden Sie unter High Performance Computing (HPC) in Azure.

Freigeben über

Übersicht über VMs der HBv4-Serie

Topologie des virtuellen Computers

InfiniBand-Netzwerk

Temporärer Speicher

Hardwarespezifikationen

Softwarespezifikationen

Nächste Schritte

Feedback

Zusätzliche Ressourcen