Gambar Azure HPC VM
Berlaku untuk: ✔️ VM Linux ✔️Set skala fleksibel ✔️ Set skala seragam
Artikel ini membagikan beberapa informasi tentang gambar HPC VM yang akan digunakan untuk meluncurkan VM seri-N dengan dukungan InfiniBand dan seri N yang diaktifkan GPU.
Tim Azure HPC menawarkan gambar VM Linux yang dioptimalkan dan telah dikonfigurasi sebelumnya untuk beban kerja HPC dan AI. Gambar VM ini adalah:
- Berdasarkan gambar VM marketplace Ubuntu dan AlmaLinux upstream.
- Telah dikonfigurasi sebelumnya dengan driver NVIDIA Mellanox OFED untuk driver InfiniBand, GPU NVIDIA, pustaka MPI populer, pustaka HPC yang disetel vendor, dan pengoptimalan performa yang direkomendasikan.
- Termasuk pengoptimalan dan konfigurasi yang direkomendasikan untuk memberikan performa, konsistensi, dan keandalan yang optimal.
Ketersediaan di Azure
Anda dapat menggunakan gambar HPC saat membuat VM dari Marketplace Azure atau Azure CLI. Untuk metode penyebaran lainnya, lihat bagian Menyebarkan Gambar VM HPC.
Azure Marketplace
Cari Ubuntu HPC
oleh penerbit Microsoft-DSVM
, atau AlmaLinux HPC
oleh penerbit AlmaLinux
.
Azure CLI
Jalankan perintah berikut untuk menemukan URL gambar dari gambar HPC:
Ubuntu-HPC
az vm image list --publisher microsoft-dsvm --offer ubuntu-hpc --output table --all
Semua gambar mendukung VM Gen 2.
AlmaLinux-HPC
az vm image list --publisher almalinux --offer almalinux-hpc --output table --all
Semua gambar mendukung VM Gen 1 dan Gen 2.
Ukuran komputer virtual yang didukung
Gambar VM HPC mendukung ukuran VM berikut:
- Standard_HB60rs
- Standard_HB120rs_v2
- Standard_HB120rs_v3
- Standard_HB120rs_v4
- Standard_HC44rs
- Standard_ND40rs_v2
- Standard_ND96asr_v4
- Standard_ND96amsr_A100_v4
- Standard_ND96isr_H100_v5
Lihat ukuran Azure VM untuk matriks dukungan ukuran VM seri H dan N terbaru.
Paket perangkat lunak yang terinstal
- Mellanox OFED 24.01-0.3.3.1
- IPoIB yang telah dikonfigurasi sebelumnya (IP-over-InfiniBand)
- Pustaka MPI berbasis InfiniBand Populer
- HPC-X v2.18 dengan/tanpa PMIx-4
- Intel MPI 2021.12.0
- MVAPICH2 2.3.7-1
- OpenMPI 5.0.2 dengan PMIx-4
- Runtime Komunikasi
- Libfabric
- OpenUCX
- NCCL 2.21.5-1
- NCCL RDMA Sharp Plugin
- Pustaka yang dioptimalkan
- AMD Mengoptimalkan C/C++ dan Kompilator Fortran 4.0.0-1
- Intel MKL 2024.0.0.49673
- Driver GPU
- Driver GPU NVIDIA 535.161.08
- Memori Serekan NVIDIA (GPU Direct RDMA)
- NVIDIA Fabric Manager
- CUDA 12.4
- GDRCopy 2.3
- Manajer GPU Pusat Data 3.3.3
- Alat Diagnostik Azure HPC
- Kustomisasi berbasis SKU
- File topologi
- Konfigurasi NCCL
- Moby 24.0.7-ubuntu22.04u1
- Kontainer Docker NVIDIA 24.0.7-1
- Azure Managed Lustre 2.15.4-42-gd6d405d
- Moneo v0.3.5
- Pemeriksaan Kesehatan Azure HPC v0.4.2
Indeks versi yang diinstal dalam gambar VM terletak di lokasi ini: /opt/azurehpc/component_versions.txt
.
Pustaka MPI dan paket perangkat lunak tersedia sebagai modul lingkungan. Untuk memuat pustaka/paket MPI, jalankan:
module load mpi/<mpi-library-name>
module load <package-name>
Konfigurasi dan pengoptimalan
Lihat repositori azhpc-images di GitHub untuk detail terbaru tentang paket dan konfigurasi apa yang disertakan dalam setiap gambar VM. Konfigurasi yang disertakan didasarkan pada rekomendasi pengoptimalan dari vendor dan mitra, serta pembelajaran dari beban kerja HPC umum dan praktik penggunaan dalam sistem HPC tradisional.
Agen Linux Azure (WAAgent)
- Batasi penggunaan waagent (agen VM yang berjalan pada setiap VM Azure Linux) sumber daya CPU/memori.
- Secara opsional, pertimbangkan untuk menonaktifkan waagent di awal skrip pekerjaan Anda, dan mengaktifkannya kembali di akhir, untuk beban kerja sensitif CPU sebagai berikut:
sudo systemctl stop waagent <HPC job> sudo systemctl restart waagent
Batas Memori Yang Lebih Tinggi
- Atur batas memori yang dikunci maks ke tidak terbatas
- Atur jumlah batas file terbuka ke 65535
Mode Reclaim Zona
- Atur zone_reclaim_mode ke 1
Menonaktifkan daemon firewall untuk membantu peluncur pekerjaan MPI
Menyebarkan gambar HPC VM
Seperti yang ditunjukkan, gambar HPC VM tersedia dari Marketplace Azure dan Azure CLI. Mereka dapat disebarkan melalui berbagai kendaraan penyebaran di Azure (Azure CycleCloud, Azure Batch, templat ARM, dll.). Skrip AzureHPC menyediakan cara mudah untuk menyebarkan kluster HPC dengan cepat menggunakan gambar-gambar ini.