Compartilhar via


Imagens de VM do HPC do Azure

Aplica-se a: ✔️ VMs do Linux ✔️ Conjuntos de dimensionamento flexíveis ✔️ Conjunto de dimensionamento uniformes

Este artigo compartilha algumas informações sobre imagens de VM HPC a serem usadas para iniciar VMs da série H habilitadas para InfiniBand e da série N habilitadas para GPU.

A equipe do Azure HPC está oferecendo imagens de VM Linux otimizadas e pré-configuradas para cargas de trabalho de HPC e IA. Essas imagens de VM:

  • Baseado em imagens upstream de VM do marketplace do Ubuntu e do AlmaLinux.
  • São pré-configuradas com o driver NVIDIA Mellanox OFED para InfiniBand, drivers de GPU NVIDIA, bibliotecas MPI populares, bibliotecas HPC ajustadas pelo fornecedor e otimizações de desempenho recomendadas.
  • Incluem otimizações e configurações recomendadas para oferecer desempenho, consistência e confiabilidade ideais.

Disponibilidade no Azure

Você pode usar as imagens de HPC ao criar uma VM do Azure Marketplace ou da CLI do Azure. Para outros métodos de implantação, consulte a seção Implantar imagens de VM HPC.

Azure Marketplace

Pesquise Ubuntu HPC pelo editor Microsoft-DSVM ou AlmaLinux HPC pelo editor AlmaLinux.

CLI do Azure

Execute os seguintes comandos para localizar URNs de imagem das imagens de HPC:

Ubuntu-HPC

az vm image list --publisher microsoft-dsvm --offer ubuntu-hpc --output table --all

Todas as imagens são compatíveis com VMs Gen 2.

AlmaLinux-HPC

az vm image list --publisher almalinux --offer almalinux-hpc --output table --all

Todas as imagens são compatíveis com VMs Gen 1 e Gen 2.

Tamanhos de VM com suporte

As imagens de VM HPC são compatíveis com os seguintes tamanhos de VM:

  • Standard_HB60rs
  • Standard_HB120rs_v2
  • Standard_HB120rs_v3
  • Standard_HB120rs_v4
  • Standard_HC44rs
  • Standard_ND40rs_v2
  • Standard_ND96asr_v4
  • Standard_ND96amsr_A100_v4
  • Standard_ND96isr_H100_v5

Consulte Tamanhos de VM do Azure para obter a matriz mais recente de suporte de tamanho de VM das séries H e N.

Pacotes de software instalados

  • Mellanox OFED 24.01-0.3.3.1
  • IPoIB pré-configurado (IP-over-InfiniBand)
  • Bibliotecas MPI populares baseadas em InfiniBand
    • HPC-X v2.18 com/sem PMIx-4
    • Intel MPI 2021.12.0
    • MVAPICH2 2.3.7-1
    • OpenMPI 5.0.2 com PMIx-4
  • Runtimes de comunicação
    • Libfabric
    • OpenUCX
    • NCCL 2.21.5-1
    • Plug-in NCCL RDMA Sharp
  • Bibliotecas otimizadas
    • AMD Optimizing C/C++ e Fortran Compilers 4.0.0-1
    • Intel MKL 2024.0.0.49673
  • Drivers de GPU
    • NVIDIA GPU Driver 535.161.08
    • Memória de par NVIDIA (GPU Direct RDMA)
    • NVIDIA Fabric Manager
    • CUDA 12.4
  • GDRCopy 2.3
  • Data Center GPU Manager 3.3.3
  • Ferramenta de diagnóstico do Azure HPC
  • Personalizações baseadas em SKU
    • Arquivos de topologia
    • Configuração de NCCL
  • Moby 24.0.7-ubuntu22.04u1
  • Contêiner do Docker NVIDIA 24.0.7-1
  • Azure Managed Lustre 2.15.4-42-gd6d405d
  • Moneo v0.3.5
  • Verificações de integridade do Azure HPC v0.4.2

Um índice de versão instalado na imagem da VM está neste local: /opt/azurehpc/component_versions.txt.

Bibliotecas de MPI e pacotes de software estão disponíveis como módulos de ambiente. Para carregar uma biblioteca/pacote de MPI, execute:

module load mpi/<mpi-library-name>
module load <package-name>

Configuração e otimização

Consulte o repositório azhpc-images no GitHub para obter os detalhes mais recentes sobre quais pacotes e configuração estão incluídos em cada imagem de VM. As configurações incluídas são baseadas em recomendações de otimização de fornecedores e parceiros, bem como aprendizados de cargas de trabalho de HPC comuns e práticas de uso em sistemas HPC tradicionais.

  • Agente Linux do Azure (WAAgent)

    • Limite o uso de recursos de CPU/memória de waagent (agente de VM em execução em cada VM Linux do Azure).
    • Opcionalmente, desabilite o waagent no início do script de trabalho e habilite-o de volta no final, para cargas de trabalho confidenciais da CPU da seguinte maneira:
    sudo systemctl stop waagent
    <HPC job>
    sudo systemctl restart waagent
    
  • Limites de memória mais altos

    • Definir o limite máximo de memória bloqueada como ilimitado
    • Definir o limite do número de arquivos abertos como 65535
  • Modo de recuperação de zona

    • Definir zone_reclaim_mode como 1
  • Desabilitar o daemon de firewall para ajudar os inicializadores de trabalho de MPI

Implantar imagens de VM HPC

Conforme mostrado, as imagens de VM HPC estão disponíveis no Azure Marketplace e na CLI do Azure. Elas podem ser implantadas por meio de uma variedade de veículos de implantação no Azure (Azure CycleCloud, Lote do Azure, modelos do ARM etc.). Scripts do AzureHPC fornecem uma maneira fácil de implantar rapidamente um cluster HPC usando essas imagens.