Menggunakan GPU untuk beban kerja intensif komputasi

Artikel
05/01/2024

Berlaku untuk: AKS di Azure Stack HCI 22H2, AKS di Windows Server

Unit Pemrosesan Grafis (GPU) digunakan untuk beban kerja intensif komputasi seperti pembelajaran mesin, pembelajaran mendalam, dan banyak lagi. Artikel ini menjelaskan cara menggunakan GPU untuk beban kerja intensif komputasi di AKS yang diaktifkan oleh Azure Arc.

Sebelum Anda mulai

Jika Anda memperbarui AKS dari versi pratinjau yang lebih lama dari Oktober 2022 yang menjalankan kumpulan simpul berkemampuan GPU, pastikan Anda menghapus semua kluster beban kerja yang menjalankan GPU sebelum memulai. Ikuti langkah-langkah di bagian ini.

Langkah 1: Hapus instalan driver host Nvidia

Pada setiap komputer host, navigasikan ke Panel Kontrol > Tambahkan atau Hapus program, hapus instalan driver host NVIDIA, lalu boot ulang komputer. Setelah mesin di-boot ulang, konfirmasikan bahwa driver berhasil dihapus instalannya. Buka terminal PowerShell yang ditingkatkan dan jalankan perintah berikut:

Get-PnpDevice  | select status, class, friendlyname, instanceid | findstr /i /c:"3d video"

Anda akan melihat perangkat GPU muncul dalam status kesalahan seperti yang ditunjukkan dalam contoh output ini:

Error       3D Video Controller                   PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&32EEF88F&0&0000 
Error       3D Video Controller                   PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&3569C1D3&0&0000

Langkah 2: Lepaskan driver host dari host

Saat Anda menghapus instalasi driver host, GPU fisik masuk ke status kesalahan. Anda harus melepas semua perangkat GPU dari host.

Untuk setiap perangkat GPU (Pengontrol Video 3D), jalankan perintah berikut di PowerShell. Salin ID instans; misalnya, PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&32EEF88F&0&0000 dari output perintah sebelumnya:

$id1 = "<Copy and paste GPU instance id into this string>"
$lp1 = (Get-PnpDeviceProperty -KeyName DEVPKEY_Device_LocationPaths -InstanceId $id1).Data[0]
Disable-PnpDevice -InstanceId $id1 -Confirm:$false
Dismount-VMHostAssignableDevice -LocationPath $lp1 -Force

Untuk mengonfirmasi bahwa GPU dilepas dengan benar dari host, jalankan perintah berikut. Anda harus menempatkan GPU dalam status Unknown :

Get-PnpDevice  | select status, class, friendlyname, instanceid | findstr /i /c:"3d video"

Unknown       3D Video Controller               PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&32EEF88F&0&0000 
Unknown       3D Video Controller               PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&3569C1D3&0&0000

Langkah 3: Unduh dan instal driver mitigasi NVIDIA

Perangkat lunak ini mungkin termasuk komponen yang dikembangkan dan dimiliki oleh NVIDIA Corporation atau pemberi lisensinya. Penggunaan komponen ini diatur oleh perjanjian lisensi pengguna akhir NVIDIA.

Lihat dokumentasi pusat data NVIDIA untuk mengunduh driver mitigasi NVIDIA. Setelah mengunduh driver, perluas arsip dan instal driver mitigasi pada setiap komputer host.

Invoke-WebRequest -Uri "https://docs.nvidia.com/datacenter/tesla/gpu-passthrough/nvidia_azure_stack_inf_v2022.10.13_public.zip" -OutFile "nvidia_azure_stack_inf_v2022.10.13_public.zip"
mkdir nvidia-mitigation-driver
Expand-Archive .\nvidia_azure_stack_inf_v2022.10.13_public.zip .\nvidia-mitigation-driver\

Untuk menginstal driver mitigasi, navigasikan ke folder yang berisi file yang diekstrak, klik kanan file nvidia_azure_stack_T4_base.inf , dan pilih Instal. Periksa apakah Anda memiliki driver yang benar; AKS saat ini hanya mendukung GPU NVIDIA Tesla T4.

Anda juga dapat menginstal menggunakan baris perintah dengan menavigasi ke folder dan menjalankan perintah berikut untuk menginstal driver mitigasi:

pnputil /add-driver nvidia_azure_stack_T4_base.inf /install 
pnputil /scan-devices

Setelah Anda menginstal driver mitigasi, GPU tercantum dalam status OK di bawah Nvidia T4_base - Dilepas:

Get-PnpDevice  | select status, class, friendlyname, instanceid | findstr /i /c:"nvidia"

OK       Nvidia T4_base - Dismounted               PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&32EEF88F&0&0000 
OK       Nvidia T4_base - Dismounted               PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&3569C1D3&0&0000

Langkah 4: Ulangi langkah 1 hingga 3

Ulangi langkah 1 hingga 3 untuk setiap simpul di kluster failover Anda.

Penting

Komputer virtual berkemampuan GPU tidak ditambahkan ke pengklusteran failover di Windows Server 2019, Windows Server 2022, atau Azure Stack HCI.

Menginstal atau memperbarui AKS

Lihat mulai cepat AKS menggunakan PowerShell atau menggunakan Windows Admin Center untuk menginstal atau memperbarui AKS yang diaktifkan oleh Arc.

Create kluster beban kerja baru dengan kumpulan simpul yang mendukung GPU

Saat ini, penggunaan kumpulan node yang mendukung GPU hanya tersedia untuk kumpulan node Linux.

New-AksHciCluster -Name "gpucluster" -nodePoolName "gpunodepool" -nodeCount 2 -osType linux -nodeVmSize Standard_NK6

Setelah menginstal kluster beban kerja, jalankan perintah berikut untuk mendapatkan Kubeconfig Anda:

Get-AksHciCredential -Name gpucluster

Konfirmasikan bahwa Anda dapat menjadwalkan GPU

Dengan kumpulan simpul GPU yang dibuat, konfirmasikan bahwa Anda dapat menjadwalkan GPU di Kubernetes. Pertama, daftar node di klaster Anda dengan perintah kubectl get nodes:

kubectl get nodes

NAME             STATUS  ROLES                 AGE   VERSION
moc-l9qz36vtxzj  Ready   control-plane,master  6m14s  v1.22.6
moc-lhbkqoncefu  Ready   <none>                3m19s  v1.22.6
moc-li87udi8l9s  Ready   <none>                3m5s  v1.22.6

Sekarang gunakan perintah kubectl describe node untuk mengonfirmasi bahwa GPU dapat dijadwalkan. Di bawah bagian Kapasitas , GPU akan muncul sebagai nvidia.com/gpu: 1.

kubectl describe <node> | findstr "gpu"

Output harus menampilkan GPU dari simpul pekerja dan terlihat seperti ini:

         nvidia.com/gpu.compute.major=7
         nvidia.com/gpu.compute.minor=5
         nvidia.com/gpu.count=1
         nvidia.com/gpu.family=turing
         nvidia.com/gpu.machine=Virtual-Machine
         nvidia.com/gpu.memory=16384
         nvidia.com/gpu.product=Tesla-T4
Annotations:    cluster.x-k8s.io/cluster-name: gpucluster
                cluster.x-k8s.io/machine: gpunodepool-md-58d9b96dd9-vsdbl
                cluster.x-k8s.io/owner-name: gpunodepool-md-58d9b96dd9
         nvidia.com/gpu:   1
         nvidia.com/gpu:   1
ProviderID:         moc://gpunodepool-97d9f5667-49lt4
kube-system         gpu-feature-discovery-gd62h       0 (0%)    0 (0%)   0 (0%)      0 (0%)     7m1s
         nvidia.com/gpu   0     0

Jalankan beban kerja yang mendukung GPU

Setelah Anda menyelesaikan langkah-langkah sebelumnya, buat file YAML baru untuk pengujian; misalnya, gpupod.yaml. Salin dan tempel YAML berikut ke dalam file baru bernama gpupod.yaml, lalu simpan:

apiVersion: v1
kind: Pod
metadata:
  name: cuda-vector-add
spec:
  restartPolicy: OnFailure
  containers:
  - name: cuda-vector-add
    image: "k8s.gcr.io/cuda-vector-add:v0.1"
    resources:
      limits:
        nvidia.com/gpu: 1

Jalankan perintah berikut untuk menyebarkan aplikasi sampel:

kubectl apply -f gpupod.yaml

Verifikasi bahwa pod dimulai, selesai berjalan, dan GPU ditetapkan:

kubectl describe pod cuda-vector-add | findstr 'gpu'

Perintah sebelumnya harus menunjukkan satu GPU yang ditetapkan:

nvidia.com/gpu: 1
nvidia.com/gpu: 1

Periksa file log pod untuk melihat apakah pengujian lulus:

kubectl logs cuda-vector-add

Berikut ini adalah contoh output dari perintah sebelumnya:

[Vector addition of 50000 elements]
Copy input data from the host memory to the CUDA device
CUDA kernel launch with 196 blocks of 256 threads
Copy output data from the CUDA device to the host memory
Test PASSED
Done

Jika Anda menerima kesalahan ketidakcocokan versi saat memanggil driver, seperti "Versi driver CUDA tidak cukup untuk versi runtime CUDA," tinjau bagan kompatibilitas matriks driver NVIDIA.

FAQ

Apa yang terjadi selama peningkatan kumpulan simpul berkemampuan GPU?

Meningkatkan kumpulan simpul berkemampuan GPU mengikuti pola peningkatan bergulir yang sama yang digunakan untuk kumpulan simpul reguler. Agar kumpulan simpul yang mendukung GPU di VM baru berhasil dibuat pada komputer host fisik, diperlukan satu atau beberapa GPU fisik agar tersedia untuk penugasan perangkat yang berhasil. Ketersediaan ini memastikan bahwa aplikasi Anda dapat terus berjalan ketika Kubernetes menjadwalkan pod pada simpul yang ditingkatkan ini.

Sebelum Anda meningkatkan:

Rencanakan waktu henti selama peningkatan.
Memiliki satu GPU tambahan per host fisik jika Anda menjalankan Standard_NK6 atau 2 GPU tambahan jika Anda menjalankan Standard_NK12. Jika Anda berjalan pada kapasitas penuh dan tidak memiliki GPU tambahan, sebaiknya turunkan kumpulan simpul Anda ke satu simpul sebelum peningkatan, lalu tingkatkan setelah peningkatan berhasil.

Apa yang terjadi jika saya tidak memiliki GPU fisik ekstra di komputer fisik saya selama peningkatan?

Jika peningkatan dipicu pada kluster tanpa sumber daya GPU tambahan untuk memfasilitasi peningkatan bergulir, proses peningkatan macet hingga GPU tersedia. Jika Anda berjalan pada kapasitas penuh dan tidak memiliki GPU tambahan, sebaiknya turunkan kumpulan simpul Anda ke satu simpul sebelum peningkatan, lalu tingkatkan setelah peningkatan berhasil.

Langkah berikutnya

Gambaran umum AKS di HCI dan Windows Server

Bagikan melalui