Praktik terbaik operasi pembelajaran mesin (MLOps) di Azure Kubernetes Service (AKS)
Artikel ini menjelaskan praktik dan pertimbangan terbaik yang perlu diingat saat menggunakan MLOps di AKS. Untuk informasi selengkapnya tentang MLOps, lihat Operasi pembelajaran mesin (MLOps) untuk AI dan alur kerja pembelajaran mesin.
Infrastruktur sebagai Kode (IaC)
IaC memungkinkan provisi dan manajemen infrastruktur yang konsisten dan dapat direproduksi untuk berbagai jenis aplikasi. Dengan penyebaran aplikasi cerdas, implementasi IaC Anda dapat berubah di seluruh alur AI, karena daya komputasi dan sumber daya yang diperlukan untuk model inferensi, penyajian, pelatihan, dan penyempurnaan dapat bervariasi. Menentukan dan membuat versi templat IaC untuk tim pengembang AI Anda dapat membantu memastikan konsistensi dan efektivitas biaya di seluruh jenis pekerjaan sambil mendemistifikasi persyaratan perangkat keras individual mereka dan mempercepat proses penyebaran.
Kontainerisasi
Mengelola bobot model, metadata, dan konfigurasi Anda dalam gambar kontainer memungkinkan portabilitas, penerapan versi yang disederhanakan, dan mengurangi biaya penyimpanan dari waktu ke waktu. Dengan kontainerisasi, Anda dapat:
- Manfaatkan gambar kontainer yang ada, terutama untuk model bahasa besar (LLM) berkisar dalam jutaan hingga miliaran parameter dalam ukuran dan model diffusion yang stabil, disimpan dalam registri kontainer yang aman.
- Hindari titik kegagalan tunggal (SPOF) di alur Anda dengan penggunaan beberapa kontainer ringan yang berisi dependensi unik untuk setiap tugas alih-alih mempertahankan satu gambar besar.
- Simpan himpunan data teks/gambar besar di luar gambar kontainer dasar Anda dan referensikan saat diperlukan saat runtime.
Mulai menggunakan Operator Toolchain AI Kubernetes untuk menyebarkan LLM berkinerja tinggi pada AKS dalam hitungan menit.
Manajemen model dan penerapan versi
Manajemen model dan penerapan versi sangat penting untuk melacak perubahan pada model Anda dari waktu ke waktu. Dengan membuat versi model, Anda dapat:
- Pertahankan konsistensi di seluruh kontainer model Anda untuk kemudahan penyebaran di lingkungan yang berbeda.
- Gunakan metode penyempurnaan hemat parameter (PEFT) untuk melakukan iterasi lebih cepat pada subset bobot model dan mempertahankan versi baru dalam kontainer ringan.
Automation
Otomatisasi adalah kunci untuk mengurangi kesalahan manual, meningkatkan efisiensi, dan memastikan konsistensi di seluruh siklus hidup ML. Dengan mengotomatiskan tugas, Anda dapat:
- Integrasikan alat pemberitahuan untuk secara otomatis memicu alur penyerapan vektor saat data baru mengalir ke aplikasi Anda.
- Atur ambang performa model untuk melacak degradasi dan memicu pelatihan ulang alur.
Skalabilitas dan manajemen sumber daya
Skalabilitas dan manajemen sumber daya sangat penting untuk memastikan bahwa alur AI Anda dapat menangani tuntutan aplikasi Anda. Dengan mengoptimalkan penggunaan sumber daya, Anda dapat:
- Integrasikan alat yang secara efisien menggunakan sumber daya CPU, GPU, dan memori yang dialokasikan melalui komputasi terdistribusi dan beberapa tingkat paralelisme (misalnya: paralelisme data, model, dan alur).
- Aktifkan penskalaan otomatis pada sumber daya komputasi Anda untuk mendukung volume permintaan model tinggi pada waktu sibuk dan menurunkan skala di luar jam sibuk.
- Mirip dengan aplikasi tradisional Anda, rencanakan pemulihan bencana dengan mengikuti praktik terbaik ketahanan dan keandalan AKS.
Keamanan dan kepatuhan
Keamanan dan kepatuhan sangat penting untuk melindungi data Anda dan memastikan bahwa alur AI Anda memenuhi persyaratan peraturan. Dengan menerapkan praktik terbaik keamanan dan kepatuhan, Anda dapat:
- Integrasikan pemindaian kerentanan dan paparan umum (CVE) untuk mendeteksi kerentanan umum pada gambar kontainer model sumber terbuka.
- Gunakan Pertahanan Microsoft untuk Kontainer untuk gambar kontainer model yang disimpan di Azure Container Registry Anda.
- Pertahankan jejak audit data, perubahan model, dan metrik yang diserap agar tetap sesuai dengan kebijakan organisasi Anda.
Langkah berikutnya
Pelajari tentang praktik terbaik di seluruh area lain dari penyebaran dan operasi aplikasi Anda di AKS:
Azure Kubernetes Service