Apa target komputasi di Azure Machine Learning?
Target komputasi adalah sumber daya komputasi atau lingkungan yang ditetapkan, tempat skrip pelatihan atau hosting penyebaran layanan Anda dijalankan. Lokasinya mungkin merupakan komputer lokal Anda atau suatu sumber daya komputasi berbasis cloud. Penggunakan target komputasi akan memudahkan Anda nantinya untuk mengubah lingkungan komputasi tanpa harus mengubah kode Anda.
Azure Machine Learning memiliki berbagai dukungan pada berbagai target komputasi. Dalam siklus hidup pengembangan model yang khas, Anda bisa:
- Memulai dengan mengembangkan dan bereksperimen pada sejumlah kecil data. Pada tahap ini, gunakan lingkungan lokal Anda, seperti komputer lokal atau komputer virtual (Virtual Machine/VM) berbasis cloud, sebagai target komputasi Anda.
- Skalakan ke data yang lebih besar, atau lakukan pelatihan terdistribusi dengan menggunakan salah satu target komputasi pelatihan ini.
- Setelah model Anda siap, sebarkan ke lingkungan hosting web menggunakan salah satu target komputasi penyebaran ini.
Sumber daya komputasi yang digunakan untuk target komputasi Anda dilampirkan ke sebuah ruang kerja. Sumber daya komputasi selain komputer lokal dibagikan oleh pengguna ruang kerja.
Target komputasi pelatihan
Saat Anda meningkatkan pelatihan Anda pada kumpulan data yang lebih besar atau melakukan pelatihan terdistribusi, gunakan komputasi Azure Machine Learning untuk membuat kluster tunggal atau multi-node yang melakukan penskalaan otomatis setiap kali Anda mengirimkan pekerjaan. Anda juga dapat melampirkan sumber daya komputasi Anda sendiri, meskipun dengan dukungan yang berbeda-beda untuk setiap skenarionya.
Target komputasi dapat digunakan kembali dari satu tugas pelatihan ke tugas berikutnya. Misalnya, setelah Anda melampirkan VM jarak jauh ke ruang kerja Anda, Anda dapat menggunakannya kembali untuk beberapa pekerjaan.
Untuk pipeline machine learning, gunakan langkah pipeline yang sesuai untuk setiap target komputasi.
Anda dapat menggunakan salah satu sumber daya berikut untuk target komputasi pelatihan untuk sebagian besar pekerjaan. Tidak semua resource dapat digunakan untuk machine learning otomatis, pipeline machine learning, atau desainer. Azure Databricks dapat digunakan sebagai sumber pelatihan untuk jalur lokal dan pembelajaran mesin, tetapi tidak sebagai target jarak jauh untuk pelatihan lainnya.
Target pelatihan | Pembelajaran mesin otomatis | Jalur pembelajaran mesin | Desainer Azure Machine Learning |
---|---|---|---|
Kluster komputasi Azure Machine Learning | Ya | Ya | Ya |
Komputasi tanpa server Azure Pembelajaran Mesin | Ya | Ya | Ya |
Instans komputasi Azure Pembelajaran Mesin | Ya (melalui SDK) | Ya | Ya |
Azure Machine Learning Kubernetes | Ya | Ya | |
VM Jarak Jauh | Ya | Ya | |
Kolam Apache Spark (pratinjau) | Ya (hanya mode lokal SDK) | Ya | |
Azure Databricks | Ya (hanya mode lokal SDK) | Ya | |
Azure Data Lake Analytics | Ya | ||
Azure HDInsight | Ya | ||
Azure Batch | Ya |
Target pelatihan | Pembelajaran mesin otomatis | Jalur pembelajaran mesin | Desainer Azure Machine Learning |
---|---|---|---|
Komputer lokal | Ya | ||
Kluster komputasi Azure Machine Learning | Ya | Ya | Ya |
Instans komputasi Azure Pembelajaran Mesin | Ya (melalui SDK) | Ya | Ya |
Azure Machine Learning Kubernetes | Ya | Ya | |
VM Jarak Jauh | Ya | Ya | |
Kolam Apache Spark (pratinjau) | Ya (hanya mode lokal SDK) | Ya | |
Azure Databricks | Ya (hanya mode lokal SDK) | Ya | |
Azure Data Lake Analytics | Ya | ||
Azure HDInsight | Ya | ||
Azure Batch | Ya |
Tip
Instans komputasi memiliki disk OS 120GB. Jika Anda kehabisan ruang disk, gunakan terminal untuk mengosongkan setidaknya 1-2 GB sebelum Anda menghentikan atau memulai ulang instance komputasi.
Target komputasi untuk inferensi
Saat melakukan inferensi, Azure Machine Learning membuat kontainer Docker yang hosting model serta sumber daya terkait yang diperlukan untuk penggunaannya. Kontainer ini kemudian digunakan dalam target komputasi.
Target komputasi yang Anda gunakan untuk menghosting model Anda memengaruhi biaya dan ketersediaan titik akhir yang Anda sebarkan. Gunakan tabel ini untuk memilih target komputasi yang sesuai.
Target komputasi | Digunakan untuk | Dukungan GPU | Deskripsi |
---|---|---|---|
Azure Machine Learning titik akhir | Inferensi real time Inferensi batch |
Ya | Komputasi yang dikelola sepenuhnya untuk real-time (titik akhir online terkelola) dan penilaian batch (titik akhir batch) pada komputasi tanpa server. |
Azure Machine Learning Kubernetes | Inferensi real time Inferensi batch |
Ya | Jalankan beban kerja inferensi pada kluster Kubernetes lokal, cloud, dan tepi. |
Target komputasi | Digunakan untuk | Dukungan GPU | Deskripsi |
---|---|---|---|
Layanan web lokal | Pengujian/debug | Gunakan untuk pengujian dan pemecahan masalah terbatas. Akselerasi perangkat keras tergantung pada penggunaan pustaka di sistem lokal. | |
Azure Machine Learning Kubernetes | Inferensi waktu nyata | Ya | Jalankan beban kerja inferensi di cloud. |
Azure Container Instances | Inferensi real time Direkomendasikan untuk tujuan pengembangan/pengujian saja. |
Gunakan untuk beban kerja berbasis CPU skala rendah yang membutuhkan RAM kurang dari 48 GB. Tidak mengharuskan Anda untuk mengelola kluster. Hanya cocok untuk model berukuran kurang dari 1 GB. Didukung dalam desainer. |
Catatan
Saat memilih SKU kluster, pertama-tama perbesar, lalu perkecil. Mulailah dengan komputer yang memiliki 150% RAM yang dibutuhkan model Anda, buat profil hasilnya dan temukan komputer yang memiliki performa yang Anda butuhkan. Setelah Anda mempelajarinya, tingkatkan jumlah komputer agar sesuai dengan kebutuhan Anda untuk inferensi bersamaan.
Komputasi Azure Machine Learning (terkelola)
Azure Pembelajaran Mesin membuat dan mengelola sumber daya komputasi terkelola. Jenis komputasi ini dioptimalkan untuk beban kerja pembelajaran mesin. Azure Pembelajaran Mesin kluster komputasi, komputasi tanpa server, dan instans komputasi adalah satu-satunya komputasi terkelola.
Tidak perlu membuat komputasi tanpa server. Anda dapat membuat instans komputasi atau kluster komputasi Azure Machine Learning dari:
- Studio Azure Pembelajaran Mesin
- Python SDK dan Azure CLI:
- Templat Azure Resource Manager. Untuk contoh templat, lihat Membuat kluster komputasi Azure Machine Learning.
Catatan
Alih-alih membuat kluster komputasi, gunakan komputasi tanpa server untuk membongkar manajemen siklus hidup komputasi ke Azure Pembelajaran Mesin.
Saat dibuat, sumber daya komputasi ini secara otomatis menjadi bagian dari ruang kerja Anda, tidak seperti jenis target komputasi lainnya.
Kemampuan | Kluster komputasi | Hitung intance |
---|---|---|
Klaster tunggal atau multi-simpul | ✓ | Kluster node tunggal |
Menskalakan secara otomatis setiap kali Anda mengirimkan pekerjaan alur | ✓ | |
Manajemen kluster dan penjadwalan pekerjaan otomatis | ✓ | ✓ |
Dukungan untuk sumber daya CPU dan GPU | ✓ | ✓ |
Catatan
Untuk menghindari biaya saat komputasi diam:
- Untuk kluster komputasi, pastikan jumlah minimum simpul diatur ke 0, atau gunakan komputasi tanpa server.
- Untuk instans komputasi, aktifkan matikan diam. Saat menghentikan instans komputasi menghentikan penagihan selama jam komputasi, Anda masih akan ditagih untuk disk, IP publik, dan penyeimbang beban standar.
Seri dan ukuran VM yang didukung
Penting
Jika instans komputasi atau kluster komputasi Anda didasarkan pada salah satu seri ini, buat ulang dengan ukuran VM lain.
Seri ini dihentikan pada 31 Agustus 2023:
Seri ini dihentikan pada 31 Agustus 2024:
Saat Anda memilih ukuran simpul untuk sumber daya komputasi terkelola pada Azure Machine Learning, Anda dapat memilih dari beberapa ukuran VM tertentu yang tersedia di Azure. Azure menawarkan beragam ukuran bagi Linux dan Windows untuk beban kerja yang berbeda. Untuk mempelajari lebih lanjut, lihat Tipe dan ukuran VM.
Ada beberapa pengecualian dan batasan dalam memilih ukuran VM:
- Beberapa seri VM tidak didukung di Azure Machine Learning.
- Beberapa seri VM, seperti GPU dan SKU khusus lainnya, mungkin awalnya tidak muncul dalam daftar VM yang tersedia. Namun Anda masih dapat menggunakannya setelah meminta perubahan kuota. Untuk informasi selengkapnya tentang meminta kuota, lihat Meminta penambahan kuota dan batas.
Lihat tabel berikut ini guna mempelajari selengkapnya mengenai seri yang didukung.
Seri VM yang didukung | Golongan | Didukung oleh |
---|---|---|
DDSv4 | Tujuan umum | Kluster dan instans komputasi |
Dv2 | Tujuan umum | Kluster dan instans komputasi |
Dv3 | Tujuan umum | Kluster dan instans komputasi |
DSv2 | Tujuan umum | Kluster dan instans komputasi |
DSv3 | Tujuan umum | Kluster dan instans komputasi |
EAv4 | Memori Dioptimalkan | Kluster dan instans komputasi |
Ev3 | Memori Dioptimalkan | Kluster dan instans komputasi |
ESv3 | Memori Dioptimalkan | Kluster dan instans komputasi |
FSv2 | Dioptimalkan untuk komputasi | Kluster dan instans komputasi |
FX | Dioptimalkan untuk komputasi | Kluster komputasi |
H | Komputasi performa tinggi | Kluster dan instans komputasi |
HB | Komputasi performa tinggi | Kluster dan instans komputasi |
HBv2 | Komputasi performa tinggi | Kluster dan instans komputasi |
HBv3 | Komputasi performa tinggi | Kluster dan instans komputasi |
HC | Komputasi performa tinggi | Kluster dan instans komputasi |
LSv2 | Penyimpanan dioptimalkan | Kluster dan instans komputasi |
M | Memori Dioptimalkan | Kluster dan instans komputasi |
NC | GPU | Kluster dan instans komputasi |
NC Promo | GPU | Kluster dan instans komputasi |
NCv2 | GPU | Kluster dan instans komputasi |
NCv3 | GPU | Kluster dan instans komputasi |
ND | GPU | Kluster dan instans komputasi |
NDv2 | GPU | Kluster dan instans komputasi |
NV | GPU | Kluster dan instans komputasi |
NVv3 | GPU | Kluster dan instans komputasi |
NCasT4_v3 | GPU | Kluster dan instans komputasi |
NDasrA100_v4 | GPU | Kluster dan instans komputasi |
Meskipun Azure Machine Learning mendukung seri VM ini, seri ini mungkin tidak tersedia di semua wilayah Azure. Untuk memeriksa apakah seri VM tersedia, lihat ketersediaan Produk sesuai wilayah.
Catatan
Azure Machine Learning tidak mendukung semua ukuran VM yang didukung Azure Compute. Untuk mencantumkan ukuran VM yang tersedia, gunakan metode berikut:
Catatan
Azure Machine Learning tidak mendukung semua ukuran VM yang didukung Azure Compute. Untuk mencantumkan ukuran VM yang tersedia yang didukung oleh jenis komputer virtual komputasi tertentu, gunakan salah satu metode berikut:
Jika Anda menggunakan target komputasi berkemampuan GPU, penting untuk memastikan bahwa driver CUDA yang benar diinstal di lingkungan pelatihan. Lihat tabel berikut untuk menentukan penggunaan versi CUDA yang benar:
Arsitektur GPU | Seri Azure VM | Versi CUDA yang didukung |
---|---|---|
Ampere | NDA100_v4 | 11.0+ |
Turing | NCT4_v3 | 10.0+ |
Volta | NCv3, NDv2 | 9.0+ |
Pascal | NCv2, ND | 9.0+ |
Maxwell | NV, NVv3 | 9.0+ |
Kepler | NC, NC Promo | 9.0+ |
Selain memastikan versi CUDA dan perangkat keras kompatibel, pastikan juga bahwa versi CUDA kompatibel dengan versi kerangka kerja pembelajaran mesin yang Anda gunakan:
- Untuk PyTorch, Anda dapat memeriksa kompatibilitas dengan mengunjungi halaman versi PyTorch sebelumnya.
- Untuk TensorFlow, Anda dapat memeriksa kompatibilitas dengan mengunjungi build TensorFlow dari halaman sumber.
Isolasi komputasi
Komputasi Azure Machine Learning menawarkan beragam ukuran VM yang diisolasi ke jenis perangkat keras tertentu dan didedikasikan untuk satu pelanggan. Ukuran VM yang terisolasi paling cocok bagi beban kerja yang memerlukan isolasi tingkat tinggi dari beban kerja pelanggan lain termasuk untuk alasan persyaratan kepatuhan dan peraturan. Memanfaatkan ukuran terisolasi menjamin bahwa VM Anda adalah satu-satunya yang berjalan pada instans server tertentu.
Penawaran VM yang terisolasi saat ini meliputi:
- Standard_M128ms
- Standard_F72s_v2
- Standard_NC24s_v3
- Standard_NC24rs_v3 (mampu RDMA)
Untuk mempelajari selengkapnya tentang isolasi, lihat Isolasi pada awan publik Azure.
Komputasi tak terkelola
Azure Pembelajaran Mesin tidak mengelola target komputasi yang tidak dikelola. Anda membuat jenis target komputasi ini di luar Azure Machine Learning lalu lampirkan ke ruang kerja Anda. Sumber daya komputasi yang tidak dikelola dapat memerlukan langkah tambahan bagi Anda untuk mempertahankan atau meningkatkan performa untuk beban kerja pembelajaran mesin.
Azure Machine Learning mendukung tipe komputasi yang tidak dikelola berikut:
- Komputer virtual jarak jauh
- Azure HDInsight
- Azure Databricks
- Azure Data Lake Analytics
- Azure Kubernetes Service
- Kumpulan Azure Synapse Spark (tidak digunakan lagi)
Untuk informasi selengkapnya, lihat Mengelola sumber daya komputasi.