Melatih model AI dan ML

Artikel
01/16/2025

Bagian ini menunjukkan kepada Anda cara melatih pembelajaran mesin dan model AI di Mosaic AI.

Pelatihan Model AI Mosaik menyederhanakan dan menyaingkan proses pelatihan dan penyebaran model ML tradisional melalui beban kerja Penyempurnaan Model AutoML dan Foundation.

AutoML

AutoML menyederhanakan proses penerapan pembelajaran mesin ke himpunan data Anda dengan secara otomatis menemukan algoritma terbaik dan konfigurasi hiperparameter untuk Anda. AutoML menawarkan antarmuka pengguna tanpa kode serta API Python.

Penyempurnaan Model Fondasi

Penyempurnaan Model Dasar (sekarang bagian dari Pelatihan Model AI Mosaik) pada Databricks memungkinkan Anda menyesuaikan model bahasa besar (LLM) menggunakan data Anda sendiri. Proses ini melibatkan penyempurnaan pelatihan model fondasi yang sudah ada sebelumnya, secara signifikan mengurangi data, waktu, dan sumber daya komputasi yang diperlukan dibandingkan dengan melatih model dari awal. Fitur-fitur kunci mencakup:

Penyempurnaan instruksi: Menyesuaikan model Anda ke tugas baru dengan melatih data respons perintah terstruktur.
Pra-pelatihan lanjutan: Tingkatkan model Anda dengan data teks tambahan untuk menambahkan pengetahuan baru atau fokus pada domain tertentu.
Penyelesaian obrolan: Latih model Anda pada log obrolan untuk meningkatkan kemampuan percakapan.

Contoh pustaka sumber terbuka

Lihat contoh pelatihan pembelajaran mesin dari berbagai pustaka pembelajaran mesin sumber terbuka, termasuk contoh penyetelan hyperparameter menggunakan Optuna dan Hyperopt.

Pembelajaran mendalam

Lihat contoh dan praktik terbaik untuk pelatihan pembelajaran mendalam terdistribusi sehingga Anda dapat mengembangkan dan menyempurnakan model pembelajaran mendalam di Azure Databricks.

Pemberi Rekomendasi

Pelajari cara melatih model rekomendasi berbasis pembelajaran mendalam di Azure Databricks. Dibandingkan dengan model rekomendasi tradisional, model pembelajaran mendalam dapat mencapai hasil kualitas yang lebih tinggi dan menskalakan ke jumlah data yang lebih besar.

Bagikan melalui