Melatih model pembelajaran mesin
Apache Spark - bagian dari Microsoft Fabric - memungkinkan pembelajaran mesin dengan big data. Dengan Apache Spark, Anda dapat membangun wawasan berharga ke dalam banyak data terstruktur, tidak terstruktur, dan bergerak cepat. Anda memiliki beberapa opsi pustaka sumber terbuka yang tersedia saat melatih model pembelajaran mesin dengan Apache Spark di Microsoft Fabric: Apache Spark MLlib, SynapseML, dan lainnya.
Apache SparkML dan MLlib
Apache Spark - bagian dari Microsoft Fabric - menyediakan kerangka kerja pemrosesan data paralel terpadu, sumber terbuka, dan paralel. Kerangka kerja ini mendukung pemrosesan dalam memori yang meningkatkan analitik big data. Mesin pemrosesan Spark dibangun untuk memberikan kecepatan, kemudahan penggunaan, dan analitik canggih. Kemampuan komputasi terdistribusi dalam memori Spark menjadikannya pilihan yang baik untuk algoritma iteratif yang digunakan pembelajaran mesin dan komputasi grafik.
Pustaka pembelajaran mesin yang dapat diskalakan MLlib dan SparkML menghadirkan kemampuan pemodelan algoritma ke lingkungan terdistribusi ini. MLlib berisi API asli, dibangun di atas RDD. SparkML adalah paket yang lebih baru. Ini menyediakan API tingkat yang lebih tinggi yang dibangun di atas DataFrames untuk konstruksi alur ML. SparkML belum mendukung semua fitur MLlib, tetapi menggantikan MLlib sebagai pustaka pembelajaran mesin Spark standar.
Catatan
Untuk informasi selengkapnya tentang pembuatan model SparkML, kunjungi melatih model dengan sumber daya Apache Spark MLlib .
Pustaka populer
Runtime Microsoft Fabric untuk Apache Spark mencakup beberapa paket sumber terbuka populer untuk melatih model pembelajaran mesin. Pustaka ini menyediakan kode yang dapat digunakan kembali yang dapat Anda sertakan dalam program atau proyek Anda. Runtime mencakup pustaka pembelajaran mesin yang relevan ini, dan lainnya:
Scikit-learn - salah satu pustaka pembelajaran mesin node tunggal paling populer untuk algoritma ML klasik. Scikit-learn mendukung algoritma pembelajaran yang paling diawasi dan tidak diawasi, dan dapat menangani penambangan data dan analisis data.
XGBoost - pustaka pembelajaran mesin populer yang berisi algoritma yang dioptimalkan untuk melatih pohon keputusan dan hutan acak.
PyTorch dan Tensorflow adalah pustaka pembelajaran mendalam Python yang kuat. Dengan pustaka ini, Anda dapat mengatur jumlah pelaksana pada kumpulan Anda ke nol, untuk membangun model komputer tunggal. Meskipun konfigurasi tersebut tidak mendukung Apache Spark, ini adalah cara sederhana dan hemat biaya untuk membuat model mesin tunggal.
SynapseML
Pustaka sumber terbuka SynapseML (sebelumnya dikenal sebagai MMLSpark) menyederhanakan pembuatan alur pembelajaran mesin (ML) yang dapat diskalakan secara besar-besaran. Dengan itu, penggunaan ilmuwan data Spark menjadi lebih produktif karena pustaka itu meningkatkan tingkat eksperimen dan menerapkan teknik pembelajaran mesin mutakhir - termasuk pembelajaran mendalam - pada himpunan data besar.
SynapseML menyediakan lapisan di atas API tingkat rendah SparkML saat membangun model ML yang dapat diskalakan. API ini mencakup pengindeksan string, perakitan vektor fitur, pemaksaan data ke dalam tata letak yang sesuai untuk algoritma pembelajaran mesin, dan banyak lagi. Pustaka SynapseML menyederhanakan ini dan tugas umum lainnya untuk membangun model di PySpark.
Konten terkait
Artikel ini memberikan gambaran umum tentang berbagai opsi yang tersedia untuk melatih model pembelajaran mesin dalam Apache Spark di Microsoft Fabric. Untuk informasi selengkapnya tentang pelatihan model, kunjungi sumber daya berikut:
- Menggunakan sampel AI untuk membangun model pembelajaran mesin: Menggunakan sampel AI
- Melacak eksekusi pembelajaran mesin menggunakan Eksperimen: Eksperimen pembelajaran mesin