Bagikan melalui


Apa itu AutoML?

AutoML menyederhanakan proses penerapan pembelajaran mesin ke himpunan data Anda dengan secara otomatis menemukan algoritma terbaik dan konfigurasi hiperparameter untuk Anda.

Bagaimana cara kerja AutoML?

Berikan himpunan data Anda dan tentukan jenis masalah pembelajaran mesin, lalu AutoML melakukan hal berikut:

  1. Membersihkan dan menyiapkan data Anda.
  2. Mengatur pelatihan model terdistribusi dan penyetelan hiperparameter di beberapa algoritma.
  3. Menemukan model terbaik menggunakan algoritma evaluasi sumber terbuka dari scikit-learn, xgboost, LightGBM, Prophet, dan ARIMA.
  4. Menyajikan hasilnya. AutoML juga menghasilkan buku catatan kode sumber untuk setiap percobaan, memungkinkan Anda meninjau, mereproduksi, dan memodifikasi kode sesuai kebutuhan.

Mulai dengan eksperimen AutoML melalui UI berkode rendah untuk regresi , klasifikasi , prakiraan , atau API Python .

Persyaratan

  • Azure Databricks merekomendasikan Databricks Runtime 10.4 LTS ML atau lebih tinggi untuk ketersediaan umum AutoML.

  • AutoML tergantung pada databricks-automl-runtime paket, yang berisi komponen yang berguna di luar AutoML dan juga membantu menyederhanakan buku catatan yang dihasilkan oleh pelatihan AutoML. databricks-automl-runtime Tersedia di PyPI.

  • Tidak ada pustaka tambahan selain yang telah diinstal sebelumnya di Databricks Runtime untuk Pembelajaran Mesin yang harus diinstal pada kluster.

    • Setiap modifikasi (penghapusan, peningkatan, atau penurunan) ke versi pustaka yang ada menghasilkan kegagalan eksekusi karena ketidaksesuaian.
  • Untuk mengakses file di ruang kerja, Anda harus membuka port jaringan 1017 dan 1021 untuk eksperimen AutoML. Untuk membuka port ini atau mengonfirmasi bahwa port terbuka, tinjau konfigurasi firewall VPN cloud dan aturan grup keamanan Anda atau hubungi administrator cloud lokal Anda. Untuk informasi tambahan tentang konfigurasi dan penyebaran ruang kerja, lihat Membuat ruang kerja.

  • Gunakan sumber daya komputasi dengan mode akses komputasi yang didukung. Tidak semua mode akses komputasi memiliki akses ke Unity Catalog:

    Mode akses komputasi Dukungan AutoML Dukungan Katalog Unity
    mode akses khusus Tidak didukung Didukung
    pengguna tunggal Didukung (harus menjadi pengguna tunggal yang ditunjuk untuk kluster) Didukung
    Mode akses bersama Tidak didukung Tidak didukung
    Tidak ada isolasi yang dibagikan Didukung Tidak didukung

Algoritma AutoML

AutoML melatih dan mengevaluasi model berdasarkan algoritma dalam tabel berikut.

Catatan

Untuk model klasifikasi dan regresi, pohon keputusan, hutan acak, regresi logistik, dan regresi linier dengan algoritma penurunan gradien stochastic didasarkan pada scikit-learn.

Model klasifikasi Model regresi Model prakiraan Model prakiraan (tanpa server)
Pohon keputusan Pohon keputusan Prophet Prophet
Hutan acak Hutan acak Auto-ARIMA (Tersedia dalam Runtime Databricks 10.3 ML ke atas.) ARIMA Otomatis
Regresi Logistik Regresi linier dengan penurunan gradien stokastik DeepAR
XGBoost XGBoost
LightGBM LightGBM

Pembuatan buku catatan percobaan

AutoML komputasi klasik menghasilkan notebook kode sumber di balik uji coba sehingga Anda dapat meninjau, mereproduksi, dan memodifikasi kode sesuai kebutuhan.

Untuk memperkirakan eksperimen, notebook yang dihasilkan AutoML secara otomatis diimpor ke ruang kerja Anda untuk semua percobaan eksperimen Anda.

Untuk eksperimen klasifikasi dan regresi, notebook yang dihasilkan AutoML untuk eksplorasi data dan uji coba terbaik dalam eksperimen Anda secara otomatis diimpor ke ruang kerja Anda. Notebook yang dihasilkan untuk uji coba eksperimen lainnya disimpan sebagai artefak MLflow pada DBFS alih-alih diimpor secara otomatis ke ruang kerja Anda. Untuk semua uji coba selain uji coba terbaik, notebook_path dan notebook_url di API Python TrialInfo tidak diatur. Jika Anda perlu menggunakan notebook ini, Anda dapat mengimpornya secara manual ke ruang kerja Anda dengan antarmuka pengguna eksperimen AutoML atau databricks.automl.import_notebookAPI Python.

Jika Anda hanya menggunakan buku catatan eksplorasi data atau buku catatan percobaan terbaik yang dihasilkan oleh AutoML, kolom Sumber di antarmuka pengguna eksperimen AutoML berisi tautan ke buku catatan yang dihasilkan untuk uji coba terbaik.

Jika Anda menggunakan notebook lain yang dihasilkan di antarmuka pengguna eksperimen AutoML, ini tidak diimpor secara otomatis ke ruang kerja. Anda dapat menemukan buku catatan dengan mengklik setiap eksekusi MLflow. Buku catatan IPython disimpan di bagian Artefak dari halaman eksekusi. Anda dapat mengunduh buku catatan ini dan mengimpornya ke ruang kerja, jika mengunduh artefak diaktifkan oleh administrator ruang kerja Anda.

Nilai Shapley (SHAP) untuk kejelasan model

Catatan

Untuk MLR 11.1 ke bawah, plot SHAP tidak dihasilkan jika himpunan data berisi kolom datetime.

Notebook yang dihasilkan oleh pelaksanaan regresi dan klasifikasi AutoML menyertakan kode untuk menghitung nilai Shapley . Nilai Shapley didasarkan pada teori game dan memperkirakan pentingnya setiap fitur untuk prediksi model.

Notebook AutoML menghitung nilai Shapley menggunakan paket SHAP . Karena perhitungan ini sangat intensif memori, perhitungan tidak dilakukan secara default.

Untuk menghitung dan menampilkan nilai Shapley:

  1. Buka bagian Kepentingan fitur di buku catatan uji coba yang dihasilkan AutoML.
  2. Atur shap_enabled = True.
  3. Jalankan kembali notebook.

Langkah berikutnya