Databricks Runtime 10.3 untuk ML (EoS)
Catatan
Dukungan untuk versi Databricks Runtime ini telah berakhir. Untuk tanggal akhir dukungan, lihat Riwayat akhir dukungan. Untuk semua versi Runtime Databricks yang didukung, lihat catatan rilis Versi dan kompatibilitas Databricks Runtime.
Databricks Runtime 10.3 untuk Pembelajaran Mesin menyediakan lingkungan siap pakai untuk pembelajaran mesin dan ilmu data berdasarkan Databricks Runtime 10.3 (EoS). Runtime Databricks ML berisi banyak perpustakaan pembelajaran mesin populer, termasuk TensorFlow, PyTorch, dan XGBoost. Databricks Runtime ML mencakup AutoML, alat untuk secara otomatis melatih alur pembelajaran mesin. Databricks Runtime ML juga mendukung pelatihan pembelajaran mendalam menggunakan Horovod.
Untuk informasi selengkapnya, termasuk instruksi untuk membuat kluster ML Runtime Databricks, lihat AI dan pembelajaran mesin di Databricks.
Fitur dan peningkatan baru
Databricks Runtime 10.3 ML dibangun di atas Databricks Runtime 10.3. Untuk informasi tentang apa yang baru dalam Databricks Runtime 10.3, termasuk Apache Spark MLlib dan SparkR, lihat catatan rilis Databricks Runtime 10.3 (EoS).
Penyempurnaan AutoML
Penyempurnaan berikut telah dilakukan pada AutoML.
AutoML sekarang mendukung model ARIMA untuk prakiraan
Selain Prophet, AutoML sekarang membuat dan mengevaluasi model ARIMA untuk memprakirakan masalah.
Keluarkan kolom dari himpunan data
Saat Anda menggunakan API AutoML, Anda dapat menentukan kolom yang harus diabaikan AutoML selama perhitungannya. Ini hanya tersedia untuk masalah klasifikasi dan regresi. Lihat Referensi API Python AutoML untuk detailnya.
Mengecualikan kerangka kerja algoritma dari eksekusi AutoML
Anda dapat menentukan kerangka kerja algoritma, seperti scikit-learn, yang tidak boleh dipertimbangkan AutoML saat mengembangkan model. Lihat Konfigurasi tingkat lanjut dan referensi API AutoML Python untuk detailnya.
max_trials
tidak digunakan lagi
Parameter max_trials
tidak digunakan lagi dan akan dihapus dalam rilis Databricks Runtime ML utama berikutnya. Gunakan timeout_minutes
untuk mengontrol durasi menjalankan AutoML. Selain itu, di Databricks Runtime 10.1 ML dan versi setelahnya, AutoML menggabungkan penghentian awal; itu akan menghentikan model pelatihan dan penyetelan jika metrik validasi tidak lagi membaik.
Peningkatan pada Feature Store Databricks
Anda sekarang dapat menerapkan pencarian titik waktu ke tabel fitur deret waktu. Lihat Dukungan titik waktu menggunakan tabel fitur rangkaian waktu untuk detailnya.
Pencatatan Otomatis Databricks (GA)
Pencatatan Otomatis Databricks sekarang tersedia secara umum di Databricks Runtime 10.3 ML. Pencatatan Otomatis Databricks adalah solusi tanpa kode yang menyediakan pelacakan percobaan otomatis untuk sesi pelatihan pembelajaran mesin di Azure Databricks. Dengan Databricks Autologging, parameter model, metrik, file, dan informasi alur data secara otomatis dicatat saat Anda melatih model menggunakan berbagai pustaka pembelajaran mesin yang populer. Sesi pelatihan direkam sebagai MLflow Tracking Runs. File model juga dilacak sehingga Anda dapat dengan mudah mencatatnya ke MLflow Model Registry dan menyebarkannya untuk penilaian real-time dengan MLflow Model Serving.
Lihat Pencatatan Otomatis Databricks untuk informasi selengkapnya.
Lingkungan sistem
Lingkungan sistem di Databricks Runtime10.3 ML berbeda dari Databricks Runtime 10.3 sebagai berikut:
-
DBUtils: Databricks Runtime ML tidak menyertakan utilitas Pustaka (dbutils.library) (warisan).
Gunakan perintah
%pip
saja. Lihat Pustaka Python yang mencakup buku catatan. - Untuk kluster GPU, Databricks Runtime ML menyertakan pustaka GPU NVIDIA berikut:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Pustaka
Bagian berikut mencantumkan pustaka yang disertakan dalam Databricks Runtime 10.3 ML yang berbeda dari yang termasuk dalam Databricks Runtime 10.3.
Di bagian ini:
Pustaka tingkat atas
Databricks Runtime 10.3 ML mencakup pustaka terkemuka berikut:
- GraphFrames
- Horovod dan HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Pustaka Python
ML Databricks Runtime 10.3 menggunakan Virtualenv untuk manajemen paket Python dan mencakup banyak paket ML populer.
Selain paket yang ditentukan di bagian berikut, Databricks Runtime 10.3 ML juga mencakup paket-paket berikut:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.7
- automl 1.6.0
Perpustakaan Python di kluster CPU
Perpustakaan | Versi | Perpustakaan | Versi | Perpustakaan | Versi |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | atribut | 20.3.0 | panggilan balik | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | pemutih | 3.3.0 |
kebahagiaan | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | katalog | 2.0.6 | sertifikat | 5.12.2020 |
cffi | 1.14.5 | chardet | 4.0.0 | klik | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | kriptografi | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.5 |
databricks-cli | 0.16.2 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
dekorator | 5.0.6 | defusedxml | 0.7.1 | dill | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
titik masuk | 0,3 | ephem | 4.1.3 | Tinjauan Fitur | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | masa depan | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | Pengonversi Hijriah | 2.2.2 | hari libur | 0.12 |
Horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | pembelajaran tidak seimbang | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.7.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
kalender lunar Korea | 0.2.1 | kode bahasa | 3.3.0 | libclang | 12.0.0 |
lightgbm | 3.3.1 | llvmlite | 0.38.0 | Kalender Lunar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | mistune | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.23.0 | multimetode | 1.6 |
murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | buku catatan | 6.3.0 | numba | 0.55.0 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
pengemasan | 21.3 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
pathy | 0.6.0 | kambing hitam | 0.5.1 | petastorm | 0.11.3 |
pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
Bantal | 8.2.0 | pip | 21.0.1 | plotly | 5.5.0 |
pmdarima | 1.8.4 | preshed | 3.0.5 | prometheus-client | 0.10.1 |
prompt-toolkit | 3.0.17 | nabi | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modul | 0.2.8 |
pybind11 | 2.9.0 | pycparser | 2,20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 |
python-dateutil | 2.8.1 | editor Python | 1.0.4 | python-engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
permintaan | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
rsa | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
shap | 0.40.0 | simplejson | 3.17.2 | six | 1.15.0 |
alat pemotong | 0.0.7 | smart-open | 5.2.0 | smmap | 3.0.5 |
luas | 3.2.1 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | seriusan | 2.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | mengatur dalam bentuk tabel | 0.8.7 |
terjebak-dalam-unicode | 0.1.0 | ketekunan | 6.2.0 | tensorboard | 2.7.0 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.7.0 | tensorflow-estimator | 2.7.0 | tensorflow-io-gcs-filesystem | 0.23.1 |
termcolor | 1.1.0 | selesai | 0.9.4 | jalur uji | 0.4.4 |
thinc | 8.0.12 | threadpoolctl | 2.1.0 | pemecah token | 0.10.3 |
obor | 1.10.1+cpu | torchvision | 0.11.2+cpu | tornado | 6.1 |
tqdm | 4.59.0 | traitlets=5.0.5 | 5.0.5 | Transformer | 4.15.0 |
typer | 0.3.2 | typing-extensions | 3.7.4.3 | ujson | 4.0.2 |
unattended-upgrades | 0.1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
visions | 0.7.4 | wasabi | 0.8.2 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
roda | 0.36.2 | widgetsnbextension | 3.5.1 | dibungkus | 1.12.1 |
xgboost | 1.5.1 | zipp | 3.4.1 |
Pustaka Phyton di kluster GPU
Pustaka | Versi | Perpustakaan | Versi | Perpustakaan | Versi |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
generator asinkron | 1.10 | atribut | 20.3.0 | panggilan balik | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | pemutih | 3.3.0 |
kebahagiaan | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | katalog | 2.0.6 | sertifikat | 5.12.2020 |
cffi | 1.14.5 | chardet | 4.0.0 | klik | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | kriptografi | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.5 |
databricks-cli | 0.16.2 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
dekorator | 5.0.6 | defusedxml | 0.7.1 | dill | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
titik masuk | 0,3 | ephem | 4.1.3 | Tinjauan Aspek | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | masa depan | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.2 | hari libur | 0.12 |
Horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | imbalanced-learn (pembelajaran tidak seimbang) | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.7.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
kalender lunar Korea | 0.2.1 | kode bahasa | 3.3.0 | libclang | 12.0.0 |
lightgbm | 3.3.1 | llvmlite | 0.38.0 | Kalender Lunar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | menyelaraskan dengan salah | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.23.0 | metode ganda | 1.6 |
murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | buku catatan | 6.3.0 | numba | 0.55.0 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
kemasan | 21.3 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
pathy | 0.6.0 | kambing hitam | 0.5.1 | petastorm | 0.11.3 |
[No changes needed based on provided text, maintaining original translation notation unless additional context is supplied.] | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
Bantal | 8.2.0 | pip | 21.0.1 | plotly | 5.5.0 |
pmdarima | 1.8.4 | preshed | 3.0.5 | prompt-toolkit | 3.0.17 |
nabi | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modul | 0.2.8 | pybind11 | 2.9.0 |
pycparser | 2,20 | pydantic | 1.8.2 | Pygments | 2.8.1 |
PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.4.0 |
pyodbc | 4.0.30 | pyparsing | 2.4.7 | pyrsistent | 0.17.3 |
pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 |
editor Python | 1.0.4 | python-engineio | 4.3.0 | python-socketio | 5.4.1 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | permintaan | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | rsa | 4.7.2 |
s3transfer | 0.3.7 | sacremoses | 0.0.46 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | shap | 0.40.0 |
simplejson | 3.17.2 | six | 1.15.0 | pemotong | 0.0.7 |
smart-open | 5.2.0 | smmap | 3.0.5 | lapang | 3.2.1 |
spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.1 | srsly | 2.4.1 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | tabelkan | 0.8.7 | terbelit-dalam-unicode | 0.1.0 |
keteguhan | 6.2.0 | tensorboard (alat visualisasi tensor) | 2.7.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 | tensorflow | 2.7.0 |
tensorflow-estimator | 2.7.0 | tensorflow-io-gcs-filesystem | 0.23.1 | termcolor | 1.1.0 |
selesai | 0.9.4 | testpath | 0.4.4 | thinc | 8.0.12 |
threadpoolctl | 2.1.0 | pemecah-teks | 0.10.3 | obor | 1.10.1+cu111 |
torchvision | 0.11.2+cu111 | tornado | 6.1 | tqdm | 4.59.0 |
traitlets=5.0.5 | 5.0.5 | Transformer | 4.15.0 | typer | 0.3.2 |
ekstensi-pengetikan | 3.7.4.3 | ujson | 4.0.2 | pemutakhiran-otomatis | 0.1 |
urllib3 | 1.25.11 | virtualenv | 20.4.1 | visions | 0.7.4 |
wasabi | 0.8.2 | wcwidth | 0.2.5 | webencodings=0.5.1 | 0.5.1 |
websocket-client | 0.57.0 | Werkzeug | 1.0.1 | roda | 0.36.2 |
widgetsnbextension | 3.5.1 | dibungkus | 1.12.1 | xgboost | 1.5.1 |
zipp | 3.4.1 |
Paket Spark yang berisi modul Python
Paket Spark | Modul Python | Versi |
---|---|---|
graphframes | graphframes | 0.8.2-db1-spark3.2 |
Pustaka R
Pustaka R identik dengan Pustaka R di Databricks Runtime 10.3.
Pustaka Java dan Scala (Kluster Scala 2.12)
Selain pustaka Java dan Scala dalam Databricks Runtime 10.3, Databricks Runtime 10.3 ML berisi JAR berikut:
Kluster CPU
ID Grup | ID Artefak | Versi |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.23.0 |
org.mlflow | mlflow-spark | 1.23.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Kluster GPU
Grup ID | ID Artefak | Versi |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.23.0 |
org.mlflow | mlflow-spark | 1.23.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |