Bagikan melalui


Databricks Runtime 10.1 untuk ML (EoS)

Catatan

Dukungan untuk versi Databricks Runtime ini telah berakhir. Untuk tanggal akhir dukungan, lihat Riwayat akhir dukungan. Untuk semua versi Runtime Databricks yang didukung, lihat Versi dan kompatibilitas catatan rilis Databricks Runtime.

Databricks Runtime 10.1 untuk Pembelajaran Mesin menyediakan lingkungan siap pakai untuk pembelajaran mesin dan ilmu data berdasarkan Databricks Runtime 10.1 (EoS). Runtime Bahasa Umum Databricks ML berisi banyak pustaka pembelajaran mesin populer, termasuk TensorFlow, PyTorch, dan XGBoost. Ini juga mendukung pelatihan pembelajaran mendalam terdistribusi menggunakan Horovod.

Untuk informasi selengkapnya, termasuk instruksi untuk membuat kluster ML Runtime Databricks, lihat AI dan pembelajaran mesin di Databricks.

Fitur dan peningkatan baru

Databricks Runtime 10.1 ML dibangun di atas Databricks Runtime 10.1. Untuk informasi tentang apa yang baru di Databricks Runtime 10.1, termasuk Apache Spark MLlib dan SparkR, lihat catatan rilis Databricks Runtime 10.1 (EoS).

Penyempurnaan automl

Dalam Databricks Runtime 10.1, AutoML mencakup peningkatan deteksi jenis semantik, peringatan baru untuk potensi masalah data selama pelatihan, kemampuan baru untuk mencegah model yang terlalu pas, dan kemampuan untuk membagi himpunan data input menjadi kumpulan pelatihan, validasi, dan pengujian secara kronologis.

Deteksi jenis semantik tambahan

AutoML sekarang mendukung deteksi jenis semantik tambahan:

  • Kolom numerik yang berisi label kategoris diperlakukan sebagai jenis kategoris.
  • Kolom string yang berisi teks bahasa Inggris diperlakukan sebagai fitur teks.

Anda sekarang juga dapat menambahkan anotasi untuk menentukan jenis data kolom. Untuk detailnya, lihat Deteksi jenis semantik.

Peringatan selama pelatihan untuk potensi masalah data

AutoML sekarang mendeteksi dan menghasilkan peringatan untuk potensi masalah dengan himpunan data. Contoh peringatan mencakup jenis kolom yang tidak didukung dan kolom kardinalitas tinggi. Peringatan ini muncul di halaman eksperimen di bawah tab Peringatan baru. Informasi tambahan tentang peringatan disertakan dalam buku catatan eksplorasi data. Untuk informasi selengkapnya, lihat Jalankan eksperimen dan pantau hasilnya.

Mengurangi model overfitting

Dua kemampuan baru mengurangi kemungkinan overfitting model saat menggunakan AutoML:

  • AutoML sekarang melaporkan metrik pengujian selain metrik validasi dan pelatihan.
  • AutoML sekarang menggunakan pemberhentian awal. Hal ini menghentikan model pelatihan dan penyetelan jika metrik validasi tidak lagi membaik.

Pisahkan himpunan data menjadi kumpulan train/validation/test secara kronologis

Untuk masalah klasifikasi dan regresi, Anda dapat membagi himpunan data menjadi train, validasi, dan rangkaian pengujian secara kronologis. Lihat Memisahkan data menjadi kumpulan pelatihan, validasi, dan pengujian untuk detailnya.

Peningkatan ke Penyimpanan Fitur Databricks

Databricks Feature Store sekarang mendukung jenis data tambahan untuk tabel fitur: BinaryType, DecimalType,dan MapType.

MLflow

Peningkatan berikut tersedia mulai dari Mlflow versi 1.21.0, yang termasuk dalam Databricks Runtime 10.1 ML.

  • [Model] fastai Tingkatkan rasa model untuk mendukung fastai v2 (2.4.1 ke atas).
  • [Model] perkenalkan rasa model mlflow.prophet untuk model deret waktu Nabi.
  • [Mencetak gol] Perbaiki kesalahan penegakan skema yang salah mentransmisikan string seperti tanggal ke objek tanggalwaktu.

Hyperopt

SparkTrials sekarang mendukung early_stopping_fn parameter untuk fmin. Anda dapat menggunakan fungsi henti awal untuk menentukan kondisi ketika Hyperopt harus menghentikan penyetelan hiperparameter sebelum jumlah maksimum evaluasi tercapai. Misalnya, Anda dapat menggunakan parameter ini untuk mengakhiri penyetelan jika fungsi objektif tidak lagi menurun. Untuk detailnya, lihat fmin().

Perubahan besar pada lingkungan Phyton ML Databricks Runtime

Paket Phyton ditingkatkan

  • automl 1.3.1 => 1.4.1
  • feature_store 0.3.4 => 0.3.5
  • hari libur 0.11.2 => 0.11.3.1
  • horovod 0.22.1 => 0.23.0
  • hyperopt 0.2.5.db2 => 0.2.5.db4
  • simbalanced-learn 0.8.0 => 0.8.1
  • lightgbm 3.1.1 => 3.3.0
  • mlflow 1.20.2 => 1.21.0
  • petastorm 0.11.2 => 0.11.3
  • plotly 5.1.0 => 5.3.0
  • pytorch 1.9.0 => 1.9.1
  • spacy 3.1.2 => 3.1.3
  • sparkdl 2.2.0_db3 => 2.2.0_db4
  • torchvision 0.10.0 => 0.10.1
  • transformers 4.9.2 => 4.11.3

Paket Python yang ditambahkan

  • fasttext => 0.9.2
  • tensorboard-plugin-profile => 2.5.0

Penghentian

Pelacakan MLflow otomatis MLlib tidak digunakan lagi pada kluster yang menjalankan Databricks Runtime 10.1 ML ke atas. Sebagai gantinya, gunakan MLflow PySpark ML autologging dengan memanggil mlflow.pyspark.ml.autolog(). Pencatatan otomatis diaktifkan secara default dengan Pencatatan Otomatis Databricks.

Lingkungan sistem

Lingkungan sistem di Databricks Runtime10.1 ML berbeda dari Databricks Runtime 10.1 sebagai berikut:

Pustaka

Bagian berikut mencantumkan pustaka yang disertakan dalam Databricks Runtime 10.1 ML yang berbeda dari yang disertakan dalam Databricks Runtime 10.1.

Di bagian ini:

Pustaka tingkat atas

Databricks Runtime 10.1 ML mencakup pustaka tingkat atas berikut:

Pustaka Python

Databricks Runtime 10.1 ML menggunakan Virtualenv untuk manajemen paket Python dan mencakup banyak paket ML populer.

Selain paket yang ditentukan di bagian berikut, databricks Runtime 10.1 ML juga mencakup paket-paket berikut:

  • hyperopt 0.2.5.db4
  • sparkdl 2.2.0-db4
  • feature_store 0.3.5
  • automl 1.4.0

Catatan

Databricks Runtime 10.1 ML menyertakan scikit-learn versi 0.24, bukan versi 1.0 karena masalah ketidakcocokan. Paket scikit-learn berinteraksi dengan banyak paket lain di Databricks Runtime 10.1 ML.

Anda dapat meningkatkan ke scikit-learn versi 1.0; Namun, Databricks tidak mendukung versi ini.

Untuk meningkatkan, gunakan pustaka cakupan buku catatan. Dari buku catatan, jalankan %pip install --upgrade "scikit-learn>=1.0,<1.1".

Alternatifnya adalah dengan menggunakan skrip init cluster ini:

#!/bin/bash

set -e

pip install --upgrade "scikit-learn>=1.0,<1.1"

Pustaka Phyton di kluster CPU

Pustaka Versi Pustaka Versi Pustaka Versi
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 pemutih 3.3.0 blis 0.7.4
boto3 1.16.7 botocore 1.19.7 cachetools 4.2.4
catalogue 2.0.6 certifi 5.12.2020 cffi 1.14.5
chardet 4.0.0 Clang 5.0 klik 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 cryptography 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.3
databricks-cli 0.14.3 dbus-python 1.2.16 decorator 5.0.6
defusedxml 0.7.1 dill 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0.23ubuntu1 titik masuk 0,3
ephem 4.1 facets-overview 1.0.0 fasttext 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 future 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn==19.9.0 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 hari libur 0.11.3.1 Horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 idna 2.10
ImageHash 4.2.1 imbalanced-learn 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.2 korean-lunar-calendar 0.2.1
lightgbm 3.3.0 llvmlite 0.37.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.21.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 buku catatan 6.3.0 numba 0.54.1
numpy 1.19.2 oauthlib 3.1.0 opt-einsum 3.3.0
packaging 20.9 pandas 1.2.4 pandas-profiling 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 patsy 0.5.1 petastorm 0.11.3
pexpect=4.8.0 4.8.0 phik 0.12.0 pickleshare 0.7.5
Pillow 8.2.0 pip 21.0.1 plotly 5.3.0
preshed 3.0.5 prometheus-client 0.10.1 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modul 0.2.8 pybind11 2.8.0
pycparser 2,20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1
python-editor teks 1.0.4 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
permintaan 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
shap 0.39.0 simplejson 3.17.2 six 1.15.0
slicer 0.0.7 smart-open 5.2.0 smmap 3.0.5
spacy +3.1.3 spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 tabulate 0.8.7 tangled-up-in-unicode 0.1.0
tenacity 6.2.0 tensorboard 2.6.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0
tensorflow-estimator 2.6.0 termcolor 1.1.0 terminado 0.9.4
testpath 0.4.4 thinc 8.0.9 threadpoolctl 2.1.0
tokenizers 0.10.3 obor 1.9.1+cpu torchvision 0.10.1+cpu
tornado 6.1 tqdm 4.59.0 traitlets=5.0.5 5.0.5
Transformer 4.11.3 typer 0.3.2 typing-extensions 3.7.4.3
ujson 4.0.2 unattended-upgrades 0.1 urllib3 1.25.11
virtualenv 20.4.1 visions 0.7.4 wasabi 0.8.2
wcwidth 0.2.5 webencodings=0.5.1 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2 zipp 3.4.1

Pustaka Phyton di kluster GPU

Pustaka Versi Pustaka Versi Pustaka Versi
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 pemutih 3.3.0 blis 0.7.4
boto3 1.16.7 botocore 1.19.7 cachetools 4.2.4
catalogue 2.0.6 certifi 5.12.2020 cffi 1.14.5
chardet 4.0.0 Clang 5.0 klik 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 cryptography 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.3
databricks-cli 0.14.3 dbus-python 1.2.16 decorator 5.0.6
defusedxml 0.7.1 dill 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0.23ubuntu1 titik masuk 0,3
ephem 4.1 facets-overview 1.0.0 fasttext 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 future 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn==19.9.0 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 hari libur 0.11.3.1 Horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 idna 2.10
ImageHash 4.2.1 imbalanced-learn 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.2 korean-lunar-calendar 0.2.1
lightgbm 3.3.0 llvmlite 0.37.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.21.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 buku catatan 6.3.0 numba 0.54.1
numpy 1.19.2 oauthlib 3.1.0 opt-einsum 3.3.0
packaging 20.9 pandas 1.2.4 pandas-profiling 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 patsy 0.5.1 petastorm 0.11.3
pexpect=4.8.0 4.8.0 phik 0.12.0 pickleshare 0.7.5
Pillow 8.2.0 pip 21.0.1 plotly 5.3.0
preshed 3.0.5 prompt-toolkit 3.0.17 prophet 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modul 0.2.8 pybind11 2.8.1 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.4.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor teks 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 permintaan 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.39.0
simplejson 3.17.2 six 1.15.0 slicer 0.0.7
smart-open 5.2.0 smmap 3.0.5 spacy +3.1.3
spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1
srsly 2.4.1 ssh-import-id 5.10 statsmodels 0.12.2
tabulate 0.8.7 tangled-up-in-unicode 0.1.0 tenacity 6.2.0
tensorboard 2.6.0 tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0
tensorboard-plugin-wit 1.8.0 tensorflow 2.6.0 tensorflow-estimator 2.6.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
thinc 8.0.9 threadpoolctl 2.1.0 tokenizers 0.10.3
obor 1.9.1+cu111 torchvision 0.10.1+cu111 tornado 6.1
tqdm 4.59.0 traitlets=5.0.5 5.0.5 Transformer 4.11.3
typer 0.3.2 typing-extensions 3.7.4.3 ujson 4.0.2
unattended-upgrades 0.1 urllib3 1.25.11 virtualenv 20.4.1
visions 0.7.4 wasabi 0.8.2 wcwidth 0.2.5
webencodings=0.5.1 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
wheel 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.4.2 zipp 3.4.1

Paket Spark yang berisi modul Python

Paket Spark Modul Python Versi
graphframes graphframes 0.8.2-db1-spark3.2

Pustaka R

Pustaka R identik dengan Pustaka R di Databricks Runtime 10.1.

Pustaka Java dan Scala (Kluster Scala 2.12)

Selain pustaka Java dan Scala di Databricks Runtime 10.1, Databricks Runtime 10.1 ML berisi JAR berikut:

Kluster CPU

ID Grup ID Artefak Versi
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db6-spark3.2
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Kluster GPU

ID Grup ID Artefak Versi
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1-spark3.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.21.0
org.mlflow mlflow-spark 1.21.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0