Bagikan melalui


Databricks Runtime 10.2 untuk ML (EoS)

Catatan

Dukungan untuk versi Databricks Runtime ini telah berakhir. Untuk tanggal akhir dukungan, lihat Riwayat akhir dukungan. Untuk semua versi Runtime Databricks yang didukung, lihat Versi dan kompatibilitas catatan rilis Databricks Runtime.

Databricks merilis versi ini pada Desember 2021.

Databricks Runtime 10.2 untuk Pembelajaran Mesin menyediakan lingkungan siap pakai untuk pembelajaran mesin dan ilmu data berdasarkan Databricks Runtime 10.2 (EoS). Runtime Bahasa Umum Databricks ML berisi banyak pustaka pembelajaran mesin populer, termasuk TensorFlow, PyTorch, dan XGBoost. Databricks Runtime ML mencakup AutoML, alat untuk secara otomatis melatih alur pembelajaran mesin. Databricks Runtime ML juga mendukung pelatihan pembelajaran mendalam menggunakan Horovod.

Untuk informasi selengkapnya, termasuk instruksi untuk membuat kluster ML Runtime Databricks, lihat AI dan pembelajaran mesin di Databricks.

Fitur dan peningkatan baru

Runtime Bahasa Umum Databricks 10.2 ML dibangun di atas Runtime Bahasa Umum Databricks 10.2. Untuk informasi tentang apa yang baru di Databricks Runtime 10.2, termasuk Apache Spark MLlib dan SparkR, lihat catatan rilis Databricks Runtime 10.2 (EoS).

Pencatatan Otomatis Databricks (Pratinjau Umum)

Pencatatan Otomatis Databricks sekarang berada di Pratinjau Umum di semua wilayah. Pencatatan Otomatis Databricks adalah solusi tanpa kode yang menyediakan pelacakan percobaan otomatis untuk sesi pelatihan pembelajaran mesin di Azure Databricks. Dengan Autologging dari Databricks, parameter model, metrik, file, dan informasi garis keturunan secara otomatis dicatat ketika Anda melatih model menggunakan berbagai pustaka pembelajaran mesin yang populer. Sesi pelatihan direkam sebagai MLflow Tracking Runs. File model juga dilacak sehingga Anda dapat dengan mudah mencatatnya ke MLflow Model Registry dan menyebarkannya untuk penilaian real-time dengan MLflow Model Serving.

Untuk informasi selengkapnya tentang Pencatatan Otomatis Databricks, lihat Pencatatan Otomatis Databricks.

Penyempurnaan automl

Penyempurnaan berikut telah dilakukan pada AutoML.

  • AutoML mengabaikan kolom yang hanya memiliki satu nilai.
  • Untuk masalah klasifikasi dan regresi, kolom waktu yang digunakan untuk membagi himpunan data menjadi pelatihan, validasi, dan set pengujian secara kronologis sekarang dapat menjadi jenis string. Sebelumnya hanya stempel waktu dan bilangan bulat yang didukung. Lihat Memisahkan data menjadi kumpulan pelatihan, validasi, dan pengujian untuk detailnya.

Peningkatan ke Penyimpanan Fitur Databricks

Peningkatan berikut telah dilakukan ke Penyimpanan Fitur Databricks.

Antarmuka FeatureStoreClient yang disederhanakan

Antarmuka FeatureStoreClient telah disederhanakan.

  • FeatureStoreClient.create_feature_table() sudah tidak digunakan lagi. Sebagai gantinya, gunakan FeatureStoreClient.create_table().
  • FeatureStoreClient.get_feature_table() sudah tidak digunakan lagi. Sebagai gantinya, gunakan FeatureStoreClient.get_table().
  • Semua argumen untuk FeatureStoreClient.publish_table() selain name dan online_store harus diteruskan sebagai argumen kata kunci.

Terbitkan hanya kolom terpilih ke toko online

Toko Fitur Databricks sekarang mendukung penerbitan kolom terpilih ke toko online. Untuk informasi selengkapnya, lihat Memublikasikan fitur yang dipilih ke penyimpanan online.

Perubahan besar pada lingkungan Phyton ML Databricks Runtime

Integrasi Pelacakan MLflow Otomatis untuk Apache Spark MLlib, yang tidak digunakan lagi di Runtime Bahasa Umum Databricks 10.1 ML, sekarang dinonaktifkan secara default di Runtime Bahasa Umum Databricks 10.2 ML. Ini telah digantikan oleh integrasi Pencatatan Otomatis PySpark ML MLflow, yang diaktifkan secara default dengan Pencatatan Otomatis Databricks. Autologging mencatat informasi tambahan yang tidak dicakup oleh pelacakan otomatis MLflow untuk MLlib, termasuk parameter, metrik, dan artefak yang terkait dengan model terbaik.

Paket Phyton ditingkatkan

  • databricks-cli 0.14.3 => 0.16.2
  • keras 2.6.0 => 2.7.0
  • lightgbm 3.3.0 => 3.3.1
  • mlflow 1.21.0 => 1.22.0
  • plotly 5.3.0 -> 5.3.1
  • shap 0.39.0 => 0.40.0
  • spacy 3.1.3 => 3.2.0
  • tensorboard 2.6.0 => 2.7.0
  • tensorflow 2.6.0 => 2.7.0
  • obor 1.9.1 => 1.10.0
  • torchvision 0.10.1 => 0.11.1
  • transformator 4.11.3 => 4.12.3
  • xgboost 1.4.2 => 1.5.0

Lingkungan sistem

Lingkungan sistem di Databricks Runtime10.2 ML berbeda dari Databricks Runtime 10.2 sebagai berikut:

Pustaka

Bagian berikut mencantumkan pustaka yang disertakan dalam Databricks Runtime 10.2 ML yang berbeda dari yang disertakan dalam Databricks Runtime 10.2.

Di bagian ini:

Pustaka tingkat atas

Runtime Bahasa Umum Databricks 10.2 ML mencakup pustaka tingkat atas berikut:

Pustaka Python

Runtime Bahasa Umum Databricks 10.2 ML menggunakan Virtualenv untuk manajemen paket Python dan mencakup banyak paket ML populer.

Selain paket yang ditentukan di bagian berikut, Runtime Bahasa Umum Databricks 10.2 ML juga mencakup paket berikut:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.6
  • automl 1.5.0

Pustaka Phyton di kluster CPU

Pustaka Versi Pustaka Versi Pustaka Versi
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bidict 0.21.4 pemutih 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 catalogue 2.0.6 certifi 5.12.2020
cffi 1.14.5 chardet 4.0.0 klik 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 cryptography 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.4
databricks-cli 0.16.2 dbus-python 1.2.16 decorator 5.0.6
defusedxml 0.7.1 dill 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0.23ubuntu1 titik masuk 0,3
ephem 4.1.1 facets-overview 1.0.0 fasttext 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 2.0
fsspec 0.9.0 future 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn==19.9.0 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 hari libur 0.11.3.1 Horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.1.2 idna 2.10
ImageHash 4.2.1 imbalanced-learn 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.7.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.2 korean-lunar-calendar 0.2.1
langcodes 3.3.0 libclang 12.0.0 lightgbm 3.3.1
llvmlite 0.37.0 LunarCalendar 0.0.9 Mako 1.1.3
Markdown 3.3.3 MarkupSafe 2.0.1 matplotlib 3.4.2
missingno 0.5.0 mistune 0.8.4 mleap 0.18.1
mlflow-skinny 1.22.0 multimethod 1.6 murmurhash 1.0.5
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
buku catatan 6.3.0 numba 0.54.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 packaging 21.3
pandas 1.2.4 pandas-profiling 3.1.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 pathy 0.6.0
patsy 0.5.1 petastorm 0.11.3 pexpect=4.8.0 4.8.0
phik 0.12.0 pickleshare 0.7.5 Pillow 8.2.0
pip 21.0.1 plotly 5.3.1 preshed 3.0.5
prometheus-client 0.10.1 prompt-toolkit 3.0.17 prophet 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modul 0.2.8 pybind11 2.8.1 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.4.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor teks 1.0.4
python-engineio 4.3.0 python-socketio 5.4.1 pytz 2020.5
PyWavelets 1.1.1 PyYAML 5.4.1 pyzmq 20.0.0
regex 2021.4.4 permintaan 2.25.1 requests-oauthlib 1.3.0
requests-unixsocket 0.2.0 rsa 4.7.2 s3transfer 0.3.7
sacremoses 0.0.46 scikit-learn 0.24.1 scipy 1.6.2
seaborn 0.11.1 Send2Trash 1.5.0 setuptools 52.0.0
setuptools-git 1.2 shap 0.40.0 simplejson 3.17.2
six 1.15.0 slicer 0.0.7 smart-open 5.2.0
smmap 3.0.5 spacy 3.2.0 spacy-legacy 3.0.8
spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1
srsly 2.4.1 ssh-import-id 5.10 statsmodels 0.12.2
tabulate 0.8.7 tangled-up-in-unicode 0.1.0 tenacity 6.2.0
tensorboard 2.7.0 tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.7.0 tensorflow-estimator 2.7.0
tensorflow-io-gcs-filesystem 0.22.0 termcolor 1.1.0 terminado 0.9.4
testpath 0.4.4 thinc 8.0.12 threadpoolctl 2.1.0
tokenizers 0.10.3 obor 1.10.0+cpu torchvision 0.11.1+cpu
tornado 6.1 tqdm 4.59.0 traitlets=5.0.5 5.0.5
Transformer 4.12.3 typer 0.3.2 typing-extensions 3.7.4.3
ujson 4.0.2 unattended-upgrades 0.1 urllib3 1.25.11
virtualenv 20.4.1 visions 0.7.4 wasabi 0.8.2
wcwidth 0.2.5 webencodings=0.5.1 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.5.0 zipp 3.4.1

Pustaka Phyton di kluster GPU

Pustaka Versi Pustaka Versi Pustaka Versi
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bidict 0.21.4 pemutih 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 catalogue 2.0.6 certifi 5.12.2020
cffi 1.14.5 chardet 4.0.0 klik 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 cryptography 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.4
databricks-cli 0.16.2 dbus-python 1.2.16 decorator 5.0.6
defusedxml 0.7.1 dill 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0.23ubuntu1 titik masuk 0,3
ephem 4.1.1 facets-overview 1.0.0 fasttext 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 2.0
fsspec 0.9.0 future 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn==19.9.0 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 hari libur 0.11.3.1 Horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.1.2 idna 2.10
ImageHash 4.2.1 imbalanced-learn 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.7.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.2 korean-lunar-calendar 0.2.1
langcodes 3.3.0 libclang 12.0.0 lightgbm 3.3.1
llvmlite 0.37.0 LunarCalendar 0.0.9 Mako 1.1.3
Markdown 3.3.3 MarkupSafe 2.0.1 matplotlib 3.4.2
missingno 0.5.0 mistune 0.8.4 mleap 0.18.1
mlflow-skinny 1.22.0 multimethod 1.6 murmurhash 1.0.5
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
buku catatan 6.3.0 numba 0.54.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 packaging 21.3
pandas 1.2.4 pandas-profiling 3.1.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 pathy 0.6.0
patsy 0.5.1 petastorm 0.11.3 pexpect=4.8.0 4.8.0
phik 0.12.0 pickleshare 0.7.5 Pillow 8.2.0
pip 21.0.1 plotly 5.3.1 preshed 3.0.5
prompt-toolkit 3.0.17 prophet 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modul 0.2.8
pybind11 2.8.1 pycparser 2,20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil 2.8.1 python-editor teks 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
permintaan 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
shap 0.40.0 simplejson 3.17.2 six 1.15.0
slicer 0.0.7 smart-open 5.2.0 smmap 3.0.5
spacy 3.2.0 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulate 0.8.7
tangled-up-in-unicode 0.1.0 tenacity 6.2.0 tensorboard 2.7.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.0
tensorflow 2.7.0 tensorflow-estimator 2.7.0 tensorflow-io-gcs-filesystem 0.22.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
thinc 8.0.12 threadpoolctl 2.1.0 tokenizers 0.10.3
obor 1.10.0+cu111 torchvision 0.11.1+cu111 tornado 6.1
tqdm 4.59.0 traitlets=5.0.5 5.0.5 Transformer 4.12.3
typer 0.3.2 typing-extensions 3.7.4.3 ujson 4.0.2
unattended-upgrades 0.1 urllib3 1.25.11 virtualenv 20.4.1
visions 0.7.4 wasabi 0.8.2 wcwidth 0.2.5
webencodings=0.5.1 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
wheel 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.5.0 zipp 3.4.1

Paket Spark yang berisi modul Python

Paket Spark Modul Python Versi
graphframes graphframes 0.8.2-db1-spark3.2

Pustaka R

Pustaka R identik dengan Pustaka R di Runtime Bahasa Umum Databricks 10.2.

Pustaka Java dan Scala (Kluster Scala 2.12)

Selain pustaka Java dan Scala di Runtime Bahasa Umum Databricks 10.2, Runtime Bahasa Umum Databricks 10.2 ML berisi JAR berikut:

Kluster CPU

ID Grup ID Artefak Versi
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.22.0
org.mlflow mlflow-spark 1.22.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Kluster GPU

ID Grup ID Artefak Versi
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.22.0
org.mlflow mlflow-spark 1.22.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0