Bagikan melalui


Databricks Runtime 9.1 LTS untuk Pembelajaran Mesin

Databricks merilis gambar ini dan mendeklarasikannya Long Term Support (LTS) pada September 2021.

Runtime Bahasa Umum Databricks 9.1 LTS untuk Azure Machine Learning menyediakan lingkungan siap pakai untuk pembelajaran mesin dan ilmu data berdasarkan Runtime Bahasa Umum Databricks 9.1 LTS. Runtime Bahasa Umum Databricks ML berisi banyak pustaka pembelajaran mesin populer, termasuk TensorFlow, PyTorch, dan XGBoost. Databricks Runtime ML mencakup AutoML, alat untuk secara otomatis melatih alur pembelajaran mesin. Databricks Runtime ML juga mendukung pelatihan pembelajaran mendalam menggunakan Horovod.

Catatan

LTS berarti versi ini berada di bawah dukungan jangka panjang. Lihat Siklus hidup versi LTS Runtime Databricks.

Untuk informasi selengkapnya, termasuk instruksi untuk membuat kluster ML Runtime Databricks, lihat AI dan pembelajaran mesin di Databricks.

Tip

Untuk melihat catatan rilis untuk versi Databricks Runtime yang telah mencapai akhir dukungan (EoS), lihat Catatan rilis Databricks Runtime akhir dukungan. Versi EoS Databricks Runtime telah dihentikan dan mungkin tidak diperbarui.

Fitur dan peningkatan baru

AutoML

Peningkatan berikut tersedia di Runtime Bahasa Umum Databricks 9.1 LTS ML ke atas.

AutoML mendukung himpunan data yang lebih besar dengan pengambilan sampel

AutoML sekarang mengambil sampel himpunan data yang mungkin melebihi batasan memori, memungkinkannya berjalan pada himpunan data yang lebih besar dengan risiko kesalahan di luar memori yang lebih kecil. Untuk detailnya, lihat Mengambil sampel himpunan data besar.

Kolom praproses AutoML berdasarkan tipe semantik

AutoML mendeteksi kolom tertentu yang memiliki tipe semantik yang berbeda dari tipe data Spark atau panda mereka. AutoML kemudian mengonversi dan menerapkan langkah-langkah praproses data berdasarkan jenis semantik yang terdeteksi. Secara khusus, AutoML melakukan konversi berikut:

  • Kolom string dan bilangan bulat yang mewakili data tanggal atau stempel waktu dikonversi menjadi jenis stempel waktu.
  • Kolom string yang mewakili data numerik dikonversi menjadi jenis numerik.

Perbaikan pada buku catatan yang dibuat AutoML

Langkah-langkah praproses untuk kolom tanggal dan stempel waktu sekarang dimasukkan dalam paket databricks-automl-runtime, menyederhanakan buku catatan yang dihasilkan oleh pelatihan AutoML. databricks-automl-runtime termasuk dalam Databricks Runtime 9.1 LTS ML ke atas, dan juga tersedia di PyPI.

Penyimpanan fitur

Peningkatan berikut tersedia di Runtime Bahasa Umum Databricks 9.1 LTS ML ke atas.

  • Saat Membuat TrainingSet, Anda sekarang dapat mengatur label=None untuk mendukung aplikasi pembelajaran tanpa pengawasan.
  • Anda sekarang dapat menentukan lebih dari satu fitur dalam satu FeatureLookup.
  • Anda sekarang dapat menentukan jalur kustom untuk tabel fitur. Gunakan parameter path dalam create_feature_table(). Defaultnya adalah lokasi database.
  • Jenis data PySpark baru yang didukung: ArrayType dan ShortType.

MLflow

Peningkatan berikut tersedia mulai di Mlflow versi 1.20.2, yang termasuk dalam Runtime Bahasa Umum Databricks 9.1 LTS ML.

  • Autologging untuk scikit-learn sekarang mencatat metrik pasca-pelatihan setiap kali API evaluasi scikit-learn, seperti sklearn.metrics.mean_squared_error, dipanggil.
  • Pengelogan otomatis untuk PySpark ML sekarang mencatat metrik pasca-pelatihan setiap kali API evaluasi model, seperti Evaluator.evaluate(), disebut.
  • mlflow.*.log_model dan mlflow.*.save_model sekarang memiliki argumen pip_requirements dan extra_pip_requirements sehingga Anda dapat langsung menentukan persyaratan pip dari model untuk log atau menyimpan.
  • mlflow.*.log_model dan mlflow.*.save_model sekarang secara otomatis menyimpulkan persyaratan pip dari model untuk log atau menyimpan berdasarkan lingkungan perangkat lunak saat ini.
  • Entri stdMetrics sekarang dicatat sebagai metrik pelatihan selama pencatatan otomatis PySpark CrossValidator.
  • Pencatatan otomatis PyTorch Lightning sekarang mendukung eksekusi terdistribusi.

Pencatatan Otomatis Databricks (Pratinjau Umum)

Pratinjau Umum Pencatatan Otomatis Databricks telah diperluas ke wilayah baru. Pencatatan Otomatis Databricks adalah solusi tanpa kode yang menyediakan pelacakan percobaan otomatis untuk sesi pelatihan pembelajaran mesin di Azure Databricks. Dengan Pencatatan Otomatis Databricks, parameter model, metrik, file, dan informasi garis keturunan secara otomatis ditangkap saat Anda melatih model dari berbagai pustaka pembelajaran mesin populer. Sesi pelatihan direkam sebagai MLflow Tracking Runs. File model juga dilacak sehingga Anda dapat dengan mudah mencatatnya ke MLflow Model Registry dan menyebarkannya untuk penilaian real-time dengan MLflow Model Serving.

Untuk informasi selengkapnya tentang Pencatatan Otomatis Databricks, lihat Pencatatan Otomatis Databricks.

Perubahan besar pada lingkungan Phyton ML Databricks Runtime

Paket Phyton ditingkatkan

  • automl 1.1.1 => 1.2.1
  • feature_store 0.3.3 => 0.3.4.1
  • hari libur 0.10.5.2 => 0.11.2
  • keras 2.5.0 => 2.6.0
  • mlflow 1.19.0 => 1.20.2
  • petastorm 0.11.1 -> 0.11.2
  • plotly 4.14.3 -> 5.1.0
  • spark-tensorflow-distributor 0.1.0 => 1.0.0
  • sparkdl 2.2.0_db1 => 2.2.0_db3
  • tensorboard 2.5.0 => 2.6.0
  • tensorflow 2.5.0 => 2.6.0

Paket Python yang ditambahkan

  • databricks-automl-runtime 0.1.0

Lingkungan sistem

Lingkungan sistem di Runtime Bahasa Umum Databricks 9.1 ML berbeda dari Runtime Bahasa Umum Databricks 9.1 sebagai berikut:

Pustaka

Bagian berikut mencantumkan pustaka yang disertakan dalam Runtime Bahasa Umum Databricks 9.1 ML yang berbeda dari yang disertakan dalam Databricks Runtime 9.1.

Di bagian ini:

Pustaka tingkat atas

Runtime Bahasa Umum Databricks 9.1 ML mencakup pustaka tingkat atas berikut:

Pustaka Python

Runtime Bahasa Umum Databricks 9.1 ML menggunakan Conda untuk manajemen paket Phyton dan mencakup banyak paket ML populer.

Selain paket yang ditentukan di lingkungan Conda di bagian berikut, Runtime Bahasa Umum Databricks 9.1 ML juga memasang paket berikut:

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db3
  • feature_store 0.3.4.1
  • automl 1.2.1

Pustaka Phyton di kluster CPU

Pustaka Versi Pustaka Versi Pustaka Versi
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 pemutih 3.3.0 boto3 1.16.7
botocore 1.19.7 Penyempitan 1.3.2 cachetools 4.2.2
certifi 5.12.2020 cffi 1.14.5 chardet 4.0.0
Clang 5.0 klik 7.1.2 cloudpickle 1.6.0
cmdstanpy 0.9.68 configparser 5.0.1 convertdate 2.3.2
cryptography 3.4.7 cycler 0.10.0 Cython 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
decorator 5.0.6 defusedxml 0.7.1 dill 0.3.2
diskcache 5.2.1 distlib 0.3.2 distro-info 0.23ubuntu1
titik masuk 0,3 ephem 4.0.0.2 facets-overview 1.0.0
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 future 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn==19.9.0 20.0.4 h5py 3.1.0 hijri-converter 2.2.1
hari libur 0.11.2 Horovod 0.22.1 htmlmin 0.1.12
idna 2.10 ImageHash 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.1 korean-lunar-calendar 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
buku catatan 6.3.0 numba 0.54.0 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 packaging 20.9
pandas 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 patsy 0.5.1
petastorm 0.11.2 pexpect=4.8.0 4.8.0 phik 0.12.0
pickleshare 0.7.5 Pillow 8.2.0 pip 21.0.1
plotly 5.1.0 prometheus-client 0.10.1 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modul 0.2.8 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor teks 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 permintaan 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.3.7 scikit-learn 0.24.1 scipy 1.6.2
seaborn 0.11.1 Send2Trash 1.5.0 setuptools 52.0.0
setuptools-git 1.2 shap 0.39.0 simplejson 3.17.2
six 1.15.0 slicer 0.0.7 smmap 3.0.5
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 ssh-import-id 5.10
statsmodels 0.12.2 tabulate 0.8.7 tangled-up-in-unicode 0.1.0
tenacity 6.2.0 tensorboard 2.6.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0 tensorflow-estimator 2.6.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 obor 1.9.0+cpu torchvision 0.10.0+cpu
tornado 6.1 tqdm 4.59.0 traitlets=5.0.5 5.0.5
typing-extensions 3.7.4.3 ujson 4.0.2 unattended-upgrades 0.1
urllib3 1.25.11 virtualenv 20.4.1 visions 0.7.1
wcwidth 0.2.5 webencodings=0.5.1 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2 zipp 3.4.1

Pustaka Phyton di kluster GPU

Pustaka Versi Pustaka Versi Pustaka Versi
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 pemutih 3.3.0 boto3 1.16.7
botocore 1.19.7 Penyempitan 1.3.2 cachetools 4.2.2
certifi 5.12.2020 cffi 1.14.5 chardet 4.0.0
Clang 5.0 klik 7.1.2 cloudpickle 1.6.0
cmdstanpy 0.9.68 configparser 5.0.1 convertdate 2.3.2
cryptography 3.4.7 cycler 0.10.0 Cython 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
decorator 5.0.6 defusedxml 0.7.1 dill 0.3.2
diskcache 5.2.1 distlib 0.3.2 distro-info 0.23ubuntu1
titik masuk 0,3 ephem 4.0.0.2 facets-overview 1.0.0
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 future 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn==19.9.0 20.0.4 h5py 3.1.0 hijri-converter 2.2.1
hari libur 0.11.2 Horovod 0.22.1 htmlmin 0.1.12
idna 2.10 ImageHash 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.1 korean-lunar-calendar 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
buku catatan 6.3.0 numba 0.54.0 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 packaging 20.9
pandas 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 patsy 0.5.1
petastorm 0.11.2 pexpect=4.8.0 4.8.0 phik 0.12.0
pickleshare 0.7.5 Pillow 8.2.0 pip 21.0.1
plotly 5.1.0 prompt-toolkit 3.0.17 prophet 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modul 0.2.8 pycparser 2,20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.3.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil 2.8.1 python-editor teks 1.0.4 pytz 2020.5
PyWavelets 1.1.1 PyYAML 5.4.1 pyzmq 20.0.0
regex 2021.4.4 permintaan 2.25.1 requests-oauthlib 1.3.0
requests-unixsocket 0.2.0 rsa 4.7.2 s3transfer 0.3.7
scikit-learn 0.24.1 scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
shap 0.39.0 simplejson 3.17.2 six 1.15.0
slicer 0.0.7 smmap 3.0.5 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 ssh-import-id 5.10 statsmodels 0.12.2
tabulate 0.8.7 tangled-up-in-unicode 0.1.0 tenacity 6.2.0
tensorboard 2.6.0 tensorboard-data-server 0.6.1 tensorboard-plugin-wit 1.8.0
tensorflow 2.6.0 tensorflow-estimator 2.6.0 termcolor 1.1.0
terminado 0.9.4 testpath 0.4.4 threadpoolctl 2.1.0
obor 1.9.0+cu111 torchvision 0.10.0+cu111 tornado 6.1
tqdm 4.59.0 traitlets=5.0.5 5.0.5 typing-extensions 3.7.4.3
ujson 4.0.2 unattended-upgrades 0.1 urllib3 1.25.11
virtualenv 20.4.1 visions 0.7.1 wcwidth 0.2.5
webencodings=0.5.1 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
wheel 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.4.2 zipp 3.4.1

Paket Spark yang berisi modul Python

Paket Spark Modul Python Versi
graphframes graphframes 0.8.1-db3-spark3.1

Pustaka R

Pustaka R identik dengan Pustaka R di Runtime Bahasa Umum Databricks 9.1 LTS.

Pustaka Java dan Scala (Kluster Scala 2.12)

Selain pustaka Java dan Scala di Runtime Bahasa Umum Databricks 9.1, Runtime Bahasa Umum Databricks 9.1 ML berisi JAR berikut:

Kluster CPU

ID Grup ID Artefak Versi
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Kluster GPU

ID Grup ID Artefak Versi
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0