Databricks Runtime 9.1 LTS untuk Pembelajaran Mesin
Databricks merilis gambar ini dan mendeklarasikannya Long Term Support (LTS) pada September 2021.
Runtime Bahasa Umum Databricks 9.1 LTS untuk Azure Machine Learning menyediakan lingkungan siap pakai untuk pembelajaran mesin dan ilmu data berdasarkan Runtime Bahasa Umum Databricks 9.1 LTS. Runtime Bahasa Umum Databricks ML berisi banyak pustaka pembelajaran mesin populer, termasuk TensorFlow, PyTorch, dan XGBoost. Databricks Runtime ML mencakup AutoML, alat untuk secara otomatis melatih alur pembelajaran mesin. Databricks Runtime ML juga mendukung pelatihan pembelajaran mendalam menggunakan Horovod.
Catatan
LTS berarti versi ini berada di bawah dukungan jangka panjang. Lihat Siklus hidup versi LTS Runtime Databricks.
Untuk informasi selengkapnya, termasuk instruksi untuk membuat kluster ML Runtime Databricks, lihat AI dan pembelajaran mesin di Databricks.
Tip
Untuk melihat catatan rilis untuk versi Databricks Runtime yang telah mencapai akhir dukungan (EoS), lihat Catatan rilis Databricks Runtime akhir dukungan. Versi EoS Databricks Runtime telah dihentikan dan mungkin tidak diperbarui.
Fitur dan peningkatan baru
AutoML
Peningkatan berikut tersedia di Runtime Bahasa Umum Databricks 9.1 LTS ML ke atas.
AutoML mendukung himpunan data yang lebih besar dengan pengambilan sampel
AutoML sekarang mengambil sampel himpunan data yang mungkin melebihi batasan memori, memungkinkannya berjalan pada himpunan data yang lebih besar dengan risiko kesalahan di luar memori yang lebih kecil. Untuk detailnya, lihat Mengambil sampel himpunan data besar.
Kolom praproses AutoML berdasarkan tipe semantik
AutoML mendeteksi kolom tertentu yang memiliki tipe semantik yang berbeda dari tipe data Spark atau panda mereka. AutoML kemudian mengonversi dan menerapkan langkah-langkah praproses data berdasarkan jenis semantik yang terdeteksi. Secara khusus, AutoML melakukan konversi berikut:
- Kolom string dan bilangan bulat yang mewakili data tanggal atau stempel waktu dikonversi menjadi jenis stempel waktu.
- Kolom string yang mewakili data numerik dikonversi menjadi jenis numerik.
Perbaikan pada buku catatan yang dibuat AutoML
Langkah-langkah praproses untuk kolom tanggal dan stempel waktu sekarang dimasukkan dalam paket databricks-automl-runtime
, menyederhanakan buku catatan yang dihasilkan oleh pelatihan AutoML.
databricks-automl-runtime
termasuk dalam Databricks Runtime 9.1 LTS ML ke atas, dan juga tersedia di PyPI.
Penyimpanan fitur
Peningkatan berikut tersedia di Runtime Bahasa Umum Databricks 9.1 LTS ML ke atas.
- Saat Membuat TrainingSet, Anda sekarang dapat mengatur
label=None
untuk mendukung aplikasi pembelajaran tanpa pengawasan. - Anda sekarang dapat menentukan lebih dari satu fitur dalam satu
FeatureLookup
. - Anda sekarang dapat menentukan jalur kustom untuk tabel fitur. Gunakan parameter
path
dalamcreate_feature_table()
. Defaultnya adalah lokasi database. - Jenis data PySpark baru yang didukung: ArrayType dan ShortType.
MLflow
Peningkatan berikut tersedia mulai di Mlflow versi 1.20.2, yang termasuk dalam Runtime Bahasa Umum Databricks 9.1 LTS ML.
- Autologging untuk scikit-learn sekarang mencatat metrik pasca-pelatihan setiap kali API evaluasi scikit-learn, seperti
sklearn.metrics.mean_squared_error
, dipanggil. - Pengelogan otomatis untuk PySpark ML sekarang mencatat metrik pasca-pelatihan setiap kali API evaluasi model, seperti
Evaluator.evaluate()
, disebut. -
mlflow.*.log_model
danmlflow.*.save_model
sekarang memiliki argumenpip_requirements
danextra_pip_requirements
sehingga Anda dapat langsung menentukan persyaratan pip dari model untuk log atau menyimpan. -
mlflow.*.log_model
danmlflow.*.save_model
sekarang secara otomatis menyimpulkan persyaratan pip dari model untuk log atau menyimpan berdasarkan lingkungan perangkat lunak saat ini. - Entri
stdMetrics
sekarang dicatat sebagai metrik pelatihan selama pencatatan otomatis PySpark CrossValidator. - Pencatatan otomatis PyTorch Lightning sekarang mendukung eksekusi terdistribusi.
Pencatatan Otomatis Databricks (Pratinjau Umum)
Pratinjau Umum Pencatatan Otomatis Databricks telah diperluas ke wilayah baru. Pencatatan Otomatis Databricks adalah solusi tanpa kode yang menyediakan pelacakan percobaan otomatis untuk sesi pelatihan pembelajaran mesin di Azure Databricks. Dengan Pencatatan Otomatis Databricks, parameter model, metrik, file, dan informasi garis keturunan secara otomatis ditangkap saat Anda melatih model dari berbagai pustaka pembelajaran mesin populer. Sesi pelatihan direkam sebagai MLflow Tracking Runs. File model juga dilacak sehingga Anda dapat dengan mudah mencatatnya ke MLflow Model Registry dan menyebarkannya untuk penilaian real-time dengan MLflow Model Serving.
Untuk informasi selengkapnya tentang Pencatatan Otomatis Databricks, lihat Pencatatan Otomatis Databricks.
Perubahan besar pada lingkungan Phyton ML Databricks Runtime
Paket Phyton ditingkatkan
- automl 1.1.1 => 1.2.1
- feature_store 0.3.3 => 0.3.4.1
- hari libur 0.10.5.2 => 0.11.2
- keras 2.5.0 => 2.6.0
- mlflow 1.19.0 => 1.20.2
- petastorm 0.11.1 -> 0.11.2
- plotly 4.14.3 -> 5.1.0
- spark-tensorflow-distributor 0.1.0 => 1.0.0
- sparkdl 2.2.0_db1 => 2.2.0_db3
- tensorboard 2.5.0 => 2.6.0
- tensorflow 2.5.0 => 2.6.0
Paket Python yang ditambahkan
- databricks-automl-runtime 0.1.0
Lingkungan sistem
Lingkungan sistem di Runtime Bahasa Umum Databricks 9.1 ML berbeda dari Runtime Bahasa Umum Databricks 9.1 sebagai berikut:
-
DBUtils: Databricks Runtime ML tidak menyertakan utilitas Pustaka (dbutils.library) (warisan).
Gunakan perintah
%pip
saja. Lihat Pustaka Python cakupan buku catatan. - Untuk kluster GPU, Databricks Runtime ML menyertakan pustaka GPU NVIDIA berikut:
- CUDA 11.0
- cuDNN 8.1.0.77
- NCCL 2.10.3
- TensorRT 7.2.2
Pustaka
Bagian berikut mencantumkan pustaka yang disertakan dalam Runtime Bahasa Umum Databricks 9.1 ML yang berbeda dari yang disertakan dalam Databricks Runtime 9.1.
Di bagian ini:
Pustaka tingkat atas
Runtime Bahasa Umum Databricks 9.1 ML mencakup pustaka tingkat atas berikut:
- AutoML
- GraphFrames
- Horovod dan HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow 2.5.0
- TensorBoard
Pustaka Python
Runtime Bahasa Umum Databricks 9.1 ML menggunakan Conda untuk manajemen paket Phyton dan mencakup banyak paket ML populer.
Selain paket yang ditentukan di lingkungan Conda di bagian berikut, Runtime Bahasa Umum Databricks 9.1 ML juga memasang paket berikut:
- hyperopt 0.2.5.db2
- sparkdl 2.2.0_db3
- feature_store 0.3.4.1
- automl 1.2.1
Pustaka Phyton di kluster CPU
Pustaka | Versi | Pustaka | Versi | Pustaka | Versi |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | pemutih | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Penyempitan | 1.3.2 | cachetools | 4.2.2 |
certifi | 5.12.2020 | cffi | 1.14.5 | chardet | 4.0.0 |
Clang | 5.0 | klik | 7.1.2 | cloudpickle | 1.6.0 |
cmdstanpy | 0.9.68 | configparser | 5.0.1 | convertdate | 2.3.2 |
cryptography | 3.4.7 | cycler | 0.10.0 | Cython | 0.29.23 |
databricks-automl-runtime | 0.1.0 | databricks-cli | 0.14.3 | dbus-python | 1.2.16 |
decorator | 5.0.6 | defusedxml | 0.7.1 | dill | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.2 | distro-info | 0.23ubuntu1 |
titik masuk | 0,3 | ephem | 4.0.0.2 | facets-overview | 1.0.0 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 1.12 |
fsspec | 0.9.0 | future | 0.18.2 | gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn==19.9.0 | 20.0.4 | h5py | 3.1.0 | hijri-converter | 2.2.1 |
hari libur | 0.11.2 | Horovod | 0.22.1 | htmlmin | 0.1.12 |
idna | 2.10 | ImageHash | 4.2.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.6.0 | Keras-Preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | koalas | 1.8.1 | korean-lunar-calendar | 0.2.1 |
lightgbm | 3.1.1 | llvmlite | 0.37.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | mistune | 0.8.4 |
mleap | 0.17.0 | mlflow-skinny | 1.20.2 | multimethod | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
buku catatan | 6.3.0 | numba | 0.54.0 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | packaging | 20.9 |
pandas | 1.2.4 | pandas-profiling | 3.0.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | patsy | 0.5.1 |
petastorm | 0.11.2 | pexpect=4.8.0 | 4.8.0 | phik | 0.12.0 |
pickleshare | 0.7.5 | Pillow | 8.2.0 | pip | 21.0.1 |
plotly | 5.1.0 | prometheus-client | 0.10.1 | prompt-toolkit | 3.0.17 |
prophet | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modul | 0.2.8 | pycparser | 2,20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.3.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pyrsistent | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | python-editor teks | 1.0.4 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | permintaan | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | rsa | 4.7.2 |
s3transfer | 0.3.7 | scikit-learn | 0.24.1 | scipy | 1.6.2 |
seaborn | 0.11.1 | Send2Trash | 1.5.0 | setuptools | 52.0.0 |
setuptools-git | 1.2 | shap | 0.39.0 | simplejson | 3.17.2 |
six | 1.15.0 | slicer | 0.0.7 | smmap | 3.0.5 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | tabulate | 0.8.7 | tangled-up-in-unicode | 0.1.0 |
tenacity | 6.2.0 | tensorboard | 2.6.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.6.0 | tensorflow-estimator | 2.6.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | testpath | 0.4.4 |
threadpoolctl | 2.1.0 | obor | 1.9.0+cpu | torchvision | 0.10.0+cpu |
tornado | 6.1 | tqdm | 4.59.0 | traitlets=5.0.5 | 5.0.5 |
typing-extensions | 3.7.4.3 | ujson | 4.0.2 | unattended-upgrades | 0.1 |
urllib3 | 1.25.11 | virtualenv | 20.4.1 | visions | 0.7.1 |
wcwidth | 0.2.5 | webencodings=0.5.1 | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | wheel | 0.36.2 | widgetsnbextension | 3.5.1 |
wrapt | 1.12.1 | xgboost | 1.4.2 | zipp | 3.4.1 |
Pustaka Phyton di kluster GPU
Pustaka | Versi | Pustaka | Versi | Pustaka | Versi |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | pemutih | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Penyempitan | 1.3.2 | cachetools | 4.2.2 |
certifi | 5.12.2020 | cffi | 1.14.5 | chardet | 4.0.0 |
Clang | 5.0 | klik | 7.1.2 | cloudpickle | 1.6.0 |
cmdstanpy | 0.9.68 | configparser | 5.0.1 | convertdate | 2.3.2 |
cryptography | 3.4.7 | cycler | 0.10.0 | Cython | 0.29.23 |
databricks-automl-runtime | 0.1.0 | databricks-cli | 0.14.3 | dbus-python | 1.2.16 |
decorator | 5.0.6 | defusedxml | 0.7.1 | dill | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.2 | distro-info | 0.23ubuntu1 |
titik masuk | 0,3 | ephem | 4.0.0.2 | facets-overview | 1.0.0 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 1.12 |
fsspec | 0.9.0 | future | 0.18.2 | gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn==19.9.0 | 20.0.4 | h5py | 3.1.0 | hijri-converter | 2.2.1 |
hari libur | 0.11.2 | Horovod | 0.22.1 | htmlmin | 0.1.12 |
idna | 2.10 | ImageHash | 4.2.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.6.0 | Keras-Preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | koalas | 1.8.1 | korean-lunar-calendar | 0.2.1 |
lightgbm | 3.1.1 | llvmlite | 0.37.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | mistune | 0.8.4 |
mleap | 0.17.0 | mlflow-skinny | 1.20.2 | multimethod | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
buku catatan | 6.3.0 | numba | 0.54.0 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | packaging | 20.9 |
pandas | 1.2.4 | pandas-profiling | 3.0.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | patsy | 0.5.1 |
petastorm | 0.11.2 | pexpect=4.8.0 | 4.8.0 | phik | 0.12.0 |
pickleshare | 0.7.5 | Pillow | 8.2.0 | pip | 21.0.1 |
plotly | 5.1.0 | prompt-toolkit | 3.0.17 | prophet | 1.0.1 |
protobuf | 3.17.2 | psutil | 5.8.0 | psycopg2 | 2.8.5 |
ptyprocess | 0.7.0 | pyarrow | 4.0.0 | pyasn1 | 0.4.8 |
pyasn1-modul | 0.2.8 | pycparser | 2,20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.3.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 |
python-dateutil | 2.8.1 | python-editor teks | 1.0.4 | pytz | 2020.5 |
PyWavelets | 1.1.1 | PyYAML | 5.4.1 | pyzmq | 20.0.0 |
regex | 2021.4.4 | permintaan | 2.25.1 | requests-oauthlib | 1.3.0 |
requests-unixsocket | 0.2.0 | rsa | 4.7.2 | s3transfer | 0.3.7 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
shap | 0.39.0 | simplejson | 3.17.2 | six | 1.15.0 |
slicer | 0.0.7 | smmap | 3.0.5 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.1 | ssh-import-id | 5.10 | statsmodels | 0.12.2 |
tabulate | 0.8.7 | tangled-up-in-unicode | 0.1.0 | tenacity | 6.2.0 |
tensorboard | 2.6.0 | tensorboard-data-server | 0.6.1 | tensorboard-plugin-wit | 1.8.0 |
tensorflow | 2.6.0 | tensorflow-estimator | 2.6.0 | termcolor | 1.1.0 |
terminado | 0.9.4 | testpath | 0.4.4 | threadpoolctl | 2.1.0 |
obor | 1.9.0+cu111 | torchvision | 0.10.0+cu111 | tornado | 6.1 |
tqdm | 4.59.0 | traitlets=5.0.5 | 5.0.5 | typing-extensions | 3.7.4.3 |
ujson | 4.0.2 | unattended-upgrades | 0.1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | visions | 0.7.1 | wcwidth | 0.2.5 |
webencodings=0.5.1 | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
wheel | 0.36.2 | widgetsnbextension | 3.5.1 | wrapt | 1.12.1 |
xgboost | 1.4.2 | zipp | 3.4.1 |
Paket Spark yang berisi modul Python
Paket Spark | Modul Python | Versi |
---|---|---|
graphframes | graphframes | 0.8.1-db3-spark3.1 |
Pustaka R
Pustaka R identik dengan Pustaka R di Runtime Bahasa Umum Databricks 9.1 LTS.
Pustaka Java dan Scala (Kluster Scala 2.12)
Selain pustaka Java dan Scala di Runtime Bahasa Umum Databricks 9.1, Runtime Bahasa Umum Databricks 9.1 ML berisi JAR berikut:
Kluster CPU
ID Grup | ID Artefak | Versi |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-spark_2.12 | 1.4.1 |
ml.dmlc | xgboost4j_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | mlflow-client | 1.20.2 |
org.mlflow | mlflow-spark | 1.20.2 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Kluster GPU
ID Grup | ID Artefak | Versi |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-gpu_2.12 | 1.4.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | mlflow-client | 1.20.2 |
org.mlflow | mlflow-spark | 1.20.2 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |