適用於 ML 的 Databricks Runtime 9.0 (EoS)
注意
針對此 Databricks Runtime 版本的支援已結束。 如需了解終止支援日期,請參閱終止支援歷程記錄。 如需所有支援的 Databricks Runtime 版本,請參閱 Databricks Runtime 版本和相容性說明。
Databricks 於 2021 年 8 月發行此版本。
適用於機器學習的 Databricks Runtime 9.0 提供以 Databricks Runtime 9.0 (EoS) 為基礎的機器學習和資料科學現成環境。 Databricks Runtime ML 含有許多熱門的機器學習程式庫,包括 TensorFlow、PyTorch 以及 XGBoost。 其也支援使用 Horovod 的分散式深度學習訓練。
如需詳細資訊,包括建立 Databricks Runtime ML 叢集的指示,請參閱 Databricks 上的 AI 和機器學習。
修正
舊版版本資訊指出,Databricks 執行階段 9.0 ML GPU 已停用支援使用 Ganglia 監視叢集 GPU 計量。 這適用於 Databricks 執行階段 9.0 ML Beta,但 Databricks 執行階段 9.0 ML GA 的問題已修正。 已移除該語句。
新功能和改進
Databricks Runtime 9.0 ML 是以 Databricks Runtime 9.0 為基礎而建置。 如需 Databricks Runtime 9.0 新增功能的相關資訊,包括 Apache Spark MLlib 和 SparkR,請參閱 Databricks Runtime 9.0 (EoS) 版本資訊。
Databricks 自動記錄(公開預覽)
Databricks 自動記錄功能現在可用於選定區域的 Databricks 機器學習執行階段 9.0。 Databricks 自動記錄是一種無程式碼解決方案,可為 Azure Databricks 上的機器學習訓練工作階段提供自動實驗追蹤功能。 有了 Databricks 自動記錄後,當您透過各種熱門機器學習程式庫訓練模型時,該功能會自動擷取模型參數、計量、檔案和譜系資訊。 該功能會將訓練工作階段記錄為 MLflow 追蹤執行。 其也會追蹤模型檔案,以便您可以輕鬆地將檔案記錄到 MLflow 模型登錄並加以部署,以使用 MLflow 模型服務進行即時評分。
如需 Databricks 自動記錄的詳細資訊,請參閱 Databricks 自動記錄。
Databricks 功能儲存庫的改進
建立訓練集時的效能已改善,方法是將來源功能資料表之間的聯結數目降至最低。
XGBoost 與 PySpark 整合現在支援分散式訓練及 GPU 叢集
如需詳細資訊,請參閱在 Azure Databricks 使用 XGBoost。
Databricks Runtime ML Python 環境的主要變更
已移除 Conda 環境以及 %conda 命令。 Databricks 執行階段 9.0 ML 使用 pip
與 virtualenv
來建置。
自訂影像若使用 Conda 型環境搭配 Databricks 容器服務仍將受到支援,但不會有筆記本範圍的程式庫功能。 Databricks 建議針對所有筆記本範圍程式庫使用 Virtualenv 類環境搭配 Databricks 容器服務與 %pip
。
如需 Databricks Runtime Python 環境的主要變更,請參閱 Databricks Runtime 9.0 (EoS)。 如需已安裝 Python 套件及其版本的完整清單,請參閱 Python 程式庫。
已升級 Python 套件
- mlflow 1.18.0 -> 1.19.0
- nltk 3.5 -> 3.6.1
已新增的 Python 套件
- prophet 1.0.1
Python 套件已移除
- MKL
- azure-core
- Azure 儲存 Blob
- msrest
- docker
- 查詢字串解析器
- intel-openmp
已棄用和不支援的功能
- 在 Databricks 執行階段 9.0 ML,HorovodRunner 不支援設定
np=0
,其中np
是用於 Horovod 工作的平行處理序數目。 - Databricks 執行環境 9.0 ML 包含 r-base 4.1.0 以及 R 圖形引擎第 14 版。 RStudio Server 版本 1.2.x 不支援此功能。
-
nvprof
在 Databricks 執行階段 9.0 ML GPU 中已被移除。
系統環境
如下所示,Databricks Runtime 9.0 ML 中的系統環境與 Databricks Runtime 9.0 有所不同:
-
DBUtils:Databricks Runtime ML 不包括程式庫公用程式 (dbutils.library) (舊版)。
請改用
%pip
命令。 請參閱限於筆記本的 Python 程式庫。 - 針對 GPU 叢集,Databricks Runtime ML 包括下列 NVIDIA GPU 程式庫:
- CUDA 11.0
- cuDNN 8.1.0.77
- NCCL 2.10.3
- TensorRT 7.2.2
圖書館
下列各節列出了在 Databricks Runtime 9.0 ML 中與 Databricks Runtime 9.0 不同的程式庫。
本節內容:
頂層程式庫
Databricks Runtime 9.0 ML 包含下列頂層程式庫:
- GraphFrames
- Horovod 及 HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Python 程式庫
Databricks Runtime 9.0 ML 使用 Virtualenv 進行 Python 套件管理,且包括許多熱門 ML 套件。
除了下列各章節中指定的套件之外,Databricks Runtime 9.0 ML 也包括下列套件:
- hyperopt 0.2.5.db2
- sparkdl 2.2.0_db1
- feature_store 0.3.3
- automl 1.1.1
CPU 叢集上的 Python 程式庫
圖書館 | 版本 | 圖書館 | 版本 | 圖書館 | 版本 |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
非同步生成器 | 1.10 | 屬性 | 20.3.0 | 后向调用 | 0.2.0 |
bcrypt | 3.2.0 | 漂白劑 | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Bottleneck | 1.3.2 | cachetools | 4.2.2 |
certifi | 2020.12.5 | cffi | 1.14.5 | chardet | 4.0.0 |
點擊 | 7.1.2 | cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 |
configparser | 5.0.1 | convertdate | 2.3.2 | 密碼編譯 | 3.4.7 |
cycler | 0.10.0 | Cython | 0.29.23 | databricks-cli | 0.14.3 |
dbus-python | 1.2.16 | 裝飾者 | 5.0.6 | defusedxml | 0.7.1 |
蒔蘿 | 0.3.2 | diskcache | 5.2.1 | distlib | 0.3.2 |
distro-info | 0.23ubuntu1 | 入口點 | 0.3 | ephem | 4.0.0.2 |
面向概覽 | 1.0.0 | 文件鎖 | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 1.12 | fsspec | 0.9.0 | 未來 | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.34.1 | gunicorn | 20.0.4 | h5py | 3.1.0 |
伊斯蘭曆轉換器 | 2.1.3 | 假期 | 0.10.5.2 | horovod | 0.22.1 |
htmlmin | 0.1.12 | 網域名稱國際化 (IDNA) | 2.10 | ImageHash | 4.2.1 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.4 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.1 | keras-nightly | 2.5.0.dev2021032900 | Keras-Preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | koalas | 1.8.1 | 韓國陰曆 | 0.2.1 |
lightgbm | 3.1.1 | llvmlite | 0.36.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | mistune | 0.8.4 |
mleap | 0.17.0 | mlflow-skinny | 1.19.0 | 多方法 | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
筆記本 | 6.3.0 | numba | 0.53.1 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | 包裝 | 20.9 |
pandas | 1.2.4 | pandas-profiling | 3.0.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | 替罪羊 | 0.5.1 |
petastorm | 0.11.1 | pexpect | 4.8.0 | phik | 0.12.0 |
pickleshare | 0.7.5 | 枕頭 | 8.2.0 | pip | 21.0.1 |
plotly | 4.14.3 | prometheus-client | 0.10.1 | prompt-toolkit | 3.0.17 |
先知 | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pycparser | 2.20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.3.0 | pyodbc | 4.0.30 |
pyparsing(解析套件) | 2.4.7 | pyrsistent | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | Python 編輯器 | 1.0.4 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | RegEx | 2021.4.4 | 請求 | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | 重試 | 1.3.3 |
rsa | 4.7.2 | s3transfer | 0.3.7 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | shap | 0.39.0 |
simplejson | 3.17.2 | 六 | 1.15.0 | 切片器 | 0.0.7 |
smmap | 3.0.5 | spark-tensorflow-distributor | 0.1.0 | sqlparse | 0.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | 製成表格 | 0.8.7 |
糾結於 Unicode 問題 | 0.1.0 | tensorboard | 2.5.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.5.0 | tensorflow-estimator | 2.5.0 |
termcolor | 1.1.0 | 完成 | 0.9.4 | 測試路徑 | 0.4.4 |
threadpoolctl | 2.1.0 | 手電筒 (for flashlight) or 火炬 (for flaming torch) | 1.9.0+cpu | torchvision | 0.10.0+cpu |
tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
typing-extensions | 3.7.4.3 | ujson | 4.0.2 | 自動升級 | 0.1 |
urllib3 | 1.25.11 | virtualenv | 20.4.1 | 願景 | 0.7.1 |
wcwidth | 0.2.5 | 網頁編碼 | 0.5.1 | WebSocket 客戶端 | 0.57.0 |
Werkzeug | 1.0.1 | 輪子 | 0.36.2 | widgetsnbextension | 3.5.1 |
包裹住 | 1.12.1 | xgboost | 1.4.2 |
GPU 叢集上的 Python 程式庫
圖書館 | 版本 | 圖書館 | 版本 | 圖書館 | 版本 |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs(應用程式目錄) | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
非同步生成器 | 1.10 | 屬性 | 20.3.0 | 回叫 | 0.2.0 |
bcrypt | 3.2.0 | 漂白水 | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Bottleneck | 1.3.2 | cachetools | 4.2.2 |
certifi | 2020.12.5 | cffi | 1.14.5 | chardet | 4.0.0 |
點擊 | 7.1.2 | cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 |
configparser | 5.0.1 | convertdate | 2.3.2 | 密碼編譯 | 3.4.7 |
cycler | 0.10.0 | Cython | 0.29.23 | databricks-cli | 0.14.3 |
dbus-python | 1.2.16 | 裝飾器 | 5.0.6 | defusedxml | 0.7.1 |
蒔蘿 | 0.3.2 | diskcache | 5.2.1 | distlib | 0.3.2 |
distro-info | 0.23ubuntu1 | 入口點 | 0.3 | ephem | 4.0.0.2 |
面向概述 | 1.0.0 | 檔案鎖定 | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 1.12 | fsspec | 0.9.0 | 未來 | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.34.1 | gunicorn | 20.0.4 | h5py | 3.1.0 |
hijri-converter | 2.1.3 | 假期 | 0.10.5.2 | horovod(霍羅沃德) | 0.22.1 |
htmlmin | 0.1.12 | idna | 2.10 | ImageHash | 4.2.1 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.4 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.1 | keras-nightly | 2.5.0.dev2021032900 | Keras-Preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | koalas | 1.8.1 | 韓國農曆 | 0.2.1 |
lightgbm | 3.1.1 | llvmlite | 0.36.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
matplotlib | 3.4.2 | 缺漏 | 0.5.0 | 誤調 | 0.8.4 |
mleap | 0.17.0 | mlflow-skinny | 1.19.0 | 多方法 | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
筆記本 | 6.3.0 | numba | 0.53.1 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | 包裝 | 20.9 |
pandas | 1.2.4 | pandas-profiling | 3.0.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | 替罪羊 or 冤大頭 | 0.5.1 |
petastorm | 0.11.1 | pexpect | 4.8.0 | phik | 0.12.0 |
pickleshare | 0.7.5 | 枕頭 | 8.2.0 | pip | 21.0.1 |
plotly | 4.14.3 | prometheus-client | 0.11.0 | prompt-toolkit | 3.0.17 |
先知 | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pycparser | 2.20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.3.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pyrsistent | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | Python 編輯器 | 1.0.4 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | RegEx | 2021.4.4 | 請求 | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | 重試中 | 1.3.3 |
rsa | 4.7.2 | s3transfer | 0.3.7 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | 海生 | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | shap | 0.39.0 |
simplejson | 3.17.2 | 六 | 1.15.0 | 切片機 | 0.0.7 |
smmap | 3.0.5 | spark-tensorflow-distributor | 0.1.0 | sqlparse | 0.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | 列表化 | 0.8.7 |
糾結於Unicode | 0.1.0 | tensorboard | 2.5.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-wit | 1.8.0 | tensorflow | 2.5.0 | tensorflow-estimator | 2.5.0 |
termcolor | 1.1.0 | 完成 | 0.9.4 | 測試路徑 | 0.4.4 |
threadpoolctl | 2.1.0 | 火炬 | 1.9.0+cu111 | torchvision | 0.10.0+cu111 |
tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
typing-extensions | 3.7.4.3 | ujson | 4.0.2 | 無人值守升級 | 0.1 |
urllib3 | 1.25.11 | virtualenv | 20.4.1 | 願景 | 0.7.1 |
wcwidth | 0.2.5 | 網路編碼 | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | 輪子 | 0.36.2 | widgetsnbextension | 3.5.1 |
包裹 | 1.12.1 | xgboost | 1.4.2 |
包含 Python 模組的 Spark 套件
Spark 套件 | Python 模組 | 版本 |
---|---|---|
graphframes | graphframes | 0.8.1-db3-spark3.1 |
R 程式庫
R 程式庫與 Databricks Runtime 9.0 中的 R 程式庫相同。
Java 和 Scala 程式庫 (Scala 2.12 叢集)
除了 Databricks Runtime 9.0 中的 Java 和 Scala 程式庫之外,Databricks Runtime 9.0 ML 還包含下列 JAR:
CPU 叢集
群組識別碼 | 成品識別碼 | 版本 |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-spark_2.12 | 1.4.1 |
ml.dmlc | xgboost4j_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | mlflow-client | 1.19.0 |
org.mlflow | mlflow-spark | 1.19.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
GPU叢集
群組識別碼 | 成品識別碼 | 版本 |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 (軟體版本) | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-gpu_2.12 | 1.4.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | mlflow-client | 1.19.0 |
org.mlflow | mlflow-spark | 1.19.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |