共用方式為


適用於 ML 的 Databricks Runtime 9.0 (EoS)

注意

針對此 Databricks Runtime 版本的支援已結束。 如需了解終止支援日期,請參閱終止支援歷程記錄。 如需所有支援的 Databricks Runtime 版本,請參閱 Databricks Runtime 版本和相容性說明

Databricks 於 2021 年 8 月發行此版本。

適用於機器學習的 Databricks Runtime 9.0 提供以 Databricks Runtime 9.0 (EoS) 為基礎的機器學習和資料科學現成環境。 Databricks Runtime ML 含有許多熱門的機器學習程式庫,包括 TensorFlow、PyTorch 以及 XGBoost。 其也支援使用 Horovod 的分散式深度學習訓練。

如需詳細資訊,包括建立 Databricks Runtime ML 叢集的指示,請參閱 Databricks 上的 AI 和機器學習

修正

舊版版本資訊指出,Databricks 執行階段 9.0 ML GPU 已停用支援使用 Ganglia 監視叢集 GPU 計量。 這適用於 Databricks 執行階段 9.0 ML Beta,但 Databricks 執行階段 9.0 ML GA 的問題已修正。 已移除該語句。

新功能和改進

Databricks Runtime 9.0 ML 是以 Databricks Runtime 9.0 為基礎而建置。 如需 Databricks Runtime 9.0 新增功能的相關資訊,包括 Apache Spark MLlib 和 SparkR,請參閱 Databricks Runtime 9.0 (EoS) 版本資訊。

Databricks 自動記錄(公開預覽)

Databricks 自動記錄功能現在可用於選定區域的 Databricks 機器學習執行階段 9.0。 Databricks 自動記錄是一種無程式碼解決方案,可為 Azure Databricks 上的機器學習訓練工作階段提供自動實驗追蹤功能。 有了 Databricks 自動記錄後,當您透過各種熱門機器學習程式庫訓練模型時,該功能會自動擷取模型參數、計量、檔案和譜系資訊。 該功能會將訓練工作階段記錄為 MLflow 追蹤執行。 其也會追蹤模型檔案,以便您可以輕鬆地將檔案記錄到 MLflow 模型登錄並加以部署,以使用 MLflow 模型服務進行即時評分。

如需 Databricks 自動記錄的詳細資訊,請參閱 Databricks 自動記錄

Databricks 功能儲存庫的改進

建立訓練集時的效能已改善,方法是將來源功能資料表之間的聯結數目降至最低。

XGBoost 與 PySpark 整合現在支援分散式訓練及 GPU 叢集

如需詳細資訊,請參閱在 Azure Databricks 使用 XGBoost

Databricks Runtime ML Python 環境的主要變更

已移除 Conda 環境以及 %conda 命令。 Databricks 執行階段 9.0 ML 使用 pipvirtualenv來建置。 自訂影像若使用 Conda 型環境搭配 Databricks 容器服務仍將受到支援,但不會有筆記本範圍的程式庫功能。 Databricks 建議針對所有筆記本範圍程式庫使用 Virtualenv 類環境搭配 Databricks 容器服務與 %pip

如需 Databricks Runtime Python 環境的主要變更,請參閱 Databricks Runtime 9.0 (EoS)。 如需已安裝 Python 套件及其版本的完整清單,請參閱 Python 程式庫

已升級 Python 套件

  • mlflow 1.18.0 -> 1.19.0
  • nltk 3.5 -> 3.6.1

已新增的 Python 套件

  • prophet 1.0.1

Python 套件已移除

  • MKL
  • azure-core
  • Azure 儲存 Blob
  • msrest
  • docker
  • 查詢字串解析器
  • intel-openmp

已棄用和不支援的功能

  • 在 Databricks 執行階段 9.0 ML,HorovodRunner 不支援設定 np=0,其中 np 是用於 Horovod 工作的平行處理序數目。
  • Databricks 執行環境 9.0 ML 包含 r-base 4.1.0 以及 R 圖形引擎第 14 版。 RStudio Server 版本 1.2.x 不支援此功能。
  • nvprof 在 Databricks 執行階段 9.0 ML GPU 中已被移除。

系統環境

如下所示,Databricks Runtime 9.0 ML 中的系統環境與 Databricks Runtime 9.0 有所不同:

圖書館

下列各節列出了在 Databricks Runtime 9.0 ML 中與 Databricks Runtime 9.0 不同的程式庫。

本節內容:

頂層程式庫

Databricks Runtime 9.0 ML 包含下列頂層程式庫

Python 程式庫

Databricks Runtime 9.0 ML 使用 Virtualenv 進行 Python 套件管理,且包括許多熱門 ML 套件。

除了下列各章節中指定的套件之外,Databricks Runtime 9.0 ML 也包括下列套件:

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db1
  • feature_store 0.3.3
  • automl 1.1.1

CPU 叢集上的 Python 程式庫

圖書館 版本 圖書館 版本 圖書館 版本
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
非同步生成器 1.10 屬性 20.3.0 后向调用 0.2.0
bcrypt 3.2.0 漂白劑 3.3.0 boto3 1.16.7
botocore 1.19.7 Bottleneck 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
點擊 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 convertdate 2.3.2 密碼編譯 3.4.7
cycler 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 裝飾者 5.0.6 defusedxml 0.7.1
蒔蘿 0.3.2 diskcache 5.2.1 distlib 0.3.2
distro-info 0.23ubuntu1 入口點 0.3 ephem 4.0.0.2
面向概覽 1.0.0 文件鎖 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 未來 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
伊斯蘭曆轉換器 2.1.3 假期 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 網域名稱國際化 (IDNA) 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-nightly 2.5.0.dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.1 韓國陰曆 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 多方法 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
筆記本 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 包裝 20.9
pandas 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 替罪羊 0.5.1
petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 枕頭 8.2.0 pip 21.0.1
plotly 4.14.3 prometheus-client 0.10.1 prompt-toolkit 3.0.17
先知 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2.20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing(解析套件) 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 Python 編輯器 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 RegEx 2021.4.4 請求 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 重試 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.39.0
simplejson 3.17.2 1.15.0 切片器 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 製成表格 0.8.7
糾結於 Unicode 問題 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 完成 0.9.4 測試路徑 0.4.4
threadpoolctl 2.1.0 手電筒 (for flashlight) or 火炬 (for flaming torch) 1.9.0+cpu torchvision 0.10.0+cpu
tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
typing-extensions 3.7.4.3 ujson 4.0.2 自動升級 0.1
urllib3 1.25.11 virtualenv 20.4.1 願景 0.7.1
wcwidth 0.2.5 網頁編碼 0.5.1 WebSocket 客戶端 0.57.0
Werkzeug 1.0.1 輪子 0.36.2 widgetsnbextension 3.5.1
包裹住 1.12.1 xgboost 1.4.2

GPU 叢集上的 Python 程式庫

圖書館 版本 圖書館 版本 圖書館 版本
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs(應用程式目錄) 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
非同步生成器 1.10 屬性 20.3.0 回叫 0.2.0
bcrypt 3.2.0 漂白水 3.3.0 boto3 1.16.7
botocore 1.19.7 Bottleneck 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
點擊 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 convertdate 2.3.2 密碼編譯 3.4.7
cycler 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 裝飾器 5.0.6 defusedxml 0.7.1
蒔蘿 0.3.2 diskcache 5.2.1 distlib 0.3.2
distro-info 0.23ubuntu1 入口點 0.3 ephem 4.0.0.2
面向概述 1.0.0 檔案鎖定 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 未來 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
hijri-converter 2.1.3 假期 0.10.5.2 horovod(霍羅沃德) 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-nightly 2.5.0.dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.1 韓國農曆 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 缺漏 0.5.0 誤調 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 多方法 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
筆記本 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 包裝 20.9
pandas 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 替罪羊 or 冤大頭 0.5.1
petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 枕頭 8.2.0 pip 21.0.1
plotly 4.14.3 prometheus-client 0.11.0 prompt-toolkit 3.0.17
先知 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2.20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 Python 編輯器 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 RegEx 2021.4.4 請求 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 重試中 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 海生 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.39.0
simplejson 3.17.2 1.15.0 切片機 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 列表化 0.8.7
糾結於Unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 完成 0.9.4 測試路徑 0.4.4
threadpoolctl 2.1.0 火炬 1.9.0+cu111 torchvision 0.10.0+cu111
tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
typing-extensions 3.7.4.3 ujson 4.0.2 無人值守升級 0.1
urllib3 1.25.11 virtualenv 20.4.1 願景 0.7.1
wcwidth 0.2.5 網路編碼 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 輪子 0.36.2 widgetsnbextension 3.5.1
包裹 1.12.1 xgboost 1.4.2

包含 Python 模組的 Spark 套件

Spark 套件 Python 模組 版本
graphframes graphframes 0.8.1-db3-spark3.1

R 程式庫

R 程式庫與 Databricks Runtime 9.0 中的 R 程式庫相同。

Java 和 Scala 程式庫 (Scala 2.12 叢集)

除了 Databricks Runtime 9.0 中的 Java 和 Scala 程式庫之外,Databricks Runtime 9.0 ML 還包含下列 JAR:

CPU 叢集

群組識別碼 成品識別碼 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU叢集

群組識別碼 成品識別碼 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 (軟體版本) 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0