Поделиться через


Databricks Runtime 11.3 LTS для машинного обучения

Databricks Runtime 11.3 LTS для машинного обучения предоставляет готовую среду для машинного обучения и науки о данных на основе Databricks Runtime 11.3 LTS. Databricks Runtime ML содержит множество популярных библиотек машинного обучения, включая TensorFlow, PyTorch и XGBoost. Databricks Runtime ML включает AutoML – средство для автоматического обучения конвейеров машинного обучения. Databricks Runtime ML также поддерживает распределенное углубленное обучение с использованием Horovod.

Примечание.

LTS означает, что эта версия находится в долгосрочной поддержке. См. жизненный цикл версии Databricks Runtime LTS.

Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в статье ИИ и машинное обучение в Databricks.

Совет

Чтобы просмотреть заметки о выпуске версий Databricks Runtime, которые достигли окончания поддержки (EoS), см. Заметки о выпуске Databricks Runtime с окончанием поддержки. Версии среды выполнения EoS Databricks устарели и могут не обновляться.

Новые функции и внесенные улучшения

Databricks Runtime 11.3 LTS ML построен на основе Databricks Runtime 11.3 LTS. Сведения о новых возможностях Databricks Runtime 11.3 LTS, включая Apache Spark MLlib и SparkR, смотрите в заметках о выпуске Databricks Runtime 11.3 LTS.

Усовершенствования в AutoML

AutoML теперь поддерживает использование существующих таблиц признаков Feature Store в экспериментах AutoML. Дополнительные сведения см. в разделе "Интеграция с хранилищем компонентов AutoML".

Пробные записные книжки, созданные AutoML, теперь содержат фрагменты кода, позволяющие пользователям повторно запускать настройку гиперпараметров.

AutoML теперь поддерживает DecimalType функции.

Исправления ошибок

Databricks Runtime 11.3 LTS ML включает обновленную версию sparkdl.xgboost. Предыдущие версии sparkdl.xgboost содержат ошибки, исправленные в этом выпуске, поэтому Databricks рекомендует пользователям библиотеки обновиться до Databricks Runtime 11.3 LTS ML.

Подготовка к будущим выпускам

Предстоящий выпуск Databricks Runtime ML будет включать sklearn версию 1.0. Ознакомьтесь с документацией по подготовке sklearnк этому изменению.

Databricks Runtime ML содержит два openblas пакета. Пакет /opt/OpenBLAS устарел в Databricks Runtime 11.3 LTS ML и будет удален в предстоящем выпуске.

Системная среда

Системная среда в Databricks Runtime 11.3 LTS ML отличается от Databricks Runtime 11.3 LTS следующим образом:

Databricks Runtime 11.3 LTS ML включает XGBoost 1.6.1, который не поддерживает кластеры GPU с возможностями вычислений 5.2 и ниже.

Библиотеки

В следующих разделах перечислены библиотеки, включенные в Databricks Runtime 11.3 LTS ML, которые отличаются от библиотек, включенных в Databricks Runtime 11.3 LTS.

В этом разделе рассматриваются следующие вопросы.

Библиотеки верхнего уровня

Databricks Runtime 11.3 LTS ML включает следующие библиотеки верхнего уровня:

Библиотеки Python

Databricks Runtime 11.3 LTS ML использует Virtualenv для управления пакетами Python и включает множество популярных пакетов машинного обучения.

Помимо пакетов, указанных в следующих разделах, Databricks Runtime 11.3 LTS ML также включает следующие пакеты:

  • hyperopt 0.2.7.db1
  • sparkdl 2.3.0-db3
  • feature_store 0.7.0
  • automl 1.13.2

Чтобы воспроизвести python-среду Databricks Runtime ML в локальной виртуальной среде Python, скачайте файл requirements-11.3.txt и выполните команду pip install -r requirements-11.3.txt. Эта команда устанавливает все библиотеки с открытым исходным кодом, которые использует Databricks Runtime ML, но не устанавливает библиотеки, разработанные Databricks, например databricks-automl, databricks-feature-store, или вилку Databricks hyperopt.

Библиотеки Python в кластерах CPU

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 1.0.0 argon2-cffi 20.1.0 Астор 0.8.1
astunparse 1.6.3 асинхронный генератор 1,10 атрибуты 21.2.0
azure-core 1.22.1 azure-cosmos 4.2.0 бэколл 0.2.0
backports.entry-points-selectable 1.1.1 bcrypt 4.0.0 чёрный 22.3.0
отбеливатель 4.0.0 блаженство 0.7.8 boto3 1.21.18
botocore 1.24.18 cachetools 5.2.0 каталог 2.0.8
сертификат 2021.10.8 cffi 1.14.6 chardet 4.0.0
charset-normalizer 2.0.4 щелчок 8.0.3 cloudpickle 2.0.0
cmdstanpy 0.9.68 кондитерские изделия 0.0.1 configparser 5.2.0
convertdate 2.4.0 криптография 3.4.8 циклёр 0.10.0
cymem 2.0.6 Cython 0.29.24 databricks-automl-runtime 0.2.11
databricks-cli 0.17.3 dbl-tempo 0.1.12 dbus-python 1.2.16
debugpy 1.4.1 декоратор 5.1.0 defusedxml 0.7.1
укроп 0.3.4 дисковый кэш 5.4.0 distlib 0.3.6
точки входа 0,3 ephem 4.1.3 обзор граней 1.0.0
FastText 0.9.2 блокировка файла 3.3.1 Flask 1.1.2
flatbuffers 1.12 fsspec 2021.8.1 будущее 0.18.2
gast 0.4.0 gitdb 4.0.9 GitPython 3.1.27
google-auth 2.6.0 google-auth-oauthlib 0.4.6 google-pasta 0.2.0
grpcio 1.44.0 gunicorn 20.1.0 gviz-api 1.10.0
h5py 3.3.0 hijri-converter 2.2.4 праздники 0,15
хоровод 0.25.0 htmlmin 0.1.12 huggingface-hub 0.9.1
idna 3.2 ImageHash 4.3.0 Имбалансед-Лерн 0.8.1
importlib-metadata 4.8.1 ipykernel 6.12.1 ipython 7.32.0
ipython-genutils 0.2.0 ipywidgets 7.7.0 isodate 0.6.1
itsdangerous 2.0.1 джедай 0.18.0 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.5.0
jsonschema 3.2.0 Jupyter-client (клиент для Jupyter) 6.1.12 jupyter-core 4.8.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.9.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 корейский лунный календарь 0.3.1
коды языков 3.3.0 libclang 14.0.6 lightgbm 3.3.2
llvmlite 0.37.0 Лунный календарь 0.0.9 Mako 1.2.0
Markdown 3.3.6 MarkupSafe 2.0.1 matplotlib 3.4.3
matplotlib-inline 0.1.2 missingno 0.5.1 mistune 0.8.4
mleap 0.20.0 mlflow-skinny 1.29.0 мультиметод 1,9
murmurhash 1.0.8 mypy-extensions 0.4.3 nbclient 0.5.3
Перекодировщик nbconvert 6.1.0 nbformat 5.1.3 nest-asyncio 1.5.1
networkx 2.6.3 nltk 3.6.5 записная книжка 6.4.5
нумба 0.54.1 библиотека NumPy 1.20.3 oauthlib 3.2.0
opt-einsum 3.3.0 упаковка 21,0 pandas 1.3.4
pandas-profiling 3.1.0 pandocfilters 1.4.3 paramiko 2.9.2
parso 0.8.2 спецификация пути 0.9.0 патия 0.6.2
простофиля 0.5.2 petastorm 0.11.4 pexpect 4.8.0
фик 0.12.2 pickleshare 0.7.5 Подушка 8.4.0
pip 21.2.4 platformdirs 2.5.2 график 5.9.0
pmdarima 1.8.5 предварительно обработанный 3.0.7 prometheus-client 0.11.0
prompt-toolkit 3.0.20 пророк 1.0.1 protobuf 3.19.4
psutil 5.8.0 psycopg2 2.9.3 ptyprocess 0.7.0
pyarrow 7.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.10.0 pycparser 2,20 pydantic 1.9.2
Pygments 2.10.0 PyGObject 3.36.0 PyJWT 2.5.0
PyMeeus 0.5.11 PyNaCl 1.5.0 pyodbc 4.0.31
pyparsing 3.0.4 pyrsistent 0.18.0 pystan 2.19.1.1
python-dateutil 2.8.2 редактор Python 1.0.4 pytz 2021.3
PyWavelets 1.1.1 PyYAML 6,0 pyzmq 22.2.1
regex 2021.8.3 запросы 2.26.0 requests-oauthlib 1.3.1
requests-unixsocket 0.2.0 rsa 4,9 s3transfer 0.5.2
scikit-learn 0.24.2 scipy 1.7.1 мореборн 0.11.3
Send2Trash 1.8.0 setuptools 58.0.4 setuptools-git 1.2
шап 0.41.0 simplejson 3.17.6 шесть 1.16.0
ломтерезка 0.0.7 smart-open 5.2.1 smmap 5.0.0
просторный 3.4.1 spacy-legacy 3.0.10 spacy-loggers 1.0.3
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.2 серьёзно 2.4.4
ssh-import-id 5,10 statsmodels 0.12.2 табулировать 0.8.9
запутанный-в-unicode 0.1.0 упорство 8.0.1 TensorBoard 2.9.1
tensorboard-data-server (сервер данных TensorBoard) 0.6.1 tensorboard-plugin-profile 2.8.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.9.1 tensorflow-estimator 2.9.0 tensorflow-io-gcs-filesystem 0.27.0
termcolor 2.0.1 завершено 0.9.4 тестпуть 0.5.0
thinc 8.1.2 threadpoolctl 2.2.0 tokenize-rt 4.2.1
токенизаторы 0.12.1 tomli 2.0.1 фонарик 1.12.1+цп
torchvision 0.13.1+цп tornado 6.1 tqdm 4.62.3
traitlets 5.1.0 Трансформаторы 4.21.2 typer 0.4.2
typing-extensions 3.10.0.2 ujson 4.0.2 автоматические обновления 0,1
urllib3 1.26.7 virtualenv 20.8.0 видения 0.7.4
васаби 0.10.1 wcwidth 0.2.5 вебкодировки 0.5.1
websocket-client 1.3.1 Werkzeug 2.0.2 колесо 0.37.0
widgetsnbextension 3.6.0 обёрнутый 1.12.1 XGBoost 1.6.2
молния 3.6.0

Библиотеки Python в кластерах GPU

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 1.0.0 argon2-cffi 20.1.0 astor 0.8.1
astunparse 1.6.3 асинхронный генератор 1,10 атрибуты 21.2.0
azure-core 1.22.1 azure-cosmos 4.2.0 обратный вызов 0.2.0
backports.entry-points-selectable 1.1.1 bcrypt 4.0.0 чёрный 22.3.0
отбеливатель 4.0.0 блаженство 0.7.8 boto3 1.21.18
botocore 1.24.18 cachetools 5.2.0 каталог 2.0.8
certifi 2021.10.8 cffi 1.14.6 chardet 4.0.0
charset-normalizer 2.0.4 щелчок 8.0.3 cloudpickle 2.0.0
cmdstanpy 0.9.68 кондитерские изделия 0.0.1 configparser (парсер конфигураций) 5.2.0
преобразовать дату 2.4.0 криптография 3.4.8 циклер 0.10.0
cymem 2.0.6 Cython 0.29.24 databricks-automl-runtime 0.2.11
databricks-cli 0.17.3 dbl-tempo 0.1.12 dbus-python 1.2.16
debugpy 1.4.1 декоратор 5.1.0 defusedxml 0.7.1
укроп 0.3.4 дисковый кэш 5.4.0 дистлиб 0.3.6
точки входа 0,3 ephem 4.1.3 обзор граней 1.0.0
fasttext 0.9.2 блокировка файла 3.3.1 Flask 1.1.2
flatbuffers 1.12 fsspec 2021.8.1 будущее 0.18.2
gast 0.4.0 gitdb 4.0.9 GitPython 3.1.27
google-auth 2.6.0 google-auth-oauthlib 0.4.6 гугл-паста 0.2.0
grpcio 1.44.0 gunicorn 20.1.0 gviz-api 1.10.0
h5py 3.3.0 hijri-converter 2.2.4 праздники 0,15
хоровод 0.25.0 htmlmin 0.1.12 huggingface-hub 0.9.1
idna 3.2 ImageHash 4.3.0 imbalanced-learn 0.8.1
importlib-metadata 4.8.1 ipykernel 6.12.1 ipython 7.32.0
ipython-genutils 0.2.0 ipywidgets 7.7.0 isodate 0.6.1
итсдейнджерос 2.0.1 джедай 0.18.0 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.5.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.8.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.9.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 корейский лунный календарь 0.3.1
языковые коды 3.3.0 libclang 14.0.6 lightgbm 3.3.2
llvmlite 0.37.0 Лунный календарь 0.0.9 Mako 1.2.0
Markdown 3.3.6 MarkupSafe 2.0.1 matplotlib 3.4.3
matplotlib-inline 0.1.2 missingno 0.5.1 mistune 0.8.4
mleap 0.20.0 mlflow-skinny 1.29.0 мультиметод 1,9
murmurhash 1.0.8 mypy-extensions 0.4.3 nbclient 0.5.3
nbconvert 6.1.0 nbformat 5.1.3 nest-asyncio 1.5.1
networkx 2.6.3 nltk 3.6.5 записная книжка 6.4.5
numba 0.54.1 numpy 1.20.3 oauthlib 3.2.0
opt-einsum 3.3.0 упаковка 21,0 pandas 1.3.4
pandas-profiling 3.1.0 pandocfilters 1.4.3 paramiko 2.9.2
parso 0.8.2 pathspec 0.9.0 патия 0.6.2
марионетка 0.5.2 petastorm 0.11.4 pexpect 4.8.0
phik 0.12.2 pickleshare 0.7.5 подушка 8.4.0
pip 21.2.4 platformdirs 2.5.2 plotly 5.9.0
pmdarima 1.8.5 нажат 3.0.7 prompt-toolkit 3.0.20
пророк 1.0.1 protobuf 3.19.4 psutil 5.8.0
psycopg2 2.9.3 ptyprocess 0.7.0 pyarrow 7.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.10.0
pycparser 2,20 pydantic 1.9.2 Pygments 2.10.0
PyGObject 3.36.0 PyJWT 2.5.0 PyMeeus 0.5.11
PyNaCl 1.5.0 pyodbc 4.0.31 pyparsing 3.0.4
pyrsistent 0.18.0 pystan 2.19.1.1 python-dateutil 2.8.2
редактор Python 1.0.4 pytz 2021.3 PyWavelets 1.1.1
PyYAML 6,0 pyzmq 22.2.1 regex 2021.8.3
запросы 2.26.0 requests-oauthlib 1.3.1 requests-unixsocket 0.2.0
rsa 4,9 s3transfer 0.5.2 scikit-learn (библиотека для машинного обучения в Python) 0.24.2
scipy 1.7.1 мореборн 0.11.3 Send2Trash 1.8.0
setuptools 58.0.4 setuptools-git 1.2 shap 0.41.0
simplejson 3.17.6 шесть 1.16.0 Среза 0.0.7
smart-open 5.2.1 smmap 5.0.0 просторный 3.4.1
spacy-legacy 3.0.10 spacy-loggers 1.0.3 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.2 серьёзно 2.4.4 ssh-import-id 5,10
statsmodels 0.12.2 табулировать 0.8.9 запутался в юникоде 0.1.0
упорство 8.0.1 tensorboard 2.9.1 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.8.0 tensorboard-plugin-wit (плагин для TensorBoard) 1.8.1 tensorflow 2.9.1
tensorflow-estimator 2.9.0 tensorflow-io-gcs-filesystem 0.27.0 termcolor 2.0.1
завершён 0.9.4 тестовый путь 0.5.0 thinc 8.1.2
threadpoolctl 2.2.0 tokenize-rt 4.2.1 токенизаторы 0.12.1
tomli 2.0.1 фонарь 1.12.1+cu113 torchvision 0.13.1+cu113
tornado 6.1 tqdm 4.62.3 traitlets 5.1.0
Трансформаторы 4.21.2 typer 0.4.2 расширения для набора текста 3.10.0.2
ujson 4.0.2 автоматические обновления (unattended-upgrades) 0,1 urllib3 1.26.7
virtualenv 20.8.0 видения 0.7.4 васаби 0.10.1
wcwidth 0.2.5 веб-кодировки 0.5.1 websocket-client 1.3.1
Werkzeug 2.0.2 колесо 0.37.0 widgetsnbextension 3.6.0
упакован 1.12.1 XGBoost 1.6.2 zipp 3.6.0

Библиотеки R

Библиотеки R идентичны библиотекам R в Databricks Runtime 11.3 LTS.

Библиотеки Java и Scala (кластер Scala 2.12)

Помимо библиотек Java и Scala в Databricks Runtime 11.3 LTS, Databricks Runtime 11.3 LTS ML содержит следующие JAR-файлы:

Кластеры ЦП

ИД группы Идентификатор артефакта Версия
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-spark_2.12 1.6.2
ml.dmlc xgboost4j_2.12 1.6.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.29.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Кластеры GPU

ИД группы Идентификатор артефакта Версия
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-gpu_2.12 1.6.2
ml.dmlc xgboost4j-spark-gpu_2.12 1.6.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.29.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0