Поделиться через


Databricks Runtime 12.2 LTS для машинного обучения

Databricks Runtime 12.2 LTS для машинного обучения предоставляет готовую среду для машинного обучения и науки о данных на основе Databricks Runtime 12.2 LTS. Databricks Runtime ML содержит множество популярных библиотек машинного обучения, включая TensorFlow, PyTorch и XGBoost. Databricks Runtime ML включает AutoML – средство для автоматического обучения конвейеров машинного обучения. Databricks Runtime ML также поддерживает распределенное углубленное обучение с использованием Horovod.

Примечание.

LTS означает, что эта версия находится в долгосрочной поддержке. См. жизненный цикл версий LTS среды выполнения Databricks.

Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в статье ИИ и машинное обучение в Databricks.

Совет

Чтобы ознакомиться с заметками о выпуске версий Databricks Runtime, которые достигли окончания поддержки (EoS), см. Заметки о выпуске Databricks Runtime, завершивших поддержку. Версии среды выполнения EoS Databricks устарели и могут не обновляться.

Новые функции и внесенные улучшения

Databricks Runtime 12.2 LTS ML построен на основе Databricks Runtime 12.2 LTS. Сведения о новых возможностях Databricks Runtime 12.2 LTS, включая Apache Spark MLlib и SparkR, см. в заметках о выпуске Databricks Runtime 12.2 LTS .

AutoML (автоматизированное машинное обучение)

Существующие таблицы функций можно использовать в хранилище компонентов для расширения исходного входного набора данных для проблем прогнозирования AutoML. Дополнительные сведения см. в разделе "Интеграция с хранилищем компонентов AutoML".

Дополнительные сведения об AutoML см. в разделе "Что такое AutoML?".

Системная среда

Системная среда в Databricks Runtime 12.2 LTS ML отличается от Databricks Runtime 12.2 LTS следующим образом:

Databricks Runtime 12.2 LTS ML включает XGBoost 1.7.2, который не поддерживает кластеры GPU с возможностями вычислений 5.2 и ниже.

Библиотеки

В следующих разделах перечислены библиотеки, включенные в Databricks Runtime 12.2 LTS ML, которые отличаются от библиотек, включенных в Databricks Runtime 12.2 LTS.

В этом разделе рассматриваются следующие вопросы.

Библиотеки верхнего уровня

Databricks Runtime 12.2 LTS ML включает следующие библиотеки верхнего уровня:

Библиотеки Python

Databricks Runtime 12.2 LTS ML использует Virtualenv для управления пакетами Python и включает множество популярных пакетов машинного обучения.

Помимо пакетов, указанных в следующих разделах, Databricks Runtime 12.2 LTS ML также включает следующие пакеты:

  • Hyperopt 0.2.7+db3
  • sparkdl 2.3.0-db3
  • automl 1.16.0

Чтобы воспроизвести среду Python в среде выполнения Databricks Runtime ML в вашей локальной виртуальной среде Python, скачайте файл requirements-12.2.txt и выполните pip install -r requirements-12.2.txt. Эта команда устанавливает все библиотеки с открытым исходным кодом, которые использует Databricks Runtime ML, но не устанавливает библиотеки, разработанные Databricks, например databricks-automl, databricks-feature-store, или форк Databricks hyperopt.

Библиотеки Python в кластерах CPU

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 1.0.0 argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0
astor 0.8.1 asttokens 2.0.5 astunparse 1.6.3
атрибуты 21.4.0 azure-core 1.26.3 azure-cosmos 4.2.0
обратный вызов 0.2.0 backports.entry-points-selectable 1.2.0 bcrypt 3.2.0
beautifulsoup4 4.11.1 черный 22.3.0 отбеливатель 4.1.0
blis 0.7.9 boto3 1.21.32 botocore 1.24.32
cachetools 4.2.2 каталог 2.0.8 кодировщики категорий 2.5.1.post0
сертификат 2021.10.8 cffi 1.15.0 chardet 4.0.0
charset-normalizer 2.0.4 щелчок 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.1.0 кондитерское изделие 0.0.4 configparser 5.2.0
преобразовать дату 2.4.0 криптография 3.4.8 циклер 0.11.0
cymem 2.0.7 Cython 0.29.28 databricks-automl-runtime 0.2.15
databricks-cli 0.17.4 databricks-feature-store 0.10.0 dbl-tempo 0.1.12
dbus-python 1.2.16 debugpy 1.5.1 декоратор 5.1.1
defusedxml 0.7.1 укроп 0.3.4 diskcache 5.4.0
distlib 0.3.6 docstring-to-markdown 0,11 точки входа 0,4
ephem 4.1.4 выполнение 0.8.3 обзор аспектов 1.0.0
fastjsonschema 2.16.2 fasttext 0.9.2 файловый замок 3.6.0
Flask 1.1.2 flatbuffers 23.1.21 шрифтовые инструменты 4.25.0
fsspec 2022.2.0 будущее 0.18.2 gast 0.4.0
gitdb 4.0.10 GitPython 3.1.27 google-auth 1.33.0
google-auth-oauthlib 0.4.6 гугл-паста 0.2.0 grpcio 1.42.0
gunicorn 20.1.0 gviz-api 1.10.0 h5py 3.6.0
hijri-converter 2.2.4 праздники 0,18 хоровод 0.27.0
htmlmin 0.1.12 платформа huggingface-hub 0.12.0 idna 3,3
ImageHash 4.3.1 imbalanced-learn (библиотека для работы с несбалансированными данными) 0.10.1 importlib-metadata 4.11.3
ipykernel 6.15.3 ipython 8.5.0 ipython-genutils 0.2.0
ipywidgets 7.7.2 isodate 0.6.1 itsdangerous 2.0.1
джедай 0.18.1 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.1.1 joblibspark 0.5.1 jsonschema 4.4.0
jupyter-клиент 6.1.12 jupyter_core 4.11.2 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 библиотека Keras для машинного обучения 2.11.0 kiwisolver 1.3.2
корейский лунный календарь 0.3.1 языковые коды 3.3.0 libclang 15.0.6.1
lightgbm 3.3.4 llvmlite 0.38.0 Лунный календарь 0.0.9
Mako 1.2.0 Markdown 3.3.4 MarkupSafe 2.0.1
matplotlib 3.5.1 matplotlib-inline 0.1.2 Маккейб 0.7.0
неправильная настройка 0.8.4 mleap 0.20.0 mlflow-skinny (упрощённая версия пакета mlflow) 2.1.1
мультиметод 1.9.1 мурмурхэш 1.0.9 mypy-extensions 0.4.3
nbclient 0.5.13 nbconvert 6.4.4 nbformat 5.3.0
nest-asyncio 1.5.5 networkx 2.7.1 nltk 3,7
nodeenv 1.7.0 записная книжка 6.4.8 нумба 0.55.1
numpy 1.21.5 oauthlib 3.2.0 opt-einsum 3.3.0
упаковка 21,3 pandas 1.4.2 pandas-profiling 3.6.2
pandocfilters 1.5.0 paramiko 2.9.2 парсо 0.8.3
спецификация пути 0.9.0 патия 0.10.1 простофиля 0.5.2
petastorm 0.12.1 pexpect 4.8.0 phik 0.12.3
pickleshare 0.7.5 Подушка 9.0.1 pip 21.2.4
platformdirs 2.6.2 график 5.6.0 pluggy 1.0.0
pmdarima 2.0.2 пресед 3.0.8 prometheus-client 0.13.1
prompt-toolkit 3.0.20 пророк 1.1.1 protobuf 3.19.4
psutil 5.8.0 psycopg2 2.9.3 ptyprocess 0.7.0
пьюр-эвэл 0.2.2 pyarrow 7.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.10.3 pycparser 2.21
pydantic 1.10.2 pyflakes 2.5.0 Pygments 2.11.2
PyGObject 3.36.0 PyJWT 2.6.0 PyMeeus 0.5.12
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing 3.0.4
pyright 1.1.283 pyrsistent 0.18.0 python-dateutil (библиотека для работы с датами и временем в Python) 2.8.2
Питон-редактор 1.0.4 python-lsp-jsonrpc 1.0.0 python-lsp-server 1.6.0
pytz 2021.3 PyWavelets 1.3.0 PyYAML 6,0
pyzmq 22.3.0 regex 2022.3.15 запросы 2.27.1
requests-oauthlib 1.3.1 requests-unixsocket 0.2.0 верёвка 0.22.0
rsa 4.7.2 s3transfer 0.5.0 scikit-learn 1.0.2
scipy 1.7.3 мореборн 0.11.2 Send2Trash 1.8.0
setuptools 61.2.0 setuptools-git 1.2 Библиотека SHAP 0.41.0
simplejson 3.17.6 шесть 1.16.0 ломтерезка 0.0.7
smart-open 5.2.1 smmap 5.0.0 soupsieve 2.3.1
спейси 3.4.4 spacy-legacy 3.0.12 spacy-loggers (модуль для ведения журналов SpaCy) 1.0.4
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.2 srsly 2.4.5
ssh-import-id 5,10 стек данных 0.2.0 statsmodels 0.13.2
табулировать 0.8.9 запутанный-в-юникоде 0.2.0 настойчивость 8.0.1
tensorboard 2.11.2 tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.11.1
tensorboard-plugin-wit 1.8.1 tensorflow-cpu 2.11.0 модуль tensorflow-estimator 2.11.0
tensorflow-io-gcs-filesystem 0.30.0 termcolor 2.2.0 завершено 0.13.1
тестовый путь 0.5.0 thinc 8.1.7 threadpoolctl 2.2.0
tokenize-rt 4.2.1 токенизаторы 0.13.2 tomli 1.2.2
факел 1.13.1+ЦП torchvision 0.14.1+CPU tornado 6.1
tqdm 4.64.0 traitlets 5.1.1 Трансформаторы 4.25.1
typeguard 2.13.3 typer 0.7.0 typing_extensions 4.1.1
ujson 5.1.0 автоматические обновления 0,1 urllib3 1.26.9
virtualenv 20.8.0 видения 0.7.5 васаби 0.10.1
wcwidth 0.2.5 веб-энкодинги 0.5.1 websocket-клиент 0.58.0
Werkzeug 2.0.3 whatthepatch 1.0.4 колесо 0.37.1
widgetsnbextension 3.6.1 окутанный 1.12.1 XGBoost 1.7.2
yapf 0.31.0 зипп 3.7.0

Библиотеки Python в кластерах GPU

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 1.0.0 argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0
astor 0.8.1 asttokens 2.0.5 astunparse 1.6.3
атрибуты 21.4.0 azure-core 1.26.3 azure-cosmos 4.2.0
обратный вызов 0.2.0 backports.entry-points-selectable 1.2.0 bcrypt 3.2.0
beautifulsoup4 4.11.1 черный 22.3.0 отбеливатель 4.1.0
blis 0.7.9 boto3 1.21.32 botocore 1.24.32
cachetools 4.2.2 каталог 2.0.8 кодировщики категорий 2.5.1.post0
сертификат 2021.10.8 cffi 1.15.0 chardet 4.0.0
charset-normalizer 2.0.4 щелчок 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.1.0 кондитерское изделие 0.0.4 configparser (конфигурационный парсер) 5.2.0
convertdate 2.4.0 криптография 3.4.8 cycler 0.11.0
cymem 2.0.7 Cython 0.29.28 databricks-automl-runtime 0.2.15
databricks-cli 0.17.4 databricks-feature-store 0.10.0 dbl-tempo 0.1.12
dbus-python 1.2.16 debugpy 1.5.1 декоратор 5.1.1
defusedxml 0.7.1 укроп 0.3.4 дисковый кеш 5.4.0
distlib 0.3.6 Докстринг в Markdown 0,11 входные точки 0,4
эфем 4.1.4 выполнение 0.8.3 обзор граней 1.0.0
fastjsonschema 2.16.2 fasttext 0.9.2 блокировка файла 3.6.0
Flask 1.1.2 flatbuffers 23.1.21 шрифтовые инструменты 4.25.0
fsspec 2022.2.0 будущее 0.18.2 gast 0.4.0
gitdb 4.0.10 GitPython 3.1.27 google-auth 1.33.0
google-auth-oauthlib 0.4.6 Google-паста 0.2.0 grpcio 1.42.0
gunicorn 20.1.0 gviz-api 1.10.0 h5py 3.6.0
hijri-converter 2.2.4 праздники 0,18 хоровод 0.27.0
htmlmin 0.1.12 huggingface-hub 0.12.0 idna 3,3
ImageHash 4.3.1 imbalanced-learn 0.10.1 importlib-metadata 4.11.3
ipykernel 6.15.3 ipython 8.5.0 ipython-genutils 0.2.0
ipywidgets 7.7.2 isodate 0.6.1 itsdangerous 2.0.1
джедай 0.18.1 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.1.1 joblibspark 0.5.1 jsonschema 4.4.0
jupyter-client 6.1.12 jupyter_core 4.11.2 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.11.0 kiwisolver 1.3.2
корейский лунный календарь 0.3.1 коды языков 3.3.0 libclang 15.0.6.1
lightgbm 3.3.4 llvmlite 0.38.0 Лунный календарь 0.0.9
Mako 1.2.0 Markdown 3.3.4 MarkupSafe 2.0.1
matplotlib 3.5.1 matplotlib-inline 0.1.2 Маккейб 0.7.0
мистюн 0.8.4 mleap 0.20.0 mlflow-skinny 2.1.1
мультиметод 1.9.1 murmurhash 1.0.9 mypy-extensions 0.4.3
nbclient 0.5.13 nbconvert 6.4.4 nbformat 5.3.0
nest-asyncio 1.5.5 networkx 2.7.1 nltk 3,7
nodeenv 1.7.0 записная книжка 6.4.8 numba 0.55.1
numpy 1.21.5 oauthlib 3.2.0 opt-einsum 3.3.0
упаковка 21,3 pandas 1.4.2 pandas-profiling 3.6.2
pandocfilters 1.5.0 paramiko 2.9.2 parso 0.8.3
спецификация пути 0.9.0 pathy 0.10.1 марионетка 0.5.2
petastorm 0.12.1 pexpect библиотека для автоматизации приложений 4.8.0 phik 0.12.3
pickleshare 0.7.5 Подушка 9.0.1 pip 21.2.4
platformdirs 2.6.2 plotly 5.6.0 pluggy 1.0.0
pmdarima 2.0.2 It is not possible to provide an improved translation without further context or a correct form of the term "preshed." 3.0.8 prompt-toolkit 3.0.20
пророк 1.1.1 protobuf 3.19.4 psutil 5.8.0
psycopg2 2.9.3 ptyprocess 0.7.0 Pure-eval 0.2.2
pyarrow 7.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.10.3 pycparser 2.21 pydantic 1.10.2
pyflakes 2.5.0 Pygments 2.11.2 PyGObject 3.36.0
PyJWT 2.6.0 PyMeeus 0.5.12 PyNaCl 1.5.0
pyodbc 4.0.32 pyparsing 3.0.4 pyright 1.1.283
pyrsistent 0.18.0 python-dateutil 2.8.2 редактор Python 1.0.4
python-lsp-jsonrpc 1.0.0 python-lsp-server 1.6.0 pytz 2021.3
PyWavelets 1.3.0 PyYAML 6,0 pyzmq 22.3.0
regex 2022.3.15 запросы 2.27.1 requests-oauthlib 1.3.1
requests-unixsocket 0.2.0 верёвка 0.22.0 rsa 4.7.2
s3transfer 0.5.0 scikit-learn 1.0.2 scipy 1.7.3
мореборн 0.11.2 Send2Trash 1.8.0 setuptools 61.2.0
setuptools-git 1.2 shap 0.41.0 simplejson 3.17.6
шесть 1.16.0 Слайсер 0.0.7 smart-open 5.2.1
smmap 5.0.0 сито для супа 2.3.1 спейси 3.4.4
spacy-legacy 3.0.12 spacy-loggers 1.0.4 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.2 серьёзно? 2.4.5 ssh-import-id 5,10
stack-data 0.2.0 statsmodels 0.13.2 табулировать 0.8.9
запутанный-в-юникоде 0.2.0 упорство 8.0.1 tensorboard (инструмент для визуализации метрик в машинном обучении) 2.11.2
TensorBoard Data Server 0.6.1 плагин профилирования для TensorBoard 2.11.1 tensorboard-plugin-wit 1.8.1
tensorflow 2.11.0 tensorflow-оценщик 2.11.0 tensorflow-io-gcs-filesystem 0.30.0
termcolor 2.2.0 завершено 0.13.1 тестовый путь 0.5.0
thinc 8.1.7 threadpoolctl 2.2.0 tokenize-rt 4.2.1
токенизаторы 0.13.2 tomli 1.2.2 фонарик / факел 1.13.1+cu117
torchvision 0.14.1+cu117 tornado 6.1 tqdm 4.64.0
traitlets 5.1.1 Трансформаторы 4.25.1 typeguard 2.13.3
typer 0.7.0 typing_extensions 4.1.1 ujson 5.1.0
автоматические обновления 0,1 urllib3 1.26.9 virtualenv 20.8.0
видения 0.7.5 васаби 0.10.1 wcwidth 0.2.5
веб-кодировки 0.5.1 websocket-клиент 0.58.0 Werkzeug 2.0.3
whatthepatch 1.0.4 колесо 0.37.1 widgetsnbextension 3.6.1
wrapt 1.12.1 XGBoost 1.7.2 yapf 0.31.0
zipp 3.7.0

Библиотеки R

Библиотеки R идентичны библиотекам R в Databricks Runtime 12.2 LTS.

Библиотеки Java и Scala (кластер Scala 2.12)

Помимо библиотек Java и Scala в Databricks Runtime 12.2 LTS, Databricks Runtime 12.2 LTS ML содержит следующие JARs:

Кластеры ЦП

Идентификатор группы Идентификатор артефакта Версия
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-spark_2.12 1.7.3
ml.dmlc xgboost4j_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 2.1.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Кластеры GPU

ИД группы Идентификатор артефакта Версия
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-gpu_2.12 1.7.3
ml.dmlc xgboost4j-spark-gpu_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 2.1.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0