Databricks Runtime 11.3 LTS для машинного обучения
Databricks Runtime 11.3 LTS для машинного обучения предоставляет готовую среду для машинного обучения и науки о данных на основе Databricks Runtime 11.3 LTS. Databricks Runtime ML содержит множество популярных библиотек машинного обучения, включая TensorFlow, PyTorch и XGBoost. Databricks Runtime ML включает AutoML – средство для автоматического обучения конвейеров машинного обучения. Databricks Runtime ML также поддерживает распределенное углубленное обучение с использованием Horovod.
Примечание.
LTS означает, что эта версия находится в долгосрочной поддержке. См. жизненный цикл версии Databricks Runtime LTS.
Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в статье ИИ и машинное обучение в Databricks.
Совет
Чтобы просмотреть заметки о выпуске версий Databricks Runtime, которые достигли окончания поддержки (EoS), см. Заметки о выпуске Databricks Runtime с окончанием поддержки. Версии среды выполнения EoS Databricks устарели и могут не обновляться.
Новые функции и внесенные улучшения
Databricks Runtime 11.3 LTS ML построен на основе Databricks Runtime 11.3 LTS. Сведения о новых возможностях Databricks Runtime 11.3 LTS, включая Apache Spark MLlib и SparkR, смотрите в заметках о выпуске Databricks Runtime 11.3 LTS.
Усовершенствования в AutoML
AutoML теперь поддерживает использование существующих таблиц признаков Feature Store в экспериментах AutoML. Дополнительные сведения см. в разделе "Интеграция с хранилищем компонентов AutoML".
Пробные записные книжки, созданные AutoML, теперь содержат фрагменты кода, позволяющие пользователям повторно запускать настройку гиперпараметров.
AutoML теперь поддерживает DecimalType
функции.
Исправления ошибок
Databricks Runtime 11.3 LTS ML включает обновленную версию sparkdl.xgboost
. Предыдущие версии sparkdl.xgboost
содержат ошибки, исправленные в этом выпуске, поэтому Databricks рекомендует пользователям библиотеки обновиться до Databricks Runtime 11.3 LTS ML.
Подготовка к будущим выпускам
Предстоящий выпуск Databricks Runtime ML будет включать sklearn
версию 1.0. Ознакомьтесь с документацией по подготовке sklearn
к этому изменению.
Databricks Runtime ML содержит два openblas
пакета. Пакет /opt/OpenBLAS
устарел в Databricks Runtime 11.3 LTS ML и будет удален в предстоящем выпуске.
Системная среда
Системная среда в Databricks Runtime 11.3 LTS ML отличается от Databricks Runtime 11.3 LTS следующим образом:
-
DBUtils: Databricks Runtime ML не включает служебную программу библиотеки (dbutils.library) (устаревшая версия).
Вместо нее используйте команды
%pip
. См. статью Библиотеки Python с областью действия записной книжки. - Для кластеров GPU Databricks Runtime ML включает следующие библиотеки GPU от NVIDIA:
- CUDA 11.3
- cuDNN 8.0.5.39
- NCCL 2.9.9
- TensorRT 7.2.2
Databricks Runtime 11.3 LTS ML включает XGBoost 1.6.1, который не поддерживает кластеры GPU с возможностями вычислений 5.2 и ниже.
Библиотеки
В следующих разделах перечислены библиотеки, включенные в Databricks Runtime 11.3 LTS ML, которые отличаются от библиотек, включенных в Databricks Runtime 11.3 LTS.
В этом разделе рассматриваются следующие вопросы.
- Библиотеки верхнего уровня
- Библиотеки Python
- Библиотеки R
- Библиотеки Java и Scala (кластер Scala 2.12)
Библиотеки верхнего уровня
Databricks Runtime 11.3 LTS ML включает следующие библиотеки верхнего уровня:
- GraphFrames
- Horovod и HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
- Scikit-learn
Библиотеки Python
Databricks Runtime 11.3 LTS ML использует Virtualenv для управления пакетами Python и включает множество популярных пакетов машинного обучения.
Помимо пакетов, указанных в следующих разделах, Databricks Runtime 11.3 LTS ML также включает следующие пакеты:
- hyperopt 0.2.7.db1
- sparkdl 2.3.0-db3
- feature_store 0.7.0
- automl 1.13.2
Чтобы воспроизвести python-среду Databricks Runtime ML в локальной виртуальной среде Python, скачайте файл requirements-11.3.txt и выполните команду pip install -r requirements-11.3.txt
. Эта команда устанавливает все библиотеки с открытым исходным кодом, которые использует Databricks Runtime ML, но не устанавливает библиотеки, разработанные Databricks, например databricks-automl
, databricks-feature-store
, или вилку Databricks hyperopt
.
Библиотеки Python в кластерах CPU
Библиотека | Версия | Библиотека | Версия | Библиотека | Версия |
---|---|---|---|---|---|
absl-py | 1.0.0 | argon2-cffi | 20.1.0 | Астор | 0.8.1 |
astunparse | 1.6.3 | асинхронный генератор | 1,10 | атрибуты | 21.2.0 |
azure-core | 1.22.1 | azure-cosmos | 4.2.0 | бэколл | 0.2.0 |
backports.entry-points-selectable | 1.1.1 | bcrypt | 4.0.0 | чёрный | 22.3.0 |
отбеливатель | 4.0.0 | блаженство | 0.7.8 | boto3 | 1.21.18 |
botocore | 1.24.18 | cachetools | 5.2.0 | каталог | 2.0.8 |
сертификат | 2021.10.8 | cffi | 1.14.6 | chardet | 4.0.0 |
charset-normalizer | 2.0.4 | щелчок | 8.0.3 | cloudpickle | 2.0.0 |
cmdstanpy | 0.9.68 | кондитерские изделия | 0.0.1 | configparser | 5.2.0 |
convertdate | 2.4.0 | криптография | 3.4.8 | циклёр | 0.10.0 |
cymem | 2.0.6 | Cython | 0.29.24 | databricks-automl-runtime | 0.2.11 |
databricks-cli | 0.17.3 | dbl-tempo | 0.1.12 | dbus-python | 1.2.16 |
debugpy | 1.4.1 | декоратор | 5.1.0 | defusedxml | 0.7.1 |
укроп | 0.3.4 | дисковый кэш | 5.4.0 | distlib | 0.3.6 |
точки входа | 0,3 | ephem | 4.1.3 | обзор граней | 1.0.0 |
FastText | 0.9.2 | блокировка файла | 3.3.1 | Flask | 1.1.2 |
flatbuffers | 1.12 | fsspec | 2021.8.1 | будущее | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.9 | GitPython | 3.1.27 |
google-auth | 2.6.0 | google-auth-oauthlib | 0.4.6 | google-pasta | 0.2.0 |
grpcio | 1.44.0 | gunicorn | 20.1.0 | gviz-api | 1.10.0 |
h5py | 3.3.0 | hijri-converter | 2.2.4 | праздники | 0,15 |
хоровод | 0.25.0 | htmlmin | 0.1.12 | huggingface-hub | 0.9.1 |
idna | 3.2 | ImageHash | 4.3.0 | Имбалансед-Лерн | 0.8.1 |
importlib-metadata | 4.8.1 | ipykernel | 6.12.1 | ipython | 7.32.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.7.0 | isodate | 0.6.1 |
itsdangerous | 2.0.1 | джедай | 0.18.0 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.5.0 |
jsonschema | 3.2.0 | Jupyter-client (клиент для Jupyter) | 6.1.12 | jupyter-core | 4.8.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.9.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | корейский лунный календарь | 0.3.1 |
коды языков | 3.3.0 | libclang | 14.0.6 | lightgbm | 3.3.2 |
llvmlite | 0.37.0 | Лунный календарь | 0.0.9 | Mako | 1.2.0 |
Markdown | 3.3.6 | MarkupSafe | 2.0.1 | matplotlib | 3.4.3 |
matplotlib-inline | 0.1.2 | missingno | 0.5.1 | mistune | 0.8.4 |
mleap | 0.20.0 | mlflow-skinny | 1.29.0 | мультиметод | 1,9 |
murmurhash | 1.0.8 | mypy-extensions | 0.4.3 | nbclient | 0.5.3 |
Перекодировщик nbconvert | 6.1.0 | nbformat | 5.1.3 | nest-asyncio | 1.5.1 |
networkx | 2.6.3 | nltk | 3.6.5 | записная книжка | 6.4.5 |
нумба | 0.54.1 | библиотека NumPy | 1.20.3 | oauthlib | 3.2.0 |
opt-einsum | 3.3.0 | упаковка | 21,0 | pandas | 1.3.4 |
pandas-profiling | 3.1.0 | pandocfilters | 1.4.3 | paramiko | 2.9.2 |
parso | 0.8.2 | спецификация пути | 0.9.0 | патия | 0.6.2 |
простофиля | 0.5.2 | petastorm | 0.11.4 | pexpect | 4.8.0 |
фик | 0.12.2 | pickleshare | 0.7.5 | Подушка | 8.4.0 |
pip | 21.2.4 | platformdirs | 2.5.2 | график | 5.9.0 |
pmdarima | 1.8.5 | предварительно обработанный | 3.0.7 | prometheus-client | 0.11.0 |
prompt-toolkit | 3.0.20 | пророк | 1.0.1 | protobuf | 3.19.4 |
psutil | 5.8.0 | psycopg2 | 2.9.3 | ptyprocess | 0.7.0 |
pyarrow | 7.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.10.0 | pycparser | 2,20 | pydantic | 1.9.2 |
Pygments | 2.10.0 | PyGObject | 3.36.0 | PyJWT | 2.5.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.5.0 | pyodbc | 4.0.31 |
pyparsing | 3.0.4 | pyrsistent | 0.18.0 | pystan | 2.19.1.1 |
python-dateutil | 2.8.2 | редактор Python | 1.0.4 | pytz | 2021.3 |
PyWavelets | 1.1.1 | PyYAML | 6,0 | pyzmq | 22.2.1 |
regex | 2021.8.3 | запросы | 2.26.0 | requests-oauthlib | 1.3.1 |
requests-unixsocket | 0.2.0 | rsa | 4,9 | s3transfer | 0.5.2 |
scikit-learn | 0.24.2 | scipy | 1.7.1 | мореборн | 0.11.3 |
Send2Trash | 1.8.0 | setuptools | 58.0.4 | setuptools-git | 1.2 |
шап | 0.41.0 | simplejson | 3.17.6 | шесть | 1.16.0 |
ломтерезка | 0.0.7 | smart-open | 5.2.1 | smmap | 5.0.0 |
просторный | 3.4.1 | spacy-legacy | 3.0.10 | spacy-loggers | 1.0.3 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.2 | серьёзно | 2.4.4 |
ssh-import-id | 5,10 | statsmodels | 0.12.2 | табулировать | 0.8.9 |
запутанный-в-unicode | 0.1.0 | упорство | 8.0.1 | TensorBoard | 2.9.1 |
tensorboard-data-server (сервер данных TensorBoard) | 0.6.1 | tensorboard-plugin-profile | 2.8.0 | tensorboard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.9.1 | tensorflow-estimator | 2.9.0 | tensorflow-io-gcs-filesystem | 0.27.0 |
termcolor | 2.0.1 | завершено | 0.9.4 | тестпуть | 0.5.0 |
thinc | 8.1.2 | threadpoolctl | 2.2.0 | tokenize-rt | 4.2.1 |
токенизаторы | 0.12.1 | tomli | 2.0.1 | фонарик | 1.12.1+цп |
torchvision | 0.13.1+цп | tornado | 6.1 | tqdm | 4.62.3 |
traitlets | 5.1.0 | Трансформаторы | 4.21.2 | typer | 0.4.2 |
typing-extensions | 3.10.0.2 | ujson | 4.0.2 | автоматические обновления | 0,1 |
urllib3 | 1.26.7 | virtualenv | 20.8.0 | видения | 0.7.4 |
васаби | 0.10.1 | wcwidth | 0.2.5 | вебкодировки | 0.5.1 |
websocket-client | 1.3.1 | Werkzeug | 2.0.2 | колесо | 0.37.0 |
widgetsnbextension | 3.6.0 | обёрнутый | 1.12.1 | XGBoost | 1.6.2 |
молния | 3.6.0 |
Библиотеки Python в кластерах GPU
Библиотека | Версия | Библиотека | Версия | Библиотека | Версия |
---|---|---|---|---|---|
absl-py | 1.0.0 | argon2-cffi | 20.1.0 | astor | 0.8.1 |
astunparse | 1.6.3 | асинхронный генератор | 1,10 | атрибуты | 21.2.0 |
azure-core | 1.22.1 | azure-cosmos | 4.2.0 | обратный вызов | 0.2.0 |
backports.entry-points-selectable | 1.1.1 | bcrypt | 4.0.0 | чёрный | 22.3.0 |
отбеливатель | 4.0.0 | блаженство | 0.7.8 | boto3 | 1.21.18 |
botocore | 1.24.18 | cachetools | 5.2.0 | каталог | 2.0.8 |
certifi | 2021.10.8 | cffi | 1.14.6 | chardet | 4.0.0 |
charset-normalizer | 2.0.4 | щелчок | 8.0.3 | cloudpickle | 2.0.0 |
cmdstanpy | 0.9.68 | кондитерские изделия | 0.0.1 | configparser (парсер конфигураций) | 5.2.0 |
преобразовать дату | 2.4.0 | криптография | 3.4.8 | циклер | 0.10.0 |
cymem | 2.0.6 | Cython | 0.29.24 | databricks-automl-runtime | 0.2.11 |
databricks-cli | 0.17.3 | dbl-tempo | 0.1.12 | dbus-python | 1.2.16 |
debugpy | 1.4.1 | декоратор | 5.1.0 | defusedxml | 0.7.1 |
укроп | 0.3.4 | дисковый кэш | 5.4.0 | дистлиб | 0.3.6 |
точки входа | 0,3 | ephem | 4.1.3 | обзор граней | 1.0.0 |
fasttext | 0.9.2 | блокировка файла | 3.3.1 | Flask | 1.1.2 |
flatbuffers | 1.12 | fsspec | 2021.8.1 | будущее | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.9 | GitPython | 3.1.27 |
google-auth | 2.6.0 | google-auth-oauthlib | 0.4.6 | гугл-паста | 0.2.0 |
grpcio | 1.44.0 | gunicorn | 20.1.0 | gviz-api | 1.10.0 |
h5py | 3.3.0 | hijri-converter | 2.2.4 | праздники | 0,15 |
хоровод | 0.25.0 | htmlmin | 0.1.12 | huggingface-hub | 0.9.1 |
idna | 3.2 | ImageHash | 4.3.0 | imbalanced-learn | 0.8.1 |
importlib-metadata | 4.8.1 | ipykernel | 6.12.1 | ipython | 7.32.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.7.0 | isodate | 0.6.1 |
итсдейнджерос | 2.0.1 | джедай | 0.18.0 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.5.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.8.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.9.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | корейский лунный календарь | 0.3.1 |
языковые коды | 3.3.0 | libclang | 14.0.6 | lightgbm | 3.3.2 |
llvmlite | 0.37.0 | Лунный календарь | 0.0.9 | Mako | 1.2.0 |
Markdown | 3.3.6 | MarkupSafe | 2.0.1 | matplotlib | 3.4.3 |
matplotlib-inline | 0.1.2 | missingno | 0.5.1 | mistune | 0.8.4 |
mleap | 0.20.0 | mlflow-skinny | 1.29.0 | мультиметод | 1,9 |
murmurhash | 1.0.8 | mypy-extensions | 0.4.3 | nbclient | 0.5.3 |
nbconvert | 6.1.0 | nbformat | 5.1.3 | nest-asyncio | 1.5.1 |
networkx | 2.6.3 | nltk | 3.6.5 | записная книжка | 6.4.5 |
numba | 0.54.1 | numpy | 1.20.3 | oauthlib | 3.2.0 |
opt-einsum | 3.3.0 | упаковка | 21,0 | pandas | 1.3.4 |
pandas-profiling | 3.1.0 | pandocfilters | 1.4.3 | paramiko | 2.9.2 |
parso | 0.8.2 | pathspec | 0.9.0 | патия | 0.6.2 |
марионетка | 0.5.2 | petastorm | 0.11.4 | pexpect | 4.8.0 |
phik | 0.12.2 | pickleshare | 0.7.5 | подушка | 8.4.0 |
pip | 21.2.4 | platformdirs | 2.5.2 | plotly | 5.9.0 |
pmdarima | 1.8.5 | нажат | 3.0.7 | prompt-toolkit | 3.0.20 |
пророк | 1.0.1 | protobuf | 3.19.4 | psutil | 5.8.0 |
psycopg2 | 2.9.3 | ptyprocess | 0.7.0 | pyarrow | 7.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.10.0 |
pycparser | 2,20 | pydantic | 1.9.2 | Pygments | 2.10.0 |
PyGObject | 3.36.0 | PyJWT | 2.5.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.5.0 | pyodbc | 4.0.31 | pyparsing | 3.0.4 |
pyrsistent | 0.18.0 | pystan | 2.19.1.1 | python-dateutil | 2.8.2 |
редактор Python | 1.0.4 | pytz | 2021.3 | PyWavelets | 1.1.1 |
PyYAML | 6,0 | pyzmq | 22.2.1 | regex | 2021.8.3 |
запросы | 2.26.0 | requests-oauthlib | 1.3.1 | requests-unixsocket | 0.2.0 |
rsa | 4,9 | s3transfer | 0.5.2 | scikit-learn (библиотека для машинного обучения в Python) | 0.24.2 |
scipy | 1.7.1 | мореборн | 0.11.3 | Send2Trash | 1.8.0 |
setuptools | 58.0.4 | setuptools-git | 1.2 | shap | 0.41.0 |
simplejson | 3.17.6 | шесть | 1.16.0 | Среза | 0.0.7 |
smart-open | 5.2.1 | smmap | 5.0.0 | просторный | 3.4.1 |
spacy-legacy | 3.0.10 | spacy-loggers | 1.0.3 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.2 | серьёзно | 2.4.4 | ssh-import-id | 5,10 |
statsmodels | 0.12.2 | табулировать | 0.8.9 | запутался в юникоде | 0.1.0 |
упорство | 8.0.1 | tensorboard | 2.9.1 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-profile | 2.8.0 | tensorboard-plugin-wit (плагин для TensorBoard) | 1.8.1 | tensorflow | 2.9.1 |
tensorflow-estimator | 2.9.0 | tensorflow-io-gcs-filesystem | 0.27.0 | termcolor | 2.0.1 |
завершён | 0.9.4 | тестовый путь | 0.5.0 | thinc | 8.1.2 |
threadpoolctl | 2.2.0 | tokenize-rt | 4.2.1 | токенизаторы | 0.12.1 |
tomli | 2.0.1 | фонарь | 1.12.1+cu113 | torchvision | 0.13.1+cu113 |
tornado | 6.1 | tqdm | 4.62.3 | traitlets | 5.1.0 |
Трансформаторы | 4.21.2 | typer | 0.4.2 | расширения для набора текста | 3.10.0.2 |
ujson | 4.0.2 | автоматические обновления (unattended-upgrades) | 0,1 | urllib3 | 1.26.7 |
virtualenv | 20.8.0 | видения | 0.7.4 | васаби | 0.10.1 |
wcwidth | 0.2.5 | веб-кодировки | 0.5.1 | websocket-client | 1.3.1 |
Werkzeug | 2.0.2 | колесо | 0.37.0 | widgetsnbextension | 3.6.0 |
упакован | 1.12.1 | XGBoost | 1.6.2 | zipp | 3.6.0 |
Библиотеки R
Библиотеки R идентичны библиотекам R в Databricks Runtime 11.3 LTS.
Библиотеки Java и Scala (кластер Scala 2.12)
Помимо библиотек Java и Scala в Databricks Runtime 11.3 LTS, Databricks Runtime 11.3 LTS ML содержит следующие JAR-файлы:
Кластеры ЦП
ИД группы | Идентификатор артефакта | Версия |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | v0.20.0-db1 |
ml.dmlc | xgboost4j-spark_2.12 | 1.6.2 |
ml.dmlc | xgboost4j_2.12 | 1.6.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.29.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Кластеры GPU
ИД группы | Идентификатор артефакта | Версия |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | v0.20.0-db1 |
ml.dmlc | xgboost4j-gpu_2.12 | 1.6.2 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.6.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.29.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |