Поделиться через


Databricks Runtime 14.0 для машинного обучения (EoS)

Примечание.

Поддержка этой версии databricks Runtime закончилась. Сведения о дате окончания поддержки см. в истории завершения поддержки. Все поддерживаемые версии среды выполнения Databricks см. в заметках о выпуске Databricks Runtime и совместимости.

Databricks Runtime 14.0 для машинного обучения предоставляет готовую среду для машинного обучения и науки о данных на основе Databricks Runtime 14.0 (EoS). Databricks Runtime ML содержит множество популярных библиотек машинного обучения, включая TensorFlow, PyTorch и XGBoost. Databricks Runtime ML включает AutoML – средство для автоматического обучения конвейеров машинного обучения. Databricks Runtime ML также поддерживает распределенное углубленное обучение с использованием Horovod.

Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в статье ИИ и машинное обучение в Databricks.

Новые функции и внесенные улучшения

Databricks Runtime 14.0 ML построен на основе Databricks Runtime 14.0. Для получения информации о новых возможностях в Databricks Runtime 14.0, включая Apache Spark MLlib и SparkR, см. в записках о выпуске Databricks Runtime 14.0 (EoS).

Системная среда

Системная среда в Databricks Runtime 14.0 ML отличается от Databricks Runtime 14.0 следующим образом:

Databricks Runtime 14.0 ML включает XGBoost 1.7.6, который не поддерживает кластеры GPU с возможностями вычислений 5.2 и ниже.

В Databricks Runtime Runtime 14.0 ML были удалены следующие пакеты, включенные в предыдущие версии Databricks Runtime:

  • miniconda
  • MLeap

Библиотеки

В следующих разделах перечислены библиотеки, включенные в Databricks Runtime 14.0 ML, которые отличаются от библиотек, включенных в Databricks Runtime 14.0.

В этом разделе рассматриваются следующие вопросы.

Библиотеки верхнего уровня

Databricks Runtime 14.0 ML включает следующие библиотеки верхнего уровня:

Библиотеки Python

Databricks Runtime 14.0 ML использует Virtualenv для управления пакетами Python и включает множество популярных пакетов машинного обучения.

Помимо пакетов, указанных в следующих разделах, Databricks Runtime 14.0 ML также включает следующие пакеты:

  • Hyperopt 0.2.7+db4
  • sparkdl 3.0.0_db1
  • automl 1.21.1

Чтобы воспроизвести среду Python для машинного обучения Databricks Runtime в вашей локальной виртуальной среде Python, скачайте файл requirements-14.0.txt и запустите pip install -r requirements-14.0.txt. Эта команда устанавливает все библиотеки с открытым исходным кодом, которые использует Databricks Runtime ML, но не устанавливает библиотеки, разработанные Databricks, например databricks-automl, databricks-feature-store, или форк Databricks hyperopt.

Библиотеки Python в кластерах CPU

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 1.0.0 ускорить 0.21.0 aiohttp 3.8.5
aiosignal 1.3.1 anyio 3.5.0 appdirs 1.4.4
argon2-cffi 21.3.0 Привязки argon2-cffi 21.2.0 astor 0.8.1
asttokens 2.0.5 astunparse 1.6.3 async-timeout 4.0.3
атрибуты 22.1.0 аудиочтение 3.0.0 azure-core 1.29.1
azure-cosmos 4.3.1 хранилище Azure Blob 12.17.0 Azure Storage: файловое хранилище Data Lake 12.12.0
обратный вызов 0.2.0 bcrypt 3.2.0 beautifulsoup4 4.11.1
черный 22.6.0 отбеливатель 4.1.0 поворотник 1.4
блаженство 0.7.10 boto3 1.24.28 botocore 1.27.96
cachetools 5.3.1 каталог 2.0.9 кодировщики категорий 2.6.1
сертификат 2022.12.7 cffi 1.15.1 chardet 4.0.0
charset-normalizer 2.0.4 щелчок 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.1.0 comm 0.1.2 кондитерские изделия 0.1.1
configparser 5.2.0 контурная диаграмма 1.0.5 convertdate 2.4.0
криптография 39.0.1 циклер 0.11.0 cymem 2.0.7
Cython 0.29.32 дацит 1.8.1 databricks-automl-runtime 0.2.18
databricks-cli 0.17.7 databricks-feature-store 0.14.1 databricks-sdk 0.1.6
dataclasses-json 0.5.14 наборы данных 2.14.1 dbl-tempo 0.1.23
dbus-python 1.2.18 debugpy 1.6.7 декоратор 5.1.1
DeepSpeed 0.10.0 defusedxml 0.7.1 укроп 0.3.6
диск-кэш 5.6.1 distlib 0.3.7 docstring-to-markdown 0,11
входные точки 0,4 ephem 4.1.4 оценивать 0.4.0
выполнение 0.8.3 Обзор граней 1.1.1 fastapi 0.98.0
fastjsonschema 2.18.0 Фасттекст 0.9.2 блокировка файла 3.9.0
Flask 2.2.5 flatbuffers 23.5.26 шрифтовые инструменты 4.25.0
замороженный список 1.4.0 fsspec 2022.11.0 будущее 0.18.3
gast 0.4.0 Библиотека среды выполнения GCC 1.10.0 gitdb 4.0.10
GitPython 3.1.27 google-api-core 2.11.1 google-auth 2.21.0
google-auth-oauthlib 1.0.0 google-cloud-core 2.3.3 гугл-клауд-сторидж 2.10.0
google-crc32c 1.5.0 гугл-паста 0.2.0 google-resumable-media (средства с возобновляемыми носителями Google) 2.5.0
googleapis-common-protos 1.60.0 гринлет 2.0.1 grpcio 1.48.2
grpcio-status 1.48.1 gunicorn 20.1.0 интерфейс программирования приложений gviz 1.10.0
h11 0.14.0 h5py 3.7.0 hjson 3.1.0
праздники 0,28 horovod 0.28.1 htmlmin 0.1.12
httplib2 0.20.2 инструменты для HTTP 0.6.0 huggingface-hub 0.14.1
idna 3,4 ImageHash 4.3.1 imbalanced-learn (библиотека для работы с несбалансированными данными) 0.10.1
importlib-metadata 4.11.3 importlib-resources 6.0.1 ipykernel 6.25.0
ipython 8.14.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 itsdangerous 2.0.1 джедай 0.18.1
jeepney 0.7.1 Jinja2 3.1.2 jmespath 0.10.0
joblib 1.2.0 joblibspark 0.5.1 jsonschema 4.17.3
jupyter-client 7.3.4 jupyter-server 1.23.4 jupyter_core 5.2.0
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.13.1
нажатие клавиш 23.5.0 kiwisolver 1.4.4 langchain 0.0.225
langchainplus-sdk 0.0.20 языковые коды 3.3.0 launchpadlib 1.10.16
lazr.restfulclient 0.14.4 lazr.uri 1.0.6 ленивый_загрузчик 0,3
libclang 15.0.6.1 librosa 0.10.0 lightgbm 3.3.5
llvmlite 0.39.1 Лунный календарь 0.0.9 lxml 4.9.1
Mako 1.2.0 Markdown 3.4.1 MarkupSafe 2.1.1
зефир 3.20.1 matplotlib 3.7.0 matplotlib-inline 0.1.6
Маккейб 0.7.0 мистюн 0.8.4 mlflow-skinny 2.5.0
more-itertools 8.10.0 mpmath 1.2.1 msgpack 1.0.5
мультидикт 6.0.4 мультиметод 1.9.1 многопроцессная обработка 0.70.14
murmurhash 1.0.9 mypy-extensions 0.4.3 nbclassic 0.5.2
nbclient 0.5.13 nbconvert 6.5.4 nbformat 5.7.0
nest-asyncio 1.5.6 networkx 2.8.4 ninja 1.11.1
nltk 3,7 nodeenv 1.8.0 записная книжка 6.5.2
notebook_shim 0.2.2 нумба 0.56.4 numexpr 2.8.4
numpy 1.23.5 oauthlib 3.2.0 openai 0.27.8
openapi-schema-pydantic 1.2.4 opt-einsum 3.3.0 упаковка 22,0
pandas 1.5.3 pandocfilters 1.5.0 paramiko 2.9.2
парсо 0.8.3 спецификация пути 0.10.3 патия 0.10.2
простофиля 0.5.3 petastorm 0.12.1 pexpect 4.8.0
phik 0.12.3 pickleshare 0.7.5 Подушка 9.4.0
pip 22.3.1 platformdirs 2.5.2 график 5.9.0
pluggy 1.0.0 pmdarima 2.0.3 пёс 1.4.0
нажаты 3.0.8 prometheus-client 0.14.1 prompt-toolkit 3.0.36
пророк 1.1.4 protobuf 4.24.0 psutil 5.9.0
psycopg2 2.9.3 ptyprocess 0.7.0 pure-eval 0.2.2
py-cpuinfo 9.0.0 pyarrow 8.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.11.1 pycparser 2.21
pydantic 1.10.6 pyflakes 3.0.1 Pygments 2.11.2
PyGObject 3.42.1 PyJWT 2.3.0 PyMeeus 0.5.12
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing 3.0.9
pyright 1.1.294 pyrsistent 0.18.0 pytesseract 0.3.10
python-dateutil 2.8.2 python-dotenv 1.0.0 редактор Python 1.0.4
python-lsp-jsonrpc 1.0.0 python-lsp-server 1.7.1 pytoolconfig 1.2.5
pytz (библиотека Python для работы с часовыми поясами) 2022.7 PyWavelets 1.4.1 PyYAML 6,0
pyzmq 23.2.0 regex 2022.7.9 запросы 2.28.1
requests-oauthlib 1.3.1 Ответы 0.18.0 верёвка 1.7.0
rsa 4,9 s3transfer 0.6.2 safetensors 0.3.2
scikit-learn 1.1.1 мореборн 0.12.2 SecretStorage 3.3.1
Send2Trash 1.8.0 преобразователи предложений (sentence-transformers) 2.2.2 предложение 0.1.99
setuptools 65.6.3 shap 0.41.0 simplejson 3.17.6
шесть 1.16.0 ломтерезка 0.0.7 smart-open 5.2.1
smmap 5.0.0 sniffio 1.2.0 звуковой файл 0.12.1
сито для супа 2.3.2.post1 soxr 0.3.6 spacy 3.5.4
spacy-legacy 3.0.12 spacy-loggers 1.0.4 spark-tensorflow-distributor 1.0.0
SQLAlchemy 1.4.39 sqlparse 0.4.2 серьёзно 2.4.7
ssh-import-id 5,11 стек-дата 0.2.0 старлетка 0.27.0
statsmodels 0.13.5 sympy 1.11.1 табулировать 0.8.10
запутались в юникоде 0.2.0 настойчивость 8.1.0 tensorboard 2.13.0
tensorboard-data-server 0.7.1 tensorboard-plugin-profile 2.13.0 tensorflow-cpu 2.13.0
tensorflow-estimator 2.13.0 tensorflow-io-gcs-filesystem 0.33.0 termcolor 2.3.0
завершено 0.17.1 thinc 8.1.12 threadpoolctl 2.2.0
тиктокен 0.4.0 tinycss2 1.2.1 tokenize-rt 4.2.1
токенизаторы 0.13.3 tomli 2.0.1 фонарик 2.0.1+цп
torchvision 0.15.2+CPU tornado 6.1 tqdm 4.64.1
traitlets 5.7.1 Трансформаторы 4.31.0 typeguard 2.13.3
typer 0.9.0 проверка набора текста 0.9.0 typing_extensions 4.4.0
ujson 5.4.0 автоматические обновления 0,1 urllib3 1.26.14
uvicorn 0.23.2 uvloop 0.17.0 virtualenv 20.16.7
видения 0.7.5 wadllib 1.3.6 васаби 1.1.2
watchfiles 0.19.0 wcwidth 0.2.5 webencodings 0.5.1
клиент вебсокетов 0.58.0 websockets 11.0.3 Werkzeug 2.2.2
whatthepatch 1.0.2 колесо 0.38.4 widgetsnbextension 3.6.1
облако слов 1.9.2 завёрнут 1.14.1 XGBoost 1.7.6
xxhash 3.3.0 yapf 0.31.0 ярл 1.9.2
ydata-profiling 4.2.0 zipp 3.11.0

Библиотеки Python в кластерах GPU

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 1.0.0 ускорять 0.21.0 aiohttp 3.8.5
aiosignal 1.3.1 anyio 3.5.0 appdirs 1.4.4
argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0 Астор 0.8.1
asttokens 2.0.5 astunparse 1.6.3 async-timeout 4.0.3
атрибуты 22.1.0 аудиочтение 3.0.0 azure-core 1.29.1
azure-cosmos 4.3.1 azure-storage-blob 12.17.0 хранилище Azure File Data Lake 12.12.0
обратный вызов 0.2.0 bcrypt 3.2.0 beautifulsoup4 4.11.1
чёрный 22.6.0 отбеливатель 4.1.0 поворотник 1.4
блаженство 0.7.10 boto3 1.24.28 botocore 1.27.96
cachetools 5.3.1 каталог 2.0.9 кодировщики категорий 2.6.1
сертификат 2022.12.7 cffi 1.15.1 chardet 4.0.0
charset-normalizer 2.0.4 щелчок 8.0.4 cloudpickle 2.0.0
cmake 3.27.2 cmdstanpy 1.1.0 comm 0.1.2
кондитерские изделия 0.1.1 configparser 5.2.0 контурная диаграмма 1.0.5
convertdate 2.4.0 криптография 39.0.1 циклер 0.11.0
cymem 2.0.7 Cython 0.29.32 дацит 1.8.1
databricks-automl-runtime 0.2.18 databricks-cli 0.17.7 databricks-feature-store 0.14.1
databricks-sdk 0.1.6 dataclasses-json 0.5.14 наборы данных 2.14.1
dbl-tempo 0.1.23 dbus-python 1.2.18 debugpy 1.6.7
декоратор 5.1.1 DeepSpeed 0.10.0 defusedxml 0.7.1
укроп 0.3.6 дисковый кэш 5.6.1 distlib 0.3.7
Преобразование docstring в markdown 0,11 einops 0.6.1 точки входа 0,4
ephem 4.1.4 оценить 0.4.0 выполнение 0.8.3
обзор граней 1.1.1 fastapi 0.98.0 fastjsonschema 2.18.0
fasttext 0.9.2 блокировка файла 3.9.0 flash-attn 2.0.1
Flask 2.2.5 flatbuffers 23.5.26 шрифтовые инструменты 4.25.0
замороженный список 1.4.0 fsspec 2022.11.0 будущее 0.18.3
gast 0.4.0 Библиотека среды выполнения GCC 1.10.0 gitdb 4.0.10
GitPython 3.1.27 google-api-core 2.11.1 google-auth 2.21.0
google-auth-oauthlib 1.0.0 google-cloud-core 2.3.3 Гугл Клауд Сторадж 2.10.0
google-crc32c 1.5.0 google-pasta 0.2.0 google-resumable-media 2.5.0
googleapis-common-protos 1.60.0 greenlet 2.0.1 grpcio 1.48.2
grpcio-status 1.48.1 gunicorn 20.1.0 gviz-api 1.10.0
h11 0.14.0 h5py 3.7.0 hjson 3.1.0
праздники 0,28 horovod 0.28.1 htmlmin 0.1.12
httplib2 0.20.2 httptools 0.6.0 huggingface-hub 0.14.1
idna 3,4 ImageHash 4.3.1 imbalanced-learn 0.10.1
importlib-metadata 4.11.3 importlib-resources 6.0.1 ipykernel 6.25.0
ipython 8.14.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 itsdangerous 2.0.1 джедаи 0.18.1
джипни 0.7.1 Jinja2 3.1.2 jmespath 0.10.0
joblib 1.2.0 joblibspark 0.5.1 jsonschema 4.17.3
jupyter-client 7.3.4 jupyter-server 1.23.4 jupyter_core 5.2.0
jupyterlab-pygments 0.1.2 jupyterlab-виджеты 1.0.0 keras 2.13.1
нажатие клавиш 23.5.0 kiwisolver 1.4.4 langchain 0.0.225
langchainplus-sdk 0.0.20 коды языков 3.3.0 launchpadlib 1.10.16
lazr.restfulclient 0.14.4 lazr.uri 1.0.6 ленивый загрузчик 0,3
libclang 15.0.6.1 librosa 0.10.0 lightgbm 3.3.5
литерал 16.0.6 llvmlite 0.39.1 Лунный календарь 0.0.9
lxml 4.9.1 Mako 1.2.0 Markdown (язык разметки для оформления текста) 3.4.1
MarkupSafe 2.1.1 зефир 3.20.1 matplotlib 3.7.0
matplotlib-inline 0.1.6 Маккейб 0.7.0 mistune 0.8.4
mlflow-skinny 2.5.0 more-itertools 8.10.0 mpmath 1.2.1
msgpack 1.0.5 multidict 6.0.4 мультиметод 1.9.1
многопроцессная обработка 0.70.14 murmurhash 1.0.9 mypy-extensions 0.4.3
nbclassic 0.5.2 nbclient 0.5.13 nbconvert 6.5.4
nbformat 5.7.0 nest-asyncio 1.5.6 networkx 2.8.4
ниндзя 1.11.1 nltk 3,7 nodeenv 1.8.0
записная книжка 6.5.2 notebook_shim 0.2.2 numba 0.56.4
numexpr 2.8.4 numpy 1.23.5 oauthlib 3.2.0
openai 0.27.8 openapi-schema-pydantic 1.2.4 opt-einsum 3.3.0
упаковка 22,0 pandas 1.5.3 pandocfilters 1.5.0
paramiko 2.9.2 parso 0.8.3 pathspec 0.10.3
патия 0.10.2 простофиля 0.5.3 petastorm 0.12.1
pexpect 4.8.0 фик 0.12.3 pickleshare 0.7.5
Подушка 9.4.0 pip 22.3.1 platformdirs 2.5.2
график 5.9.0 pluggy 1.0.0 pmdarima 2.0.3
пес 1.4.0 preshed 3.0.8 prompt-toolkit 3.0.36
пророк 1.1.4 protobuf 4.24.0 psutil 5.9.0
psycopg2 2.9.3 ptyprocess 0.7.0 pure-eval 0.2.2
py-cpuinfo 9.0.0 pyarrow 8.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.11.1 pycparser 2.21
pydantic 1.10.6 pyflakes 3.0.1 Pygments 2.11.2
PyGObject 3.42.1 PyJWT 2.3.0 PyMeeus 0.5.12
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing 3.0.9
pyright 1.1.294 pyrsistent 0.18.0 pytesseract 0.3.10
python-dateutil 2.8.2 python-dotenv 1.0.0 редактор Python 1.0.4
python-lsp-jsonrpc 1.0.0 python-lsp-server 1.7.1 pytoolconfig (конфигурация Python-инструмента) 1.2.5
pytz 2022.7 PyWavelets 1.4.1 PyYAML 6,0
pyzmq 23.2.0 regex 2022.7.9 запросы 2.28.1
requests-oauthlib 1.3.1 Ответы 0.18.0 верёвка 1.7.0
rsa 4,9 s3transfer 0.6.2 safetensors 0.3.2
scikit-learn 1.1.1 мореборн 0.12.2 SecretStorage 3.3.1
Send2Trash 1.8.0 преобразователи предложений 2.2.2 предложение 0.1.99
setuptools 65.6.3 shap 0.41.0 simplejson 3.17.6
шесть 1.16.0 Слайсер 0.0.7 smart-open 5.2.1
smmap 5.0.0 sniffio 1.2.0 аудиофайл 0.12.1
сито для супа 2.3.2.post1 soxr 0.3.6 просторный 3.5.4
spacy-legacy 3.0.12 spacy-loggers 1.0.4 spark-tensorflow-distributor 1.0.0
SQLAlchemy 1.4.39 sqlparse 0.4.2 серьёзно 2.4.7
ssh-import-id (импортирование SSH-ключей) 5,11 stack-data 0.2.0 starlette 0.27.0
statsmodels 0.13.5 sympy 1.11.1 табулировать 0.8.10
запутанно-с-юникодом 0.2.0 упорство 8.1.0 tensorboard 2.13.0
tensorboard-data-server 0.7.1 tensorboard-plugin-profile 2.13.0 tensorflow 2.13.0
tensorflow-estimator 2.13.0 tensorflow-io-gcs-filesystem 0.33.0 termcolor 2.3.0
завершено 0.17.1 thinc 8.1.12 threadpoolctl 2.2.0
тиктокен 0.4.0 tinycss2 1.2.1 tokenize-rt 4.2.1
токенизаторы 0.13.3 tomli 2.0.1 факел 2.0.1+cu118
torchvision 0.15.2+cu118 tornado 6.1 tqdm 4.64.1
traitlets 5.7.1 Трансформаторы 4.31.0 тритон 2.0.0
typeguard 2.13.3 typer 0.9.0 проверка ввода текста 0.9.0
typing_extensions 4.4.0 ujson 5.4.0 unattended-upgrades 0,1
urllib3 1.26.14 uvicorn 0.23.2 uvloop 0.17.0
virtualenv 20.16.7 видения 0.7.5 wadllib 1.3.6
васаби 1.1.2 watchfiles 0.19.0 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.58.0 websockets 11.0.3
Werkzeug 2.2.2 whatthepatch 1.0.2 колесо 0.38.4
widgetsnbextension 3.6.1 облако слов 1.9.2 завернутый 1.14.1
XGBoost 1.7.6 xxhash 3.3.0 yapf 0.31.0
yarl 1.9.2 ydata-profiling 4.2.0 zipp 3.11.0

Библиотеки R

Библиотеки R идентичны библиотекам R в Databricks Runtime 14.0.

Библиотеки Java и Scala (кластер Scala 2.12)

Помимо библиотек Java и Scala в Databricks Runtime 14.0, Databricks Runtime 14.0 ML содержит следующие JAR:

Кластеры ЦП

ИД группы Идентификатор артефакта Версия
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-spark_2.12 1.7.3
ml.dmlc xgboost4j_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.5.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Кластеры GPU

ИД группы Идентификатор артефакта Версия
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-gpu_2.12 1.7.3
ml.dmlc xgboost4j-spark-gpu_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.5.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0