Поделиться через


Databricks Runtime 13.2 для машинного обучения (EoS)

Примечание.

Поддержка этой версии databricks Runtime закончилась. Сведения о дате окончания поддержки см. в истории окончания поддержки. Все поддерживаемые версии среды выполнения Databricks можно найти в заметках к выпуску Databricks Runtime о версиях и совместимости.

Databricks Runtime 13.2 для машинного обучения предоставляет готовую среду для машинного обучения и обработки и анализа данных на основе Databricks Runtime 13.2 (EoS). Databricks Runtime ML содержит множество популярных библиотек машинного обучения, включая TensorFlow, PyTorch и XGBoost. Databricks Runtime ML включает AutoML – средство для автоматического обучения конвейеров машинного обучения. Databricks Runtime ML также поддерживает распределенное углубленное обучение с использованием Horovod.

Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в статье ИИ и машинное обучение в Databricks.

Новые функции и внесенные улучшения

Databricks Runtime 13.2 ML построен на основе Databricks Runtime 13.2. Сведения о новых возможностях Databricks Runtime 13.2, включая Apache Spark MLlib и SparkR, см. заметки о выпуске Databricks Runtime 13.2 (EoS).

Изменения в Хранилище компонентов Databricks

  • Минимальная требуемая mlflow-skinny версия теперь — 2.4.0.
  • Создание набора обучения завершается ошибкой, если указанный DataFrame не содержит все необходимые ключи подстановки.

Системная среда

Системная среда в Databricks Runtime 13.2 ML отличается от Databricks Runtime 13.2 следующим образом:

Databricks Runtime 13.2 ML включает XGBoost 1.7.3, который не поддерживает кластеры GPU с возможностями вычислений 5.2 и ниже.

Библиотеки

В следующих разделах перечислены библиотеки, включенные в Databricks Runtime 13.2 ML, которые отличаются от библиотек, включенных в Databricks Runtime 13.2.

В этом разделе рассматриваются следующие вопросы.

Библиотеки верхнего уровня

Databricks Runtime 13.2 ML включает следующие библиотеки верхнего уровня:

Библиотеки Python

Databricks Runtime 13.2 ML использует Virtualenv для управления пакетами Python и включает множество популярных пакетов машинного обучения.

Помимо пакетов, указанных в следующих разделах, Databricks Runtime 13.2 ML также включает следующие пакеты:

  • Hyperopt 0.2.7+db3
  • sparkdl 3.0.0_db1
  • automl 1.19.0

Чтобы воспроизвести среду выполнения Python для Databricks Runtime ML в локальной виртуальной среде Python, скачайте файл requirements-13.2.txt и запустите pip install -r requirements-13.2.txt. Эта команда устанавливает все библиотеки с открытым исходным кодом, которые использует Databricks Runtime ML, но не устанавливает библиотеки, разработанные Databricks, например databricks-automl, databricks-feature-store, или форк Databricks hyperopt.

Библиотеки Python в кластерах CPU

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 1.0.0 ускорять 0.19.0 aiohttp 3.8.4
aiosignal 1.3.1 appdirs 1.4.4 argon2-cffi 21.3.0
argon2-cffi-bindings 21.2.0 astor 0.8.1 asttokens 2.2.1
astunparse 1.6.3 async-timeout 4.0.2 атрибуты 21.4.0
аудиочтение 3.0.0 azure-core 1.27.1 azure-cosmos 4.3.1b1
azure-storage-blob 12.17.0b1 azure-storage-file-datalake 12.11.0 обратный вызов 0.2.0
bcrypt 3.2.0 beautifulsoup4 4.11.1 черный 22.6.0
отбеливатель 4.1.0 поворотник 1.4 blis 0.7.9
boto3 1.24.28 botocore 1.27.28 cachetools 4.2.4
каталог 2.0.8 кодировщики категорий 2.6.0 сертификат 2022.9.14
cffi 1.15.1 chardet 4.0.0 нормализатор кодировки 2.0.4
щелчок 8.0.4 cloudpickle 2.0.0 cmdstanpy 1.1.0
кондитерские изделия 0.0.4 configparser 5.2.0 преобразовать дату 2.4.0
криптография 37.0.1 cycler 0.11.0 cymem 2.0.7
Cython 0.29.32 дацит 1.8.1 databricks-automl-runtime 0.2.16
databricks-cli 0.17.7 databricks-feature-store 0.13.1 databricks-sdk 0.1.6
dataclasses-json 0.5.8 наборы данных 2.12.0 dbl-tempo 0.1.23
dbus-python 1.2.18 debugpy 1.5.1 декоратор 5.1.1
defusedxml 0.7.1 укроп 0.3.4 diskcache 5.6.1
distlib 0.3.6 преобразование докстринга в язык Markdown 0,12 точки входа 0,4
ephem 4.1.4 оценивать 0.4.0 выполнение 1.2.0
обзор аспектов 1.0.3 fastjsonschema 2.17.1 fasttext 0.9.2
блокировка файла 3.6.0 Flask 1.1.2+db1 флэтбуфферс 23.5.26
шрифтовые инструменты 4.25.0 замороженный список 1.3.3 fsspec 2022.7.1
будущее 0.18.2 gast 0.4.0 gitdb 4.0.10
GitPython 3.1.27 google-api-core 2.8.2 google-auth 1.33.0
google-auth-oauthlib 0.4.6 google-cloud-core 2.3.2 google-cloud-storage 2.9.0
google-crc32c 1.5.0 гугл-паста 0.2.0 google-resumable-media 2.5.0
googleapis-common-protos 1.56.4 greenlet 1.1.1 grpcio 1.48.1
grpcio-status 1.48.1 gunicorn 20.1.0 gviz-api 1.10.0
h5py 3.7.0 праздники 0.25 хоровод 0.28.0
htmlmin 0.1.12 httplib2 0.20.2 huggingface-hub 0.15.1
idna 3,3 ImageHash 4.3.1 imbalanced-learn (библиотека для работы с несбалансированными данными) 0.8.1
importlib-metadata 4.11.3 importlib-resources 5.12.0 ipykernel 6.17.1
ipython 8.10.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 itsdangerous 2.0.1 джедай 0.18.1
jeepney 0.7.1 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.2.0 joblibspark 0.5.1 jsonschema 4.16.0
jupyter-client (джупитер-клиент) 7.3.4 jupyter_core 4.11.2 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.11.0 нажатие клавиш 23.5.0
kiwisolver 1.4.2 Корейский лунный календарь 0.3.1 langchain 0.0.181
языковые коды 3.3.0 launchpadlib 1.10.16 lazr.restfulclient 0.14.4
lazr.uri 1.0.6 ленивая загрузка 0,2 libclang 15.0.6.1
librosa 0.10.0 lightgbm 3.3.5 llvmlite 0.38.0
Лунный календарь 0.0.9 Mako 1.2.0 Markdown 3.3.4
MarkupSafe 2.0.1 зефир 3.19.0 маршмеллоу-энум 1.5.1
matplotlib 3.5.2 matplotlib-inline 0.1.6 Маккейб 0.7.0
неправильная настройка 0.8.4 mleap 0.20.0 mlflow-skinny 2.4.1
more-itertools 8.10.0 msgpack 1.0.5 multidict 6.0.4
мультиметод 1.9.1 многопроцессная обработка 0.70.12.2 мурмурхеш 1.0.9
mypy-extensions 0.4.3 nbclient 0.5.13 nbconvert 6.4.4
nbformat 5.5.0 nest-asyncio 1.5.5 networkx 2.8.4
ниндзя 1.11.1 nltk 3,7 nodeenv 1.8.0
записная книжка 6.4.12 numba 0.55.1 numexpr 2.8.4
numpy 1.21.5 oauthlib 3.2.0 openai 0.27.7
openapi-schema-pydantic 1.2.4 opt-einsum 3.3.0 упаковка 21,3
pandas 1.4.4 pandocfilters 1.5.0 paramiko 2.9.2
parso 0.8.3 pathspec 0.9.0 pathy 0.10.1
козёл отпущения 0.5.2 petastorm 0.12.1 pexpect 4.8.0
фик 0.12.3 pickleshare 0.7.5 Подушка 9.2.0
pip 22.2.2 platformdirs 2.5.2 график 5.9.0
pluggy 1.0.0 pmdarima 2.0.3 песик 1.7.0
пресед 3.0.8 prometheus-client 0.14.1 Prompt-Toolkit 3.0.36
пророк 1.1.3 protobuf 3.19.4 psutil 5.9.0
psycopg2 2.9.3 ptyprocess 0.7.0 pure-eval 0.2.2
pyarrow 8.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.10.4 pycparser 2.21 pydantic 1.10.6
pyflakes 3.0.1 Pygments 2.11.2 PyGObject 3.42.1
PyJWT 2.3.0 PyMeeus 0.5.12 PyNaCl 1.5.0
pyodbc 4.0.32 pyparsing 3.0.9 pyright 1.1.294
pyrsistent 0.18.0 pytesseract 0.3.10 python-dateutil 2.8.2
питон-редактор 1.0.4 python-lsp-jsonrpc 1.0.0 python-lsp-server 1.7.1
pytoolconfig 1.2.2 pytz 2022.1 PyWavelets 1.3.0
PyYAML 6,0 pyzmq 23.2.0 regex 2022.7.9
запросы 2.28.1 requests-oauthlib 1.3.1 Ответы 0.18.0
верёвка 1.7.0 rsa 4,9 s3transfer 0.6.0
scikit-learn 1.1.1 scipy 1.9.1 мореборн 0.11.2
SecretStorage 3.3.1 Send2Trash 1.8.0 преобразователи предложений 2.2.2
предложение 0.1.99 setuptools 63.4.1 shap 0.41.0
simplejson 3.17.6 шесть 1.16.0 Ломтерезка 0.0.7
smart-open 5.2.1 сммап 5.0.0 звуковой файл 0.12.1
сито для супа 2.3.1 soxr 0.3.5 просторный 3.5.3
spacy-legacy 3.0.12 спейси-логгеры 1.0.4 spark-tensorflow-distributor 1.0.0
SQLAlchemy 1.4.39 sqlparse 0.4.2 серьёзно? 2.4.6
ssh-import-id 5,11 stack-data 0.6.2 statsmodels 0.13.2
табулировать 0.8.10 tangled-up-in-unicode 0.2.0 упорство 8.1.0
ТензорБорд 2.11.0 tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.11.2
tensorboard-plugin-wit 1.8.1 tensorflow-cpu 2.11.0 tensorflow-estimator 2.11.0
tensorflow-io-gcs-filesystem 0.32.0 termcolor 2.3.0 завершено 0.13.1
тестовый путь 0.6.0 thinc 8.1.10 threadpoolctl 2.2.0
тиктокен 0.4.0 tokenize-rt 4.2.1 токенизаторы 0.13.3
томли 2.0.1 фонарик 1.13.1+CPU torchvision 0.14.1+CPU
tornado 6.1 tqdm 4.64.1 traitlets 5.1.1
Трансформаторы 4.29.2 typeguard 2.13.3 typer 0.7.0
ввод текста и проверка 0.9.0 typing_extensions 4.3.0 ujson 5.4.0
автоматические обновления 0,1 urllib3 1.26.11 virtualenv 20.16.3
видения 0.7.5 wadllib 1.3.6 васаби 1.1.2
wcwidth 0.2.5 веб-кодировки 0.5.1 websocket-client 0.58.0
Werkzeug 2.0.3 чтоэтозапатч 1.0.2 колесо 0.37.1
widgetsnbextension 3.6.1 облако слов 1.9.2 окутанный 1.14.1
XGBoost 1.7.5 xxhash 3.2.0 yapf 0.31.0
ярл 1.9.2 ydata-profiling 4.2.0 зиппер 3.8.0

Библиотеки Python в кластерах GPU

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 1.0.0 ускорить 0.19.0 aiohttp 3.8.4
aiosignal 1.3.1 appdirs 1.4.4 argon2-cffi 21.3.0
argon2-cffi-bindings 21.2.0 astor 0.8.1 asttokens 2.2.1
astunparse 1.6.3 async-timeout 4.0.2 атрибуты 21.4.0
аудиочтение 3.0.0 azure-core 1.27.1 azure-cosmos 4.3.1b1
azure-storage-blob (хранилище блобов Azure) 12.17.0b1 azure-storage-file-datalake 12.11.0 обратный вызов 0.2.0
bcrypt (алгоритм шифрования паролей) 3.2.0 beautifulsoup4 4.11.1 черный 22.6.0
отбеливатель 4.1.0 указатель поворота 1.4 blis 0.7.9
boto3 1.24.28 botocore 1.27.28 cachetools 4.2.4
каталог 2.0.8 кодировщики категорий 2.6.0 сертификация 2022.9.14
cffi 1.15.1 chardet 4.0.0 charset-normalizer 2.0.4
щелчок 8.0.4 cloudpickle 2.0.0 cmdstanpy 1.1.0
кондитерские изделия 0.0.4 configparser 5.2.0 convertdate 2.4.0
криптография 37.0.1 cycler 0.11.0 cymem 2.0.7
Cython 0.29.32 дацит 1.8.1 databricks-automl-runtime 0.2.16
databricks-cli 0.17.7 databricks-feature-store (хранилище функций) 0.13.1 databricks-sdk 0.1.6
dataclasses-json 0.5.8 наборы данных 2.12.0 dbl-tempo 0.1.23
dbus-python 1.2.18 debugpy 1.5.1 декоратор 5.1.1
defusedxml 0.7.1 укроп 0.3.4 дисковый кэш 5.6.1
distlib 0.3.6 docstring-to-markdown 0,12 einops 0.6.1
входные точки 0,4 ephem 4.1.4 оценить 0.4.0
выполнение 1.2.0 обзор граней 1.0.3 fastjsonschema 2.17.1
fasttext 0.9.2 блокировка файла 3.6.0 flash-attn 1.0.5
Flask 1.1.2+db1 flatbuffers 26.05.23 шрифтовые инструменты 4.25.0
замороженный список 1.3.3 fsspec 2022.7.1 будущее 0.18.2
gast 0.4.0 gitdb 4.0.10 GitPython 3.1.27
google-api-core 2.8.2 google-auth 1.33.0 google-auth-oauthlib 0.4.6
google-cloud-core 2.3.2 хранилище Google Cloud 2.9.0 google-crc32c 1.5.0
google-pasta 0.2.0 Гугл-возобновляемое-медиа 2.5.0 googleapis-common-protos 1.56.4
greenlet 1.1.1 grpcio 1.48.1 grpcio-status 1.48.1
gunicorn 20.1.0 gviz-api 1.10.0 h5py 3.7.0
праздники 0.25 horovod 0.28.0 htmlmin 0.1.12
httplib2 0.20.2 huggingface-hub 0.15.1 idna 3,3
ImageHash 4.3.1 Неравномерное-обучение 0.8.1 importlib-metadata 4.11.3
importlib-resources 5.12.0 ipykernel 6.17.1 ipython 8.10.0
ipython-genutils 0.2.0 ipywidgets 7.7.2 isodate 0.6.1
itsdangerous 2.0.1 джедай 0.18.1 jeepney 0.7.1
Jinja2 2.11.3 jmespath 0.10.0 joblib 1.2.0
joblibspark 0.5.1 jsonschema 4.16.0 jupyter-client (клиент Jupyter) 7.3.4
jupyter_core 4.11.2 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keras 2.11.0 нажатие клавиш 23.5.0 kiwisolver 1.4.2
корейский лунный календарь 0.3.1 langchain 0.0.181 языковые коды 3.3.0
launchpadlib 1.10.16 lazr.restfulclient 0.14.4 lazr.uri 1.0.6
ленивый загрузчик 0,2 libclang 15.0.6.1 librosa 0.10.0
lightgbm 3.3.5 llvmlite 0.38.0 Лунный календарь 0.0.9
Mako 1.2.0 Markdown 3.3.4 MarkupSafe 2.0.1
зефир 3.19.0 marshmallow-enum 1.5.1 matplotlib 3.5.2
matplotlib-inline 0.1.6 Маккейб 0.7.0 неправильно настроить 0.8.4
mleap 0.20.0 mlflow-skinny 2.4.1 more-itertools 8.10.0
msgpack 1.0.5 multidict 6.0.4 мультиметод 1.9.1
многопроцессная обработка 0.70.12.2 murmurhash 1.0.9 mypy-extensions 0.4.3
nbclient 0.5.13 nbconvert 6.4.4 nbformat 5.5.0
nest-asyncio 1.5.5 networkx 2.8.4 ниндзя 1.11.1
nltk 3,7 nodeenv 1.8.0 записная книжка 6.4.12
нумба 0.55.1 numexpr 2.8.4 numpy 1.21.5
oauthlib 3.2.0 openai 0.27.7 openapi-schema-pydantic 1.2.4
opt-einsum 3.3.0 упаковка 21,3 pandas 1.4.4
pandocfilters 1.5.0 paramiko 2.9.2 парсо 0.8.3
pathspec 0.9.0 патия 0.10.1 простофиля 0.5.2
petastorm 0.12.1 pexpect 4.8.0 phik 0.12.3
pickleshare 0.7.5 Подушка 9.2.0 pip 22.2.2
platformdirs 2.5.2 график 5.9.0 pluggy 1.0.0
pmdarima 2.0.3 пёс 1.7.0 пресхед 3.0.8
prompt-toolkit 3.0.36 пророк 1.1.3 протобуф 3.19.4
psutil 5.9.0 psycopg2 2.9.3 ptyprocess 0.7.0
pure-eval 0.2.2 pyarrow 8.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.10.4 pycparser 2.21
pydantic 1.10.6 pyflakes 3.0.1 Pygments 2.11.2
PyGObject 3.42.1 PyJWT 2.3.0 PyMeeus 0.5.12
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing 3.0.9
pyright 1.1.294 pyrsistent 0.18.0 pytesseract 0.3.10
python-dateutil 2.8.2 питон-редактор 1.0.4 python-lsp-jsonrpc 1.0.0
python-lsp-server 1.7.1 pytoolconfig 1.2.2 pytz 2022.1
PyWavelets 1.3.0 PyYAML 6,0 pyzmq 23.2.0
regex 2022.7.9 запросы 2.28.1 requests-oauthlib 1.3.1
Ответы 0.18.0 верёвка 1.7.0 rsa 4,9
s3transfer 0.6.0 scikit-learn 1.1.1 scipy 1.9.1
мореборн 0.11.2 SecretStorage 3.3.1 Send2Trash 1.8.0
преобразователи предложений 2.2.2 предложение 0.1.99 setuptools (утилиты для настройки) 63.4.1
shap 0.41.0 simplejson 3.17.6 шесть 1.16.0
ломтерезка 0.0.7 smart-open 5.2.1 smmap 5.0.0
звуковой файл 0.12.1 сито для супа 2.3.1 soxr 0.3.5
spacy 3.5.3 spacy-legacy 3.0.12 spacy-loggers 1.0.4
spark-tensorflow-distributor 1.0.0 SQLAlchemy 1.4.39 sqlparse 0.4.2
серьёзно 2.4.6 ssh-import-id 5,11 stack-data 0.6.2
statsmodels 0.13.2 табулировать 0.8.10 запутан в Unicode 0.2.0
упорство 8.1.0 tensorboard 2.11.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.11.2 tensorboard-plugin-wit 1.8.1 tensorflow 2.11.0
tensorflow-оценщик 2.11.0 tensorflow-io-gcs-filesystem 0.32.0 termcolor 2.3.0
завершено 0.13.1 тестовый путь 0.6.0 thinc 8.1.10
threadpoolctl 2.2.0 тиктокен 0.4.0 tokenize-rt 4.2.1
токенизаторы 0.13.3 tomli 2.0.1 фонарик / факел 1.13.1+cu117
torchvision 0.14.1+cu117 tornado 6.1 tqdm 4.64.1
traitlets 5.1.1 Трансформаторы 4.29.2 Тайпгард 2.13.3
typer 0.7.0 ввод и проверка 0.9.0 typing_extensions 4.3.0
ujson 5.4.0 автоматические обновления без участия пользователя 0,1 urllib3 1.26.11
virtualenv 20.16.3 видения 0.7.5 wadllib 1.3.6
васаби 1.1.2 wcwidth 0.2.5 вебэнкодингс 0.5.1
websocket-client 0.58.0 Werkzeug 2.0.3 чтоэтопатч 1.0.2
колесо 0.37.1 widgetsnbextension 3.6.1 облако слов 1.9.2
окутанный 1.14.1 XGBoost 1.7.5 xxhash 3.2.0
yapf 0.31.0 yarl 1.9.2 ydata-profiling 4.2.0
зипп 3.8.0

Библиотеки R

Библиотеки R идентичны библиотекам R в Databricks Runtime 13.2.

Библиотеки Java и Scala (кластер Scala 2.12)

Помимо библиотек Java и Scala в Databricks Runtime 13.2, Databricks Runtime 13.2 ML содержит следующие JAR:

Кластеры ЦП

ИД группы Идентификатор артефакта Версия
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-spark_2.12 1.7.3
ml.dmlc xgboost4j_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.4.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Кластеры GPU

Идентификатор группы Идентификатор артефакта Версия
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-gpu_2.12 1.7.3
ml.dmlc xgboost4j-spark-gpu_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.4.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0