Поделиться через


Databricks Runtime 12.0 для машинного обучения (EoS)

Примечание.

Поддержка этой версии databricks Runtime закончилась. См. историю окончания поддержки. Для всех поддерживаемых версий Databricks Runtime см. заметки о версиях и совместимости выпусков среды выполнения Databricks.

Databricks Runtime 12.0 для машинного обучения предоставляет готовую среду для машинного обучения и науки о данных на основе Databricks Runtime 12.0 (EoS). Databricks Runtime ML содержит множество популярных библиотек машинного обучения, включая TensorFlow, PyTorch и XGBoost. Databricks Runtime ML включает AutoML – средство для автоматического обучения конвейеров машинного обучения. Databricks Runtime ML также поддерживает распределенное углубленное обучение с использованием Horovod.

Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в статье ИИ и машинное обучение в Databricks.

Новые функции и внесенные улучшения

Databricks Runtime 12.0 ML построен на основе Databricks Runtime 12.0. Сведения о новых возможностях Databricks Runtime 12.0, включая Apache Spark MLlib и SparkR, смотрите в примечаниях к выпуску Databricks Runtime 12.0 (EoS).

Усовершенствования в AutoML

  • Теперь модели прогнозирования могут включать страновые праздники.
  • Прогнозирование теперь поддерживает ежемесячные, квартальные и ежегодные частоты.
  • AutoML теперь может использовать более крупные наборы данных для обучения. AutoML автоматически выделяет больше ядер ЦП для больших наборов данных.

Дополнительные сведения об AutoML см. в разделе "Что такое AutoML?".

MLflow 2.0

Databricks Runtime 12.0 ML включает MLflow 2.0. MLflow 2.0 основывается на сильной платформе MLflow и включает обширные отзывы пользователей для упрощения рабочих процессов обработки и анализа данных и предоставления инновационных средств первого класса для MLOps. Функции и улучшения включают расширения для рецептов MLflow (ранее MLflow Pipelines), таких как AutoML, настройка гиперпараметров и поддержка классификации, а также модернизация интеграции с экосистемой машинного обучения, оптимизированный пользовательский интерфейс отслеживания MLflow, обновление основных API в компонентах платформы MLflow и многое другое. Дополнительные сведения см. в документации по MLflow 2.0 или в записи блога.

scikit-learn 1.0

Databricks Runtime ML 12.0 включает scikit-learn версию 1.0. Ознакомьтесь с scikit-learnдокументацией, чтобы узнать об изменениях в этом выпуске scikit-learn.

Системная среда

Системная среда в Databricks Runtime 12.0 ML отличается от Databricks Runtime 12.0 следующим образом:

Databricks Runtime 12.0 ML включает XGBoost 1.6.2, который не поддерживает кластеры GPU с возможностями вычислений 5.2 и ниже.

Библиотеки

В следующих разделах перечислены библиотеки, включенные в Databricks Runtime 12.0 ML, которые отличаются от библиотек, включенных в Databricks Runtime 12.0.

В этом разделе рассматриваются следующие вопросы.

Библиотеки верхнего уровня

Databricks Runtime 12.0 ML включает следующие библиотеки верхнего уровня:

Библиотеки Python

Databricks Runtime 12.0 ML использует Virtualenv для управления пакетами Python и включает множество популярных пакетов машинного обучения.

Помимо пакетов, указанных в следующих разделах, Databricks Runtime 12.0 ML также включает следующие пакеты:

  • hyperopt 0.2.7.db1
  • sparkdl 2.3.0-db3
  • automl 1.14.1

Чтобы воспроизвести среду выполнения Databricks Runtime ML Python в вашей локальной виртуальной среде Python, скачайте файл requirements-12.0.txt и запустите его pip install -r requirements-12.0.txt. Эта команда устанавливает все библиотеки с открытым исходным кодом, которые использует Databricks Runtime ML, но не устанавливает библиотеки, разработанные Databricks, например, databricks-automl, databricks-feature-store, или вилку Databricks hyperopt.

Библиотеки Python в кластерах CPU

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 1.0.0 argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0
astor 0.8.1 asttokens 2.0.5 astunparse 1.6.3
атрибуты 21.4.0 azure-core 1.26.1 azure-cosmos 4.2.0
бэкколл 0.2.0 пакет библиотеки backports.entry-points-selectable 1.2.0 bcrypt 3.2.0
beautifulsoup4 4.11.1 черный 22.3.0 отбеливатель 4.1.0
blis 0.7.9 boto3 1.21.32 botocore 1.24.32
инструменты для кэша 4.2.2 каталог 2.0.8 кодировщики категорий 2.5.1.post0
сертификат 2021.10.8 cffi 1.15.0 chardet 4.0.0
charset-normalizer 2.0.4 щелчок 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.0.8 кондитерские изделия 0.0.3 configparser 5.2.0
convertdate 2.4.0 криптография 3.4.8 циклер 0.11.0
cymem 2.0.7 Cython 0.29.28 databricks-automl-runtime 0.2.13
databricks-cli 0.17.3 databricks-feature-store (магазин функций Databricks) 0.8.0 dbl-tempo 0.1.12
dbus-python 1.2.16 debugpy 1.5.1 декоратор 5.1.1
defusedxml 0.7.1 укроп 0.3.4 дисковый кеш 5.4.0
distlib 0.3.6 точки входа 0,4 ephem 4.1.3
выполнение 0.8.3 обзор граней 1.0.0 fastjsonschema 2.16.2
fasttext 0.9.2 блокировка файла 3.6.0 Flask 1.1.2
flatbuffers 22.10.26 шрифтовые инструменты 4.25.0 fsspec 2022.2.0
будущее 0.18.2 gast 0.4.0 gitdb 4.0.9
GitPython 3.1.27 google-auth 1.33.0 google-auth-oauthlib 0.4.6
google-pasta 0.2.0 grpcio 1.42.0 gunicorn 20.1.0
gviz-api (интерфейс программирования приложений для визуализации данных) 1.10.0 h5py 3.6.0 hijri-converter 2.2.4
праздники 0,16 хоровод 0.25.0 htmlmin 0.1.12
huggingface-hub 0.11.0 idna 3,3 ImageHash 4.3.1
imbalanced-learn 0.8.1 importlib-metadata 4.11.3 ipykernel 6.15.3
ipython 8.5.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 itsdangerous 2.0.1 джедай 0.18.1
Jinja2 2.11.3 jmespath 0.10.0 joblib 1.1.0
joblibspark 0.5.0 jsonschema 4.4.0 jupyter-client 6.1.12
jupyter_core 4.11.2 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keras 2.10.0 Keras-Preprocessing 1.1.2 kiwisolver 1.3.2
корейский лунный календарь 0.3.1 языковые коды 3.3.0 libclang 14.0.6
lightgbm 3.3.3 llvmlite 0.38.0 Лунный календарь 0.0.9
Mako 1.2.0 Markdown 3.3.4 MarkupSafe 2.0.1
matplotlib 3.5.1 matplotlib-inline 0.1.2 missingno 0.5.1
мистюн 0.8.4 mleap 0.20.0 mlflow-skinny 2.0.1
мультиметод 1.8 murmurhash 1.0.9 mypy-extensions 0.4.3
nbclient 0.5.13 nbconvert 6.4.4 nbformat 5.3.0
nest-asyncio 1.5.5 networkx 2.7.1 nltk (Natural Language Toolkit) 3,7
записная книжка 6.4.8 numba 0.55.1 numpy 1.21.5
oauthlib 3.2.0 opt-einsum 3.3.0 упаковка 21,3
pandas 1.4.2 pandas-profiling 3.3.0 pandocfilters 1.5.0
paramiko 2.9.2 parso 0.8.3 pathspec 0.9.0
патия 0.6.1 простак 0.5.2 petastorm 0.11.4
pexpect 4.8.0 фик 0.12.2 pickleshare 0.7.5
Подушка 9.0.1 pip 21.2.4 platformdirs 2.5.4
plotly 5.6.0 pmdarima 2.0.1 нажатый 3.0.8
prometheus-client 0.13.1 prompt-toolkit 3.0.20 пророк 1.1.1
protobuf 3.19.4 psutil 5.8.0 psycopg2 2.9.3
ptyprocess 0.7.0 pure-eval 0.2.2 pyarrow 7.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.10.1
pycparser 2.21 pydantic 1.9.2 Pygments 2.11.2
PyGObject 3.36.0 PyJWT 2.6.0 PyMeeus 0.5.11
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing 3.0.4
pyrsistent 0.18.0 python-dateutil 2.8.2 редактор-python 1.0.4
pytz 2021.3 PyWavelets 1.3.0 PyYAML 6,0
pyzmq 22.3.0 regex 2022.3.15 запросы 2.27.1
requests-oauthlib 1.3.1 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.5.0 scikit-learn 1.0.2 scipy 1.7.3
мореборн 0.11.2 Send2Trash 1.8.0 setuptools (набор инструментов для настройки) 61.2.0
setuptools-git 1.2 шап 0.41.0 simplejson 3.17.6
шесть 1.16.0 Слайсер 0.0.7 smart-open 5.1.0
smmap 5.0.0 сито для супа 2.3.1 просторный 3.4.1
spacy-legacy 3.0.10 spacy-loggers 1.0.3 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.2 серьезно 2.4.5 ssh-import-id 5,10
stack-data 0.2.0 statsmodels 0.13.2 табулировать 0.8.9
запутанный в юникоде 0.2.0 упорство 8.0.1 tensorboard 2.10.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.8.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.10.0 tensorflow-estimator 2.10.0 tensorflow-io-gcs-filesystem 0.28.0
termcolor 2.1.1 завершено 0.13.1 тестовый путь 0.5.0
thinc 8.1.5 threadpoolctl 2.2.0 tokenize-rt 4.2.1
токенизаторы 0.13.2 tomli 1.2.2 фонарик 1.12.1+цп
torchvision 0.13.1+цп tornado 6.1 tqdm 4.64.0
traitlets 5.1.1 Трансформаторы 4.23.1 typer 0.4.2
typing_extensions 4.1.1 unattended-upgrades 0,1 urllib3 1.26.9
virtualenv 20.8.0 видения 0.7.5 васаби 0.10.1
wcwidth 0.2.5 вебкодировки 0.5.1 websocket-client 0.58.0
Инструмент 2.0.3 колесо 0.37.1 widgetsnbextension 3.6.1
завернутый 1.12.1 zipp 3.7.0

Библиотеки Python в кластерах GPU

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 1.0.0 argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0
astor 0.8.1 asttokens 2.0.5 astunparse 1.6.3
атрибуты 21.4.0 azure-core 1.26.1 azure-cosmos 4.2.0
обратный вызов 0.2.0 backports.entry-points-selectable 1.2.0 bcrypt 3.2.0
beautifulsoup4 4.11.1 черный 22.3.0 отбеливатель 4.1.0
blis 0.7.9 boto3 1.21.32 botocore 1.24.32
cachetools 4.2.2 каталог 2.0.8 кодировщики категорий 2.5.1.post0
сертификат 2021.10.8 cffi 1.15.0 chardet 4.0.0
charset-normalizer 2.0.4 щелчок 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.0.8 кондитерские изделия 0.0.3 configparser 5.2.0
преобразовать дату 2.4.0 криптография 3.4.8 циклер 0.11.0
cymem 2.0.7 Cython 0.29.28 databricks-automl-runtime 0.2.13
databricks-cli 0.17.3 databricks-feature-store 0.8.0 dbl-tempo 0.1.12
dbus-python 1.2.16 debugpy 1.5.1 декоратор 5.1.1
defusedxml 0.7.1 укроп 0.3.4 кэш диска 5.4.0
distlib 0.3.6 точки входа 0,4 ephem 4.1.3
выполняется 0.8.3 обзор аспектов 1.0.0 fastjsonschema 2.16.2
fasttext 0.9.2 блокировка файлов 3.6.0 Flask 1.1.2
флэтбафферс 22.10.26 шрифтовые инструменты 4.25.0 fsspec 2022.2.0
будущее 0.18.2 gast 0.4.0 gitdb 4.0.9
GitPython 3.1.27 google-auth 1.33.0 google-auth-oauthlib 0.4.6
google-pasta 0.2.0 grpcio 1.42.0 gunicorn 20.1.0
gviz-api 1.10.0 h5py 3.6.0 hijri-converter 2.2.4
праздники 0,16 horovod 0.25.0 htmlmin 0.1.12
huggingface-hub 0.11.0 IDNA 3,3 ImageHash 4.3.1
imbalanced-learn 0.8.1 importlib-metadata 4.11.3 ipykernel 6.15.3
ipython 8.5.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 itsdangerous 2.0.1 джедай 0.18.1
Jinja2 2.11.3 jmespath 0.10.0 joblib 1.1.0
joblibspark 0.5.0 jsonschema 4.4.0 jupyter-client 6.1.12
jupyter_core 4.11.2 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keras 2.10.0 Keras-Preprocessing 1.1.2 kiwisolver 1.3.2
корейский лунный календарь 0.3.1 языковые коды 3.3.0 libclang 14.0.6
lightgbm 3.3.3 llvmlite 0.38.0 Лунный календарь 0.0.9
Mako 1.2.0 Markdown 3.3.4 MarkupSafe 2.0.1
matplotlib 3.5.1 matplotlib-inline 0.1.2 Миссингно 0.5.1
мистюн 0.8.4 mleap 0.20.0 mlflow-skinny 2.0.1
мультиметод 1.8 murmurhash 1.0.9 mypy-extensions 0.4.3
nbclient 0.5.13 nbconvert 6.4.4 nbformat 5.3.0
nest-asyncio 1.5.5 networkx 2.7.1 nltk 3,7
записная книжка 6.4.8 numba 0.55.1 numpy 1.21.5
oauthlib 3.2.0 opt-einsum 3.3.0 упаковка 21,3
pandas 1.4.2 pandas-profiling 3.3.0 pandocfilters 1.5.0
paramiko 2.9.2 Парсо 0.8.3 спецификация пути 0.9.0
патия 0.6.1 козёл отпущения 0.5.2 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.2 pickleshare 0.7.5
Подушка 9.0.1 pip 21.2.4 platformdirs 2.5.4
график 5.6.0 pmdarima 2.0.1 нажатый 3.0.8
prompt-toolkit 3.0.20 пророк 1.1.1 protobuf 3.19.4
psutil 5.8.0 psycopg2 2.9.3 ptyprocess 0.7.0
pure-eval 0.2.2 pyarrow 7.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.10.1 pycparser 2.21
pydantic 1.9.2 Pygments 2.11.2 PyGObject 3.36.0
PyJWT 2.6.0 PyMeeus 0.5.11 PyNaCl 1.5.0
pyodbc 4.0.32 pyparsing 3.0.4 пирсистент 0.18.0
python-dateutil 2.8.2 редактор Python 1.0.4 pytz 2021.3
PyWavelets 1.3.0 PyYAML 6,0 pyzmq 22.3.0
regex 2022.3.15 заявки 2.27.1 requests-oauthlib 1.3.1
requests-unixsocket 0.2.0 rsa 4.7.2 s3transfer 0.5.0
scikit-learn 1.0.2 scipy 1.7.3 мореборн 0.11.2
Send2Trash 1.8.0 setuptools 61.2.0 setuptools-git 1.2
шап 0.41.0 simplejson 3.17.6 шесть 1.16.0
Нарезчик 0.0.7 smart-open 5.1.0 smmap 5.0.0
ситечко для супа 2.3.1 расплывчатый 3.4.1 spacy-legacy 3.0.10
spacy-loggers 1.0.3 spark-tensorflow-distributor (дистрибьютор Spark и TensorFlow) 1.0.0 sqlparse 0.4.2
серьёзно 2.4.5 ssh-import-id 5,10 stack-data 0.2.0
statsmodels 0.13.2 табулировать 0.8.9 запутаться-в-юникоде 0.2.0
упорство 8.0.1 tensorboard 2.10.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.8.0 tensorboard-plugin-wit 1.8.1 Tensorflow 2.10.0
tensorflow-estimator 2.10.0 tensorflow-io-gcs-filesystem 0.28.0 termcolor 2.1.1
завершено 0.13.1 тестовый путь 0.5.0 thinc 8.1.5
threadpoolctl 2.2.0 tokenize-rt 4.2.1 токенизаторы 0.13.2
tomli 1.2.2 фонарик 1.12.1+cu113 torchvision 0.13.1+cu113
tornado 6.1 tqdm 4.64.0 traitlets 5.1.1
Трансформаторы 4.23.1 typer 0.4.2 typing_extensions 4.1.1
автоматические обновления 0,1 urllib3 1.26.9 virtualenv 20.8.0
видения 0.7.5 васаби 0.10.1 wcwidth 0.2.5
веб-кодировки 0.5.1 вебсокет-клиент 0.58.0 Werkzeug 2.0.3
колесо 0.37.1 widgetsnbextension 3.6.1 закутанный 1.12.1
молния 3.7.0

Библиотеки R

Библиотеки R идентичны библиотекам R в Databricks Runtime 12.0.

Библиотеки Java и Scala (кластер Scala 2.12)

Помимо библиотек Java и Scala в Databricks Runtime 12.0, Databricks Runtime 12.0 ML содержит следующие JAR:

Кластеры ЦП

ИД группы Идентификатор артефакта Версия
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-spark_2.12 1.6.2
ml.dmlc xgboost4j_2.12 1.6.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 2.0.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Кластеры GPU

ИД группы Идентификатор артефакта Версия
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-gpu_2.12 1.6.2
ml.dmlc xgboost4j-spark-gpu_2.12 1.6.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 2.0.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0