Databricks Runtime 12.0 для машинного обучения (EoS)
Примечание.
Поддержка этой версии databricks Runtime закончилась. См. историю окончания поддержки. Для всех поддерживаемых версий Databricks Runtime см. заметки о версиях и совместимости выпусков среды выполнения Databricks.
Databricks Runtime 12.0 для машинного обучения предоставляет готовую среду для машинного обучения и науки о данных на основе Databricks Runtime 12.0 (EoS). Databricks Runtime ML содержит множество популярных библиотек машинного обучения, включая TensorFlow, PyTorch и XGBoost. Databricks Runtime ML включает AutoML – средство для автоматического обучения конвейеров машинного обучения. Databricks Runtime ML также поддерживает распределенное углубленное обучение с использованием Horovod.
Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в статье ИИ и машинное обучение в Databricks.
Новые функции и внесенные улучшения
Databricks Runtime 12.0 ML построен на основе Databricks Runtime 12.0. Сведения о новых возможностях Databricks Runtime 12.0, включая Apache Spark MLlib и SparkR, смотрите в примечаниях к выпуску Databricks Runtime 12.0 (EoS).
Усовершенствования в AutoML
- Теперь модели прогнозирования могут включать страновые праздники.
- Прогнозирование теперь поддерживает ежемесячные, квартальные и ежегодные частоты.
- AutoML теперь может использовать более крупные наборы данных для обучения. AutoML автоматически выделяет больше ядер ЦП для больших наборов данных.
Дополнительные сведения об AutoML см. в разделе "Что такое AutoML?".
MLflow 2.0
Databricks Runtime 12.0 ML включает MLflow 2.0. MLflow 2.0 основывается на сильной платформе MLflow и включает обширные отзывы пользователей для упрощения рабочих процессов обработки и анализа данных и предоставления инновационных средств первого класса для MLOps. Функции и улучшения включают расширения для рецептов MLflow (ранее MLflow Pipelines), таких как AutoML, настройка гиперпараметров и поддержка классификации, а также модернизация интеграции с экосистемой машинного обучения, оптимизированный пользовательский интерфейс отслеживания MLflow, обновление основных API в компонентах платформы MLflow и многое другое. Дополнительные сведения см. в документации по MLflow 2.0 или в записи блога.
scikit-learn
1.0
Databricks Runtime ML 12.0 включает scikit-learn
версию 1.0. Ознакомьтесь с scikit-learn
документацией, чтобы узнать об изменениях в этом выпуске scikit-learn.
Системная среда
Системная среда в Databricks Runtime 12.0 ML отличается от Databricks Runtime 12.0 следующим образом:
-
DBUtils: Databricks Runtime ML не включает служебную программу библиотеки (dbutils.library) (устаревшая версия).
Вместо нее используйте команды
%pip
. См. статью Библиотеки Python с областью действия записной книжки. - Для кластеров GPU Databricks Runtime ML включает следующие библиотеки GPU NVIDIA:
- CUDA 11.3
- cuDNN 8.0.5.39
- NCCL 2.9.9
- TensorRT 7.2.2
Databricks Runtime 12.0 ML включает XGBoost 1.6.2, который не поддерживает кластеры GPU с возможностями вычислений 5.2 и ниже.
Библиотеки
В следующих разделах перечислены библиотеки, включенные в Databricks Runtime 12.0 ML, которые отличаются от библиотек, включенных в Databricks Runtime 12.0.
В этом разделе рассматриваются следующие вопросы.
- Библиотеки верхнего уровня
- Библиотеки Python
- Библиотеки R
- Библиотеки Java и Scala (кластер Scala 2.12)
Библиотеки верхнего уровня
Databricks Runtime 12.0 ML включает следующие библиотеки верхнего уровня:
- GraphFrames
- Horovod и HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
- Scikit-learn
Библиотеки Python
Databricks Runtime 12.0 ML использует Virtualenv для управления пакетами Python и включает множество популярных пакетов машинного обучения.
Помимо пакетов, указанных в следующих разделах, Databricks Runtime 12.0 ML также включает следующие пакеты:
- hyperopt 0.2.7.db1
- sparkdl 2.3.0-db3
- automl 1.14.1
Чтобы воспроизвести среду выполнения Databricks Runtime ML Python в вашей локальной виртуальной среде Python, скачайте файл requirements-12.0.txt и запустите его pip install -r requirements-12.0.txt
. Эта команда устанавливает все библиотеки с открытым исходным кодом, которые использует Databricks Runtime ML, но не устанавливает библиотеки, разработанные Databricks, например, databricks-automl
, databricks-feature-store
, или вилку Databricks hyperopt
.
Библиотеки Python в кластерах CPU
Библиотека | Версия | Библиотека | Версия | Библиотека | Версия |
---|---|---|---|---|---|
absl-py | 1.0.0 | argon2-cffi | 21.3.0 | argon2-cffi-bindings | 21.2.0 |
astor | 0.8.1 | asttokens | 2.0.5 | astunparse | 1.6.3 |
атрибуты | 21.4.0 | azure-core | 1.26.1 | azure-cosmos | 4.2.0 |
бэкколл | 0.2.0 | пакет библиотеки backports.entry-points-selectable | 1.2.0 | bcrypt | 3.2.0 |
beautifulsoup4 | 4.11.1 | черный | 22.3.0 | отбеливатель | 4.1.0 |
blis | 0.7.9 | boto3 | 1.21.32 | botocore | 1.24.32 |
инструменты для кэша | 4.2.2 | каталог | 2.0.8 | кодировщики категорий | 2.5.1.post0 |
сертификат | 2021.10.8 | cffi | 1.15.0 | chardet | 4.0.0 |
charset-normalizer | 2.0.4 | щелчок | 8.0.4 | cloudpickle | 2.0.0 |
cmdstanpy | 1.0.8 | кондитерские изделия | 0.0.3 | configparser | 5.2.0 |
convertdate | 2.4.0 | криптография | 3.4.8 | циклер | 0.11.0 |
cymem | 2.0.7 | Cython | 0.29.28 | databricks-automl-runtime | 0.2.13 |
databricks-cli | 0.17.3 | databricks-feature-store (магазин функций Databricks) | 0.8.0 | dbl-tempo | 0.1.12 |
dbus-python | 1.2.16 | debugpy | 1.5.1 | декоратор | 5.1.1 |
defusedxml | 0.7.1 | укроп | 0.3.4 | дисковый кеш | 5.4.0 |
distlib | 0.3.6 | точки входа | 0,4 | ephem | 4.1.3 |
выполнение | 0.8.3 | обзор граней | 1.0.0 | fastjsonschema | 2.16.2 |
fasttext | 0.9.2 | блокировка файла | 3.6.0 | Flask | 1.1.2 |
flatbuffers | 22.10.26 | шрифтовые инструменты | 4.25.0 | fsspec | 2022.2.0 |
будущее | 0.18.2 | gast | 0.4.0 | gitdb | 4.0.9 |
GitPython | 3.1.27 | google-auth | 1.33.0 | google-auth-oauthlib | 0.4.6 |
google-pasta | 0.2.0 | grpcio | 1.42.0 | gunicorn | 20.1.0 |
gviz-api (интерфейс программирования приложений для визуализации данных) | 1.10.0 | h5py | 3.6.0 | hijri-converter | 2.2.4 |
праздники | 0,16 | хоровод | 0.25.0 | htmlmin | 0.1.12 |
huggingface-hub | 0.11.0 | idna | 3,3 | ImageHash | 4.3.1 |
imbalanced-learn | 0.8.1 | importlib-metadata | 4.11.3 | ipykernel | 6.15.3 |
ipython | 8.5.0 | ipython-genutils | 0.2.0 | ipywidgets | 7.7.2 |
isodate | 0.6.1 | itsdangerous | 2.0.1 | джедай | 0.18.1 |
Jinja2 | 2.11.3 | jmespath | 0.10.0 | joblib | 1.1.0 |
joblibspark | 0.5.0 | jsonschema | 4.4.0 | jupyter-client | 6.1.12 |
jupyter_core | 4.11.2 | jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 |
keras | 2.10.0 | Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.2 |
корейский лунный календарь | 0.3.1 | языковые коды | 3.3.0 | libclang | 14.0.6 |
lightgbm | 3.3.3 | llvmlite | 0.38.0 | Лунный календарь | 0.0.9 |
Mako | 1.2.0 | Markdown | 3.3.4 | MarkupSafe | 2.0.1 |
matplotlib | 3.5.1 | matplotlib-inline | 0.1.2 | missingno | 0.5.1 |
мистюн | 0.8.4 | mleap | 0.20.0 | mlflow-skinny | 2.0.1 |
мультиметод | 1.8 | murmurhash | 1.0.9 | mypy-extensions | 0.4.3 |
nbclient | 0.5.13 | nbconvert | 6.4.4 | nbformat | 5.3.0 |
nest-asyncio | 1.5.5 | networkx | 2.7.1 | nltk (Natural Language Toolkit) | 3,7 |
записная книжка | 6.4.8 | numba | 0.55.1 | numpy | 1.21.5 |
oauthlib | 3.2.0 | opt-einsum | 3.3.0 | упаковка | 21,3 |
pandas | 1.4.2 | pandas-profiling | 3.3.0 | pandocfilters | 1.5.0 |
paramiko | 2.9.2 | parso | 0.8.3 | pathspec | 0.9.0 |
патия | 0.6.1 | простак | 0.5.2 | petastorm | 0.11.4 |
pexpect | 4.8.0 | фик | 0.12.2 | pickleshare | 0.7.5 |
Подушка | 9.0.1 | pip | 21.2.4 | platformdirs | 2.5.4 |
plotly | 5.6.0 | pmdarima | 2.0.1 | нажатый | 3.0.8 |
prometheus-client | 0.13.1 | prompt-toolkit | 3.0.20 | пророк | 1.1.1 |
protobuf | 3.19.4 | psutil | 5.8.0 | psycopg2 | 2.9.3 |
ptyprocess | 0.7.0 | pure-eval | 0.2.2 | pyarrow | 7.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.10.1 |
pycparser | 2.21 | pydantic | 1.9.2 | Pygments | 2.11.2 |
PyGObject | 3.36.0 | PyJWT | 2.6.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.5.0 | pyodbc | 4.0.32 | pyparsing | 3.0.4 |
pyrsistent | 0.18.0 | python-dateutil | 2.8.2 | редактор-python | 1.0.4 |
pytz | 2021.3 | PyWavelets | 1.3.0 | PyYAML | 6,0 |
pyzmq | 22.3.0 | regex | 2022.3.15 | запросы | 2.27.1 |
requests-oauthlib | 1.3.1 | requests-unixsocket | 0.2.0 | rsa | 4.7.2 |
s3transfer | 0.5.0 | scikit-learn | 1.0.2 | scipy | 1.7.3 |
мореборн | 0.11.2 | Send2Trash | 1.8.0 | setuptools (набор инструментов для настройки) | 61.2.0 |
setuptools-git | 1.2 | шап | 0.41.0 | simplejson | 3.17.6 |
шесть | 1.16.0 | Слайсер | 0.0.7 | smart-open | 5.1.0 |
smmap | 5.0.0 | сито для супа | 2.3.1 | просторный | 3.4.1 |
spacy-legacy | 3.0.10 | spacy-loggers | 1.0.3 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.2 | серьезно | 2.4.5 | ssh-import-id | 5,10 |
stack-data | 0.2.0 | statsmodels | 0.13.2 | табулировать | 0.8.9 |
запутанный в юникоде | 0.2.0 | упорство | 8.0.1 | tensorboard | 2.10.0 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.8.0 | tensorboard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.10.0 | tensorflow-estimator | 2.10.0 | tensorflow-io-gcs-filesystem | 0.28.0 |
termcolor | 2.1.1 | завершено | 0.13.1 | тестовый путь | 0.5.0 |
thinc | 8.1.5 | threadpoolctl | 2.2.0 | tokenize-rt | 4.2.1 |
токенизаторы | 0.13.2 | tomli | 1.2.2 | фонарик | 1.12.1+цп |
torchvision | 0.13.1+цп | tornado | 6.1 | tqdm | 4.64.0 |
traitlets | 5.1.1 | Трансформаторы | 4.23.1 | typer | 0.4.2 |
typing_extensions | 4.1.1 | unattended-upgrades | 0,1 | urllib3 | 1.26.9 |
virtualenv | 20.8.0 | видения | 0.7.5 | васаби | 0.10.1 |
wcwidth | 0.2.5 | вебкодировки | 0.5.1 | websocket-client | 0.58.0 |
Инструмент | 2.0.3 | колесо | 0.37.1 | widgetsnbextension | 3.6.1 |
завернутый | 1.12.1 | zipp | 3.7.0 |
Библиотеки Python в кластерах GPU
Библиотека | Версия | Библиотека | Версия | Библиотека | Версия |
---|---|---|---|---|---|
absl-py | 1.0.0 | argon2-cffi | 21.3.0 | argon2-cffi-bindings | 21.2.0 |
astor | 0.8.1 | asttokens | 2.0.5 | astunparse | 1.6.3 |
атрибуты | 21.4.0 | azure-core | 1.26.1 | azure-cosmos | 4.2.0 |
обратный вызов | 0.2.0 | backports.entry-points-selectable | 1.2.0 | bcrypt | 3.2.0 |
beautifulsoup4 | 4.11.1 | черный | 22.3.0 | отбеливатель | 4.1.0 |
blis | 0.7.9 | boto3 | 1.21.32 | botocore | 1.24.32 |
cachetools | 4.2.2 | каталог | 2.0.8 | кодировщики категорий | 2.5.1.post0 |
сертификат | 2021.10.8 | cffi | 1.15.0 | chardet | 4.0.0 |
charset-normalizer | 2.0.4 | щелчок | 8.0.4 | cloudpickle | 2.0.0 |
cmdstanpy | 1.0.8 | кондитерские изделия | 0.0.3 | configparser | 5.2.0 |
преобразовать дату | 2.4.0 | криптография | 3.4.8 | циклер | 0.11.0 |
cymem | 2.0.7 | Cython | 0.29.28 | databricks-automl-runtime | 0.2.13 |
databricks-cli | 0.17.3 | databricks-feature-store | 0.8.0 | dbl-tempo | 0.1.12 |
dbus-python | 1.2.16 | debugpy | 1.5.1 | декоратор | 5.1.1 |
defusedxml | 0.7.1 | укроп | 0.3.4 | кэш диска | 5.4.0 |
distlib | 0.3.6 | точки входа | 0,4 | ephem | 4.1.3 |
выполняется | 0.8.3 | обзор аспектов | 1.0.0 | fastjsonschema | 2.16.2 |
fasttext | 0.9.2 | блокировка файлов | 3.6.0 | Flask | 1.1.2 |
флэтбафферс | 22.10.26 | шрифтовые инструменты | 4.25.0 | fsspec | 2022.2.0 |
будущее | 0.18.2 | gast | 0.4.0 | gitdb | 4.0.9 |
GitPython | 3.1.27 | google-auth | 1.33.0 | google-auth-oauthlib | 0.4.6 |
google-pasta | 0.2.0 | grpcio | 1.42.0 | gunicorn | 20.1.0 |
gviz-api | 1.10.0 | h5py | 3.6.0 | hijri-converter | 2.2.4 |
праздники | 0,16 | horovod | 0.25.0 | htmlmin | 0.1.12 |
huggingface-hub | 0.11.0 | IDNA | 3,3 | ImageHash | 4.3.1 |
imbalanced-learn | 0.8.1 | importlib-metadata | 4.11.3 | ipykernel | 6.15.3 |
ipython | 8.5.0 | ipython-genutils | 0.2.0 | ipywidgets | 7.7.2 |
isodate | 0.6.1 | itsdangerous | 2.0.1 | джедай | 0.18.1 |
Jinja2 | 2.11.3 | jmespath | 0.10.0 | joblib | 1.1.0 |
joblibspark | 0.5.0 | jsonschema | 4.4.0 | jupyter-client | 6.1.12 |
jupyter_core | 4.11.2 | jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 |
keras | 2.10.0 | Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.2 |
корейский лунный календарь | 0.3.1 | языковые коды | 3.3.0 | libclang | 14.0.6 |
lightgbm | 3.3.3 | llvmlite | 0.38.0 | Лунный календарь | 0.0.9 |
Mako | 1.2.0 | Markdown | 3.3.4 | MarkupSafe | 2.0.1 |
matplotlib | 3.5.1 | matplotlib-inline | 0.1.2 | Миссингно | 0.5.1 |
мистюн | 0.8.4 | mleap | 0.20.0 | mlflow-skinny | 2.0.1 |
мультиметод | 1.8 | murmurhash | 1.0.9 | mypy-extensions | 0.4.3 |
nbclient | 0.5.13 | nbconvert | 6.4.4 | nbformat | 5.3.0 |
nest-asyncio | 1.5.5 | networkx | 2.7.1 | nltk | 3,7 |
записная книжка | 6.4.8 | numba | 0.55.1 | numpy | 1.21.5 |
oauthlib | 3.2.0 | opt-einsum | 3.3.0 | упаковка | 21,3 |
pandas | 1.4.2 | pandas-profiling | 3.3.0 | pandocfilters | 1.5.0 |
paramiko | 2.9.2 | Парсо | 0.8.3 | спецификация пути | 0.9.0 |
патия | 0.6.1 | козёл отпущения | 0.5.2 | petastorm | 0.11.4 |
pexpect | 4.8.0 | phik | 0.12.2 | pickleshare | 0.7.5 |
Подушка | 9.0.1 | pip | 21.2.4 | platformdirs | 2.5.4 |
график | 5.6.0 | pmdarima | 2.0.1 | нажатый | 3.0.8 |
prompt-toolkit | 3.0.20 | пророк | 1.1.1 | protobuf | 3.19.4 |
psutil | 5.8.0 | psycopg2 | 2.9.3 | ptyprocess | 0.7.0 |
pure-eval | 0.2.2 | pyarrow | 7.0.0 | pyasn1 | 0.4.8 |
pyasn1-modules | 0.2.8 | pybind11 | 2.10.1 | pycparser | 2.21 |
pydantic | 1.9.2 | Pygments | 2.11.2 | PyGObject | 3.36.0 |
PyJWT | 2.6.0 | PyMeeus | 0.5.11 | PyNaCl | 1.5.0 |
pyodbc | 4.0.32 | pyparsing | 3.0.4 | пирсистент | 0.18.0 |
python-dateutil | 2.8.2 | редактор Python | 1.0.4 | pytz | 2021.3 |
PyWavelets | 1.3.0 | PyYAML | 6,0 | pyzmq | 22.3.0 |
regex | 2022.3.15 | заявки | 2.27.1 | requests-oauthlib | 1.3.1 |
requests-unixsocket | 0.2.0 | rsa | 4.7.2 | s3transfer | 0.5.0 |
scikit-learn | 1.0.2 | scipy | 1.7.3 | мореборн | 0.11.2 |
Send2Trash | 1.8.0 | setuptools | 61.2.0 | setuptools-git | 1.2 |
шап | 0.41.0 | simplejson | 3.17.6 | шесть | 1.16.0 |
Нарезчик | 0.0.7 | smart-open | 5.1.0 | smmap | 5.0.0 |
ситечко для супа | 2.3.1 | расплывчатый | 3.4.1 | spacy-legacy | 3.0.10 |
spacy-loggers | 1.0.3 | spark-tensorflow-distributor (дистрибьютор Spark и TensorFlow) | 1.0.0 | sqlparse | 0.4.2 |
серьёзно | 2.4.5 | ssh-import-id | 5,10 | stack-data | 0.2.0 |
statsmodels | 0.13.2 | табулировать | 0.8.9 | запутаться-в-юникоде | 0.2.0 |
упорство | 8.0.1 | tensorboard | 2.10.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-profile | 2.8.0 | tensorboard-plugin-wit | 1.8.1 | Tensorflow | 2.10.0 |
tensorflow-estimator | 2.10.0 | tensorflow-io-gcs-filesystem | 0.28.0 | termcolor | 2.1.1 |
завершено | 0.13.1 | тестовый путь | 0.5.0 | thinc | 8.1.5 |
threadpoolctl | 2.2.0 | tokenize-rt | 4.2.1 | токенизаторы | 0.13.2 |
tomli | 1.2.2 | фонарик | 1.12.1+cu113 | torchvision | 0.13.1+cu113 |
tornado | 6.1 | tqdm | 4.64.0 | traitlets | 5.1.1 |
Трансформаторы | 4.23.1 | typer | 0.4.2 | typing_extensions | 4.1.1 |
автоматические обновления | 0,1 | urllib3 | 1.26.9 | virtualenv | 20.8.0 |
видения | 0.7.5 | васаби | 0.10.1 | wcwidth | 0.2.5 |
веб-кодировки | 0.5.1 | вебсокет-клиент | 0.58.0 | Werkzeug | 2.0.3 |
колесо | 0.37.1 | widgetsnbextension | 3.6.1 | закутанный | 1.12.1 |
молния | 3.7.0 |
Библиотеки R
Библиотеки R идентичны библиотекам R в Databricks Runtime 12.0.
Библиотеки Java и Scala (кластер Scala 2.12)
Помимо библиотек Java и Scala в Databricks Runtime 12.0, Databricks Runtime 12.0 ML содержит следующие JAR:
Кластеры ЦП
ИД группы | Идентификатор артефакта | Версия |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | v0.20.0-db1 |
ml.dmlc | xgboost4j-spark_2.12 | 1.6.2 |
ml.dmlc | xgboost4j_2.12 | 1.6.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 2.0.1 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Кластеры GPU
ИД группы | Идентификатор артефакта | Версия |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | v0.20.0-db1 |
ml.dmlc | xgboost4j-gpu_2.12 | 1.6.2 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.6.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 2.0.1 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |