Databricks Runtime 10.2 для машинного обучения (EoS)
Примечание.
Поддержка этой версии databricks Runtime закончилась. Сведения о дате окончания поддержки см . в журнале завершения поддержки. Все поддерживаемые версии среды выполнения Databricks см. в заметках о выпуске Databricks Runtime и совместимости.
Databricks выпустила эту версию в декабре 2021 года.
Databricks Runtime 10.2 для Машинное обучение предоставляет готовую среду для машинного обучения и обработки и анализа данных на основе Databricks Runtime 10.2 (EoS). Databricks Runtime ML содержит множество популярных библиотек машинного обучения, включая TensorFlow, PyTorch и XGBoost. Databricks Runtime ML включает AutoML – средство для автоматического обучения конвейеров машинного обучения. Databricks Runtime ML также поддерживает распределенное углубленное обучение с использованием Horovod.
Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в статье ИИ и машинное обучение в Databricks.
Новые функции и внесенные улучшения
В основе Databricks Runtime 10.2 ML лежит Databricks Runtime 10.2. Сведения о новых возможностях Databricks Runtime 10.2, включая Apache Spark MLlib и SparkR, см. в заметках о выпуске Databricks Runtime 10.2 (EoS).
Автоматическое ведение журнала в Databricks (общедоступная предварительная версия)
Функции автоматического ведения журнала Databricks теперь доступны во всех регионах в качестве общедоступной предварительной версии. Автоматическое ведение журнала в Databricks – это решение без кода, которое обеспечивает автоматическое отслеживание экспериментов для обучающих сеансов по машинному обучению в Azure Databricks. Благодаря Databricks Autologging параметры модели, метрики, файлы и сведения о происхождении автоматически регистрируются при обучении моделей с помощью разных популярных библиотек машинного обучения. Обучающие сеансы записываются как Запуски отслеживания MLflow. Файлы моделей также отслеживаются, чтобы можно было легко регистрировать их в реестре моделей MLflow и развертывать их для оценки в режиме реального времени с помощью службы моделей MLflow.
Для получения дополнительной информации об автоматическом ведении журнала в Databricks см. Автоматическое ведение журнала в Databricks.
Усовершенствования в AutoML
В AutoML были добавлены следующие улучшения.
- AutoML игнорирует столбцы, содержащие только одно значение.
- В случае проблем с классификацией и регрессией столбец времени, используемый для разбиения набора данных на обучающие, проверочные и тестовые наборы, теперь можно использовать как строковый тип. Ранее поддерживались только отметки времени и целые числа. Дополнительные сведения см. в разделе "Разделение данных на обучение, проверку и тестовые наборы ".
Улучшения хранилища признаков в Databricks
В хранилище признаков в Databricksбыли внесены следующие улучшения.
Упрощенный интерфейс FeatureStoreClient
Интерфейс FeatureStoreClient упрощен.
-
FeatureStoreClient.create_feature_table()
больше не поддерживается. ИспользуйтеFeatureStoreClient.create_table()
. -
FeatureStoreClient.get_feature_table()
больше не поддерживается. ИспользуйтеFeatureStoreClient.get_table()
. - Все аргументы для
FeatureStoreClient.publish_table()
, кромеname
иonline_store
, должны передаваться как аргументы ключевого слова.
Публикация выбранных столбцов в онлайн-хранилищах
Хранилище признаков в Databricks теперь поддерживает публикацию только выбранных столбцов в онлайн-хранилищах. Дополнительные сведения см. в статье Публикация выбранных признаков в онлайн-хранилище.
Основные изменения в среде Python для Databricks Runtime ML
Интеграция автоматического отслеживания MLflow для Apache Spark MLlib, которая была снята с поддержки в Databricks Runtime 10.1 ML, в Databricks Runtime 10.2 ML по умолчанию отключена. Она была заменена на Интеграцию автоматического ведения журнала PySpark ML MLflow, которая по умолчанию включена с помощью функции Автоматическое ведение журнала в Databricks. Функция автоматического ведения журнала регистрирует не только то, что автоматически отслеживает функция MLflow для MLlib, но и параметры, метрики и артефакты, связанные с лучшей моделью.
Обновлены пакеты Python
- databricks-cli 0.14.3 => 0.16.2
- keras 2.6.0 => 2.7.0
- lightgbm 3.3.0 => 3.3.1
- mlflow 1.21.0 => 1.22.0
- plotly 5.3.0 => 5.3.1
- shap 0.39.0 => 0.40.0
- spacy 3.1.3 => 3.2.0
- tensorboard 2.6.0 => 2.7.0
- tensorflow 2.6.0 => 2.7.0
- torch 1.9.1 => 1.10.0
- torchvision 0.10.1 => 0.11.1
- transformers 4.11.3 => 4.12.3
- xgboost 1.4.2 => 1.5.0
Системная среда
Ниже описаны отличия системной среды в Databricks Runtime 10.2 ML от Databricks Runtime 10.2.
-
DBUtils: Databricks Runtime ML не включает служебную программу библиотеки (dbutils.library) (устаревшая версия).
Вместо нее используйте команды
%pip
. См. статью Библиотеки Python с областью действия записной книжки. - Для кластеров GPU машинное обучение Databricks Runtime включает следующие библиотеки GPU NVIDIA:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Библиотеки
В следующих разделах перечислены библиотеки, включенные в Databricks Runtime 10.2 ML, кроме тех, которые входят в состав Databricks Runtime 10.2.
В этом разделе рассматриваются следующие вопросы.
- Библиотеки верхнего уровня
- Библиотеки Python
- Библиотеки R
- Библиотеки Java и Scala (кластер Scala 2.12)
Библиотеки верхнего уровня
Databricks Runtime 10.2 ML включает следующие библиотеки верхнего уровня:
- GraphFrames
- Horovod и HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Библиотеки Python
Databricks Runtime 10.2 ML использует Virtualenv для управления пакетами Python и включает множество популярных пакетов ML.
Помимо пакетов, указанных в следующих разделах, Databricks Runtime 10.2 ML также включает следующие пакеты:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.6
- automl 1.5.0
Библиотеки Python в кластерах CPU
Библиотека | Версия | Библиотека | Версия | Библиотека | Версия |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | catalogue | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | щелчок | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | криптография | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.4 |
databricks-cli | 0.16.2 | dbus-python | 1.2.16 | decorator | 5.0.6 |
defusedxml | 0.7.1 | dill | 0.3.2 | diskcache | 5.2.1 |
distlib | 0.3.3 | distro-info | 0.23ubuntu1 | entrypoints | 0,3 |
ephem | 4.1.1 | facets-overview | 1.0.0 | fasttext | 0.9.2 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 2.0 |
fsspec | 0.9.0 | будущее | 0.18.2 | gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | gviz-api | 1.10.0 | h5py | 3.1.0 |
hijri-converter | 2.2.2 | holidays | 0.11.3.1 | horovod | 0.23.0 |
htmlmin | 0.1.12 | huggingface-hub | 0.1.2 | idna | 2,10 |
ImageHash | 4.2.1 | imbalanced-learn | 0.8.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.7.0 | Keras-Preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | koalas | 1.8.2 | korean-lunar-calendar | 0.2.1 |
langcodes | 3.3.0 | libclang | 12.0.0 | lightgbm; | 3.3.1 |
llvmlite | 0.37.0 | LunarCalendar | 0.0.9 | Mako | 1.1.3 |
Markdown | 3.3.3 | MarkupSafe | 2.0.1 | matplotlib | 3.4.2 |
missingno | 0.5.0 | mistune | 0.8.4 | mleap | 0.18.1 |
mlflow-skinny | 1.22.0 | multimethod | 1,6 | murmurhash | 1.0.5 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
записная книжка | 6.3.0 | numba | 0.54.1 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | во внешнем виде | 21,3 |
pandas | 1.2.4 | pandas-profiling | 3.1.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | pathy | 0.6.0 |
patsy | 0.5.1 | petastorm | 0.11.3 | pexpect | 4.8.0 |
phik | 0.12.0 | pickleshare | 0.7.5 | Pillow | 8.2.0 |
pip | 21.0.1 | график | 5.3.1 | preshed | 3.0.5 |
prometheus-client | 0.10.1 | prompt-toolkit | 3.0.17 | пророк | 1.0.1 |
protobuf | 3.17.2 | psutil | 5.8.0 | psycopg2 | 2.8.5 |
ptyprocess | 0.7.0 | pyarrow | 4.0.0 | pyasn1 | 0.4.8 |
pyasn1-modules | 0.2.8 | pybind11 | 2.8.1 | pycparser | 2,20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.4.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pyrsistent | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | python-editor | 1.0.4 |
python-engineio | 4.3.0 | python-socketio | 5.4.1 | pytz | 2020.5 |
PyWavelets | 1.1.1 | PyYAML | 5.4.1 | pyzmq | 20.0.0 |
regex | 2021.4.4 | requests | 2.25.1 | requests-oauthlib | 1.3.0 |
requests-unixsocket | 0.2.0 | rsa | 4.7.2 | s3transfer | 0.3.7 |
sacremoses | 0.0.46 | scikit-learn | 0.24.1 | scipy | 1.6.2 |
мореборн | 0.11.1 | Send2Trash | 1.5.0 | setuptools | 52.0.0 |
setuptools-git | 1.2 | shap | 0.40.0 | simplejson | 3.17.2 |
six | 1.15.0 | Среза | 0.0.7 | smart-open | 5.2.0 |
smmap | 3.0.5 | spacy | 3.2.0 | spacy-legacy | 3.0.8 |
spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 |
srsly | 2.4.1 | ssh-import-id | 5,10 | statsmodels | 0.12.2 |
tabulate | 0.8.7 | tangled-up-in-unicode | 0.1.0 | tenacity | 6.2.0 |
tensorboard | 2.7.0 | tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 |
tensorboard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.7.0 | tensorflow-estimator | 2.7.0 |
tensorflow-io-gcs-filesystem | 0.22.0 | termcolor | 1.1.0 | terminado | 0.9.4 |
testpath | 0.4.4 | thinc | 8.0.12 | threadpoolctl | 2.1.0 |
токенизаторы | 0.10.3 | torch | 1.10.0+cpu | torchvision | 0.11.1+cpu |
tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
Трансформаторы | 4.12.3 | typer | 0.3.2 | typing-extensions | 3.7.4.3 |
ujson | 4.0.2 | unattended-upgrades | 0,1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | visions | 0.7.4 | wasabi | 0.8.2 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | wheel | 0.36.2 | widgetsnbextension | 3.5.1 |
wrapt | 1.12.1 | XGBoost | 1.5.0 | zipp | 3.4.1 |
Библиотеки Python в кластерах GPU
Библиотека | Версия | Библиотека | Версия | Библиотека | Версия |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | catalogue | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | щелчок | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | криптография | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.4 |
databricks-cli | 0.16.2 | dbus-python | 1.2.16 | decorator | 5.0.6 |
defusedxml | 0.7.1 | dill | 0.3.2 | diskcache | 5.2.1 |
distlib | 0.3.3 | distro-info | 0.23ubuntu1 | entrypoints | 0,3 |
ephem | 4.1.1 | facets-overview | 1.0.0 | fasttext | 0.9.2 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 2.0 |
fsspec | 0.9.0 | будущее | 0.18.2 | gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | gviz-api | 1.10.0 | h5py | 3.1.0 |
hijri-converter | 2.2.2 | holidays | 0.11.3.1 | horovod | 0.23.0 |
htmlmin | 0.1.12 | huggingface-hub | 0.1.2 | idna | 2,10 |
ImageHash | 4.2.1 | imbalanced-learn | 0.8.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.7.0 | Keras-Preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | koalas | 1.8.2 | korean-lunar-calendar | 0.2.1 |
langcodes | 3.3.0 | libclang | 12.0.0 | lightgbm; | 3.3.1 |
llvmlite | 0.37.0 | LunarCalendar | 0.0.9 | Mako | 1.1.3 |
Markdown | 3.3.3 | MarkupSafe | 2.0.1 | matplotlib | 3.4.2 |
missingno | 0.5.0 | mistune | 0.8.4 | mleap | 0.18.1 |
mlflow-skinny | 1.22.0 | multimethod | 1,6 | murmurhash | 1.0.5 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
записная книжка | 6.3.0 | numba | 0.54.1 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | во внешнем виде | 21,3 |
pandas | 1.2.4 | pandas-profiling | 3.1.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | pathy | 0.6.0 |
patsy | 0.5.1 | petastorm | 0.11.3 | pexpect | 4.8.0 |
phik | 0.12.0 | pickleshare | 0.7.5 | Pillow | 8.2.0 |
pip | 21.0.1 | график | 5.3.1 | preshed | 3.0.5 |
prompt-toolkit | 3.0.17 | пророк | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.8.1 | pycparser | 2,20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 |
python-dateutil | 2.8.1 | python-editor | 1.0.4 | python-engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
requests | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
rsa | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | мореборн | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
shap | 0.40.0 | simplejson | 3.17.2 | six | 1.15.0 |
Среза | 0.0.7 | smart-open | 5.2.0 | smmap | 3.0.5 |
spacy | 3.2.0 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | srsly | 2.4.1 |
ssh-import-id | 5,10 | statsmodels | 0.12.2 | tabulate | 0.8.7 |
tangled-up-in-unicode | 0.1.0 | tenacity | 6.2.0 | tensorboard | 2.7.0 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.0 |
tensorflow | 2.7.0 | tensorflow-estimator | 2.7.0 | tensorflow-io-gcs-filesystem | 0.22.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | testpath | 0.4.4 |
thinc | 8.0.12 | threadpoolctl | 2.1.0 | токенизаторы | 0.10.3 |
torch | 1.10.0+cu111 | torchvision | 0.11.1+cu111 | tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | Трансформаторы | 4.12.3 |
typer | 0.3.2 | typing-extensions | 3.7.4.3 | ujson | 4.0.2 |
unattended-upgrades | 0,1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
visions | 0.7.4 | wasabi | 0.8.2 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
wheel | 0.36.2 | widgetsnbextension | 3.5.1 | wrapt | 1.12.1 |
XGBoost | 1.5.0 | zipp | 3.4.1 |
Пакеты Spark, содержащие модули Python
Пакет Spark | Модуль Python | Версия |
---|---|---|
graphframes | graphframes | 0.8.2-db1-spark3.2 |
Библиотеки R
Библиотеки R идентичны библиотекам R в Databricks Runtime 10.2.
Библиотеки Java и Scala (кластер Scala 2.12)
Помимо библиотек Java и Scala в Databricks Runtime 10.2, среда Databricks Runtime 10.2 ML также включает следующие пакеты JAR:
Кластеры ЦП
ИД группы | Идентификатор артефакта | Версия |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.22.0 |
org.mlflow | mlflow-spark | 1.22.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Кластеры GPU
ИД группы | Идентификатор артефакта | Версия |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.22.0 |
org.mlflow | mlflow-spark | 1.22.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |