Databricks Runtime 5.3 ML (EoS)
Примечание.
Поддержка этой версии databricks Runtime закончилась. Сведения о дате окончания поддержки см . в журнале завершения поддержки. Все поддерживаемые версии среды выполнения Databricks см. в заметках о выпуске Databricks Runtime и совместимости.
Databricks выпустила эту версию в апреле 2019 года.
Databricks Runtime 5.3 ML предоставляет готовую среду для машинного обучения и обработки и анализа данных на основе Databricks Runtime 5.3 (EoS). Databricks Runtime для Машинного обучения содержит множество популярных библиотек машинного обучения, включая TensorFlow, PyTorch, Keras и XGBoost. Эта среда также поддерживает распределенное глубокое обучение с использованием Horovod.
Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в статье ИИ и машинное обучение в Databricks.
Новые возможности
В основе Databricks Runtime 5.3 ML лежит Databricks Runtime 5.3. Сведения о новых возможностях Databricks Runtime 5.3 см. в заметках о выпуске Databricks Runtime 5.3 (EoS). Помимо обновлений библиотек, Databricks Runtime 5.3 ML включает следующие новые функции:
Интеграция Apache Spark MLlib + MLflow: Databricks Runtime 5.3 ML поддерживает автоматическое ведение журнала запусков MLflow для моделей, адаптированных с использованием алгоритмов настройки PySpark
CrossValidator
иTrainValidationSplit
.Внимание
Доступна закрытая предварительная версия этой функции. Обратитесь к торговому представителям Azure Databricks, чтобы узнать о его включении.
Обновляет следующие библиотеки до последней версии:
- Обновление PyArrow с 0.8.0 до 0.12.1:
BinaryType
поддерживается посредством преобразования на основе Arrow и может использоваться в PandaUDF. - Horovod с 0.15.2 до 0.16.0.
- TensorboardX с 1.4 до 1.6.
- Обновление PyArrow с 0.8.0 до 0.12.1:
API экспорта модели Databricks ML не рекомендуется использовать. Azure Databricks рекомендует использовать вместо него MLeap, который обеспечивает более широкий охват типов моделей MLlib. Дополнительные сведения см. в модели экспорта MLeap ML.
Примечание.
Кроме того, Databricks Runtime 5.3 содержит новое подключение FUSE, оптимизированное для загрузки данных, создания контрольных точек модели и ведения журнала каждой рабочей роли в общую папку хранилища file:/dbfs/ml
, которая обеспечивает высокопроизводительные операции ввода-вывода для рабочих нагрузок глубокого обучения. Сведения о загрузке данных для машинного обучения и глубокого обучения.
Обновления в рамках обслуживания
См. Служебные обновления Databricks Runtime 5.4 ML.
Системная среда
Ниже описаны отличия системной среды в Databricks Runtime 5.3 ML от Databricks Runtime 5.3.
- Python: 2.7.15 для кластеров Python 2 и 3.6.5 для кластеров Python 3.
- DBUtils: Databricks Runtime 5.3 ML не содержит служебной программы библиотеки (dbutils.library) (устаревшая версия).
- Для кластеров GPU следующие библиотеки GPU NVIDIA:
- Драйвер Tesla 396.44
- CUDA 9.2
- CUDNN 7.2.1
Библиотеки
В следующих разделах list приведены библиотеки, включенные в Databricks Runtime 5.3 ML, которые отличаются от включенных в Databricks Runtime 5.3.
Библиотеки верхнего уровня
Databricks Runtime 5.3 ML включает следующие библиотеки верхнего уровня:
Библиотеки Python
Для управления пакетами Python Databricks Runtime 5.3 ML использует Conda. В результате существуют значительные различия в предустановленных библиотеках Python по сравнению с Databricks Runtime. Ниже приведен полный list предоставленных пакетов и версий Python, установленных с помощью менеджера пакетов Conda.
Библиотека | Версия | Библиотека | Версия | Библиотека | Версия |
---|---|---|---|---|---|
absl-py | 0.7.0 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
astor | 0.7.1 | backports-abc | 0,5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.post1 | bcrypt | 3.1.6 | bleach | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
cloudpickle | 0.5.3 | colorama | 0.3.9 | configparser | 3.5.0 |
криптография | 2.2.2 | cycler | 0.10.0 | Cython | 0.28.2 |
decorator | 4.3.0 | docutils | 0,14 | entrypoints | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | фьючерсы | 3.2.0 |
gast | 0.2.2 | grpcio | 1.12.1 | h5py | 2.8.0 |
horovod | 0.16.0 | html5lib | 1.0.1 | idna | 2.6 |
ipaddress | 1.0.22 | ipython | 5.7.0 | ipython_genutils | 0.2.0 |
jdcal | 1.4 | Jinja2 | 2,10 | jmespath | 0.9.3 |
jsonschema | 2.6.0 | jupyter-client | 5.2.3 | jupyter-core | 4.4.0 |
Keras | 2.2.4 | Keras-Applications | 1.0.6 | Keras-Preprocessing | 1.0.5 |
kiwisolver | 1.0.1 | linecache2 | 1.0.0 | llvmlite | 0.23.1 |
lxml | 4.2.1 | Markdown | 3.0.1 | MarkupSafe | 1.0 |
matplotlib | 2.2.2 | mistune | 0.8.3 | mleap | 0.8.1 |
mock | 2.0.0 | msgpack | 0.5.6 | nbconvert | 5.3.1 |
nbformat | 4.4.0 | nose | 1.3.7 | nose-exclude | 0.5.0 |
numba | 0.38.0+0.g2a2b772fc.dirty | numpy | 1.14.3 | olefile | 0.45.1 |
openpyxl | 2.5.3 | pandas | 0.23.0 | pandocfilters | 1.4.2 |
paramiko | 2.4.1 | pathlib2 | 2.3.2 | patsy | 0.5.0 |
pbr | 5.1.1 | pexpect | 4.5.0 | pickleshare | 0.7.4 |
Pillow | 5.1.0 | pip | 10.0.1 | ply | 3.11 |
prompt-toolkit | 1.0.15 | protobuf | 3.6.1 | psutil | 5.6.0 |
psycopg2 | 2.7.5 | ptyprocess | 0.5.2 | pyarrow | 0.12.1 |
pyasn1 | 0.4.5 | pycparser | 2.18 | Pygments | 2.2.0 |
PyNaCl | 1.3.0 | pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 |
PySocks | 1.6.8 | Python | 2.7.15 | python-dateutil | 2.7.3 |
pytz | 2018.4 | PyYAML | 3.12 | pyzmq | 17.0.0 |
requests | 2.18.4 | s3transfer | 0.1.13 | scandir | 1,7 |
scikit-learn | 0.19.1 | scipy | 1.1.0 | мореборн | 0.8.1 |
setuptools | 39.1.0 | simplegeneric | 0.8.1 | singledispatch | 3.4.0.3 |
six | 1.11.0 | statsmodels | 0.9.0 | subprocess32 | 3.5.3 |
tensorboard | 1.12.2 | tensorboardX | 1,6 | tensorflow | 1.12.0 |
termcolor | 1.1.0 | testpath | 0.3.1 | torch | 0.4.1 |
torchvision | 0.2.1 | tornado | 5.0.2 | traceback2 | 1.4.0 |
traitlets | 4.3.2 | unittest2 | 1.1.0 | urllib3 | 1.22 |
virtualenv | 16.0.0 | wcwidth | 0.1.7 | webencodings | 0.5.1 |
Werkzeug | 0.14.1 | wheel | 0.31.1 | wrapt | 1.10.11 |
wsgiref | 0.1.2 |
Кроме того, модули Python включены в следующие пакеты Spark:
Пакет Spark | Модуль Python | Версия |
---|---|---|
graphframes | graphframes | 0.7.0-db1-spark2.4 |
spark-deep-learning | sparkdl | 1.5.0-db1-spark2.4 |
tensorframes | tensorframes | 0.6.0-s_2.11 |
Библиотеки R
Библиотеки R идентичны библиотекам R в Databricks Runtime 5.3.
Библиотеки Java и Scala (кластер Scala 2.11)
Помимо библиотек Java и Scala в Databricks Runtime 5.3, среда Databricks Runtime 5.3 ML также включает следующие пакеты JAR:
ИД группы | Идентификатор артефакта | Версия |
---|---|---|
com.databricks | spark-deep-learning | 1.5.0-db1-spark2.4 |
com.typesafe.akka | akka-actor_2.11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0,81 |
ml.dmlc | xgboost4j-spark | 0,81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-spark2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | tensorflow | 1.12.0 |
org.tensorframes | tensorframes | 0.6.0-s_2.11 |