Поделиться через


Databricks Runtime 5.0 ML (EoS)

Примечание.

Поддержка этой версии databricks Runtime закончилась. См. историю окончания поддержки для получения сведений о дате завершения поддержки. Для всех поддерживаемых версий Databricks Runtime см. заметки о выпуске и совместимости Databricks Runtime.

Databricks выпустила эту версию в ноябре 2018 года.

Databricks Runtime 5.0 ML предоставляет готовую среду для Машинного обучения и обработки и анализа данных. Она содержит множество популярных библиотек, включая TensorFlow, Keras и XGBoost. Она также поддерживает распределенное обучение TensorFlow с использованием Horovod.

Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в статье ИИ и машинное обучение в Databricks.

Новые возможности

В основе Databricks Runtime 5.0 ML лежит Databricks Runtime 5.0. Для получения информации о новых возможностях Databricks Runtime 5.0 см. заметки о выпуске Databricks Runtime 5.0 (EoS). Помимо новых функций в версии Databricks Runtime 5.0, версия Databricks Runtime 5.0 ML включает следующие новые функции:

  • HorovodRunner для запуска распределенных заданий глубокого обучения с помощью Horovod.
  • Поддержка Conda для управления пакетами.
  • Интеграция MLeap.
  • Интеграция GraphFrames.

Примечание.

Выпуски Databricks Runtime ML получают все сервисные обновления базового выпуска Databricks Runtime. Список всех обновлений обслуживания см. в разделе "Обновления обслуживания" для среды выполнения Databricks (архивировано).

Системная среда

Ниже перечислены различия в системном окружении Databricks Runtime 5.0 и Databricks Runtime 5.0 ML.

  • Python: 2.7.15 для кластеров Python 2 и 3.6.5 для кластеров Python 3.
  • Для кластеров GPU следующие библиотеки GPU NVIDIA:
    • Драйвер Tesla 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

Библиотеки

В этом разделе перечислены различия в библиотеках в составе сред Databricks Runtime 5.0 и Databricks Runtime 5.0 ML.

Библиотеки Python

Для управления пакетами Python Databricks Runtime 5.0 ML использует Conda. Ниже приведен полный список пакетов и версий Python, установленных с помощью диспетчера пакетов Conda.

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 0.6.1 argparse 1.4.0 asn1crypto 0.24.0
Астор 0.7.1 backports-abc 0,5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.4 отбеливатель 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
сертификат 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 конфигпарсер 3.5.0
криптография 2.2.2 циклер 0.10.0 Cython 0.28.2
декоратор 4.3.0 docutils 0,14 точки входа 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 фьючерсы 3.2.0
gast 0.2.0 grpcio 1.12.1 h5py 2.8.0
хоровод 0.15.0 html5lib 1.0.1 idna 2.6
IP-адрес 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2,10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-client 5.2.3 jupyter-core 4.4.0
Keras 2.2.4 Keras-Applications 1.0.6 Keras-Preprocessing 1.0.5
kiwisolver 1.0.1 linecache2 1.0.0 llvmlite 0.23.1
lxml 4.2.1 Markdown 3.0.1 MarkupSafe 1.0
matplotlib 2.2.2 mistune 0.8.3 mleap 0.8.1
mock 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 нос 1.3.7 nose-exclude 0.5.0
numba 0.38.0+0.g2a2b772fc.dirty numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 pandas 0.23.0 pandocfilters 1.4.2
paramiko 2.4.1 pathlib2 2.3.2 простофиля 0.5.0
pbr 5.1.0 pexpect 4.5.0 pickleshare 0.7.4
Подушка 5.1.0 pip 10.0.1 слой 3.11
prompt-toolkit 1.0.15 protobuf 3.6.1 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.8.0 pyasn1 0.4.4
pycparser 2.18 Pygments 2.2.0 PyNaCl 1.3.0
pyOpenSSL 18.0.0 pyparsing 2.2.0 PySocks 1.6.8
Python 2.7.15 python-dateutil 2.7.3 pytz 2018.4
PyYAML 3.12 pyzmq 17.0.0 запросы 2.18.4
s3transfer 0.1.13 scandir 1,7 scikit-learn 0.19.1
scipy 1.1.0 мореборн 0.8.1 setuptools 39.1.0
simplegeneric 0.8.1 singledispatch 3.4.0.3 шесть 1.11.0
statsmodels 0.9.0 subprocess32 3.5.3 tensorboard 1.10.0
tensorflow 1.10.0 termcolor 1.1.0 тестовый путь 0.3.1
tornado 5.0.2 traceback2 1.4.0 traitlets 4.3.2
unittest2 1.1.0 urllib3 1.22 virtualenv 16.0.0
wcwidth 0.1.7 веб-кодировки 0.5.1 Werkzeug 0.14.1
колесо 0.31.1 закутанный 1.10.11 wsgiref 0.1.2

Кроме того, модули Python включены в следующие пакеты Spark:

Пакет Spark Модуль Python Версия
tensorframes тензорфреймс 0.5.0-s_2.11
graphframes graphframes 0.6.0-db3-spark2.4
spark-deep-learning sparkdl 1.3.0-db2-spark2.4

Библиотеки R

Библиотеки R идентичны библиотекам R в Databricks Runtime 5.0.

Библиотеки Java и Scala (кластер Scala 2.11)

Помимо библиотек Java и Scala в Databricks Runtime 5.0, среда Databricks Runtime 5.0 ML также включает следующие пакеты JAR:

ИД группы Идентификатор артефакта Версия
com.databricks spark-deep-learning 1.3.0-db2-spark2.4
org.tensorframes tensorframes 0.5.0-s_2.11
org.graphframes graphframes_2.11 0.6.0-db3-spark2.4
org.tensorflow libtensorflow 1.10.0
org.tensorflow libtensorflow_jni 1.10.0
org.tensorflow spark-tensorflow-connector_2.11 1.10.0-spark2.4-001
org.tensorflow Тензорфлоу 1.10.0
ml.dmlc xgboost4j 0.80
ml.dmlc xgboost4j-spark 0.80
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0-SNAPSHOT