Databricks Runtime 5.4 for ML (サポート期間終了)
Note
この Databricks Runtime バージョンのサポートは終了しました。 サポート終了日については、「サポート終了の履歴」を参照してください。 サポートされている Databricks Runtime のすべてのバージョンについては、「Databricks Runtime リリース ノートのバージョンと互換性」を参照してください。
Databricks は、2019 年 6 月にこのバージョンをリリースしました。
Databricks Runtime 5.4 for Machine Learning では、Databricks Runtime 5.4 (サポート期間終了) に基づいて、機械学習とデータ サイエンス用にすぐに利用できる環境が用意されています。 Databricks Runtime ML には、TensorFlow、PyTorch、Keras、XGBoost など、多くの一般的な機械学習ライブラリが含まれています。 また、Horovod を使用した分散型ディープ ラーニング トレーニングもサポートされています。
Databricks Runtime ML クラスターを作成する手順などの詳細については、「Databricks での AI と機械学習」を参照してください。
新機能
Databricks Runtime 5.4 ML は Databricks Runtime 5.4 の上に構築されています。 Databricks Runtime 5.4 の新機能については、「Databricks Runtime 5.4 (サポート期間終了)」のリリース ノートをご覧ください。
Databricks Runtime 5.4 ML では、ライブラリの更新プログラムに加えて、次の新機能が導入されています。
分散 Hyperopt と自動 MLflow 追跡
Databricks Runtime 5.4 ML では、ハイパーパラメーターの調整をスケーリングおよび簡略化するために、Apache Spark を利用した Hyperopt の新しい実装が導入されています。 新しいTrials
クラスSparkTrials
が実装され、Apache Spark を使用する複数のコンピューターとノード間で Hyperopt 試用版の実行が分散されます。・ さらに、チューニングされたハイパーパラメーターとターゲット メトリックと共に、すべてのチューニング実験が MLflow の実行ログに自動的に記録されます。 「Hyperopt ハイパーパラメーター チューニングの並列化」を参照してください。
重要
この機能はパブリック プレビュー段階にあります。
Apache Spark MLlib と自動 MLflow 追跡
Databricks Runtime 5.4 ML は、PySpark チューニング アルゴリズムの と CrossValidator
を使用して適合するモデルに対する TrainValidationSplit
実行の自動ログ記録をサポートしています。 「Apache Spark MLlib と自動 MLflow 追跡」を参照してください。 この機能は、Databricks Runtime 5.4 ML では既定でオンになっていますが、Databricks Runtime 5.3 ML では既定でオフになっています。
重要
この機能はパブリック プレビュー段階にあります。
HorovodRunner の改善
Horovod から Spark ドライバー ノードに送信された出力がノートブック セルに表示されるようになりました。
XGBoost Python パッケージの更新
XGBoost Python パッケージ 0.80 がインストールされています。
システム環境
Databricks Runtime 5.4 ML のシステム環境は、Databricks Runtime 5.4 とは次のように異なります。
- Python: Python 2 クラスターの場合は 2.7.15、Python 3 クラスターの場合は 3.6.5。
- DBUtils: Databricks Runtime 5.4 ML には、ライブラリ ユーティリティ (dbutils.library) (レガシ) が含まれていません。
- GPU クラスターの場合、NVIDIA GPU ライブラリは次のとおりです。
- Tesla ドライバー 396.44
- CUDA 9.2
- CUDNN 7.2.1
ライブラリ
以降のセクションでは、Databricks Runtime 5.4 に含まれているものとは異なる、Databricks Runtime 5.4 ML に含まれるライブラリの一覧を示します。
最上位層ライブラリ
Databricks Runtime 5.4 ML には、次の最上位層ライブラリが含まれています。
Python ライブラリ
Databricks Runtime 5.4 ML では Python パッケージ管理に Conda を使用します。 そのため、インストールされている Python ライブラリと Databricks Runtime に大きな違いはありません。 Conda パッケージ マネージャーを使用してインストールされる、用意された Python パッケージとバージョンの全一覧を次に示します。
ライブラリ | Version | ライブラリ | Version | ライブラリ | Version |
---|---|---|---|---|---|
absl-py | 0.7.1 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
astor | 0.7.1 | backports-abc | 0.5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.post1 | bcrypt | 3.1.6 | bleach | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
cloudpickle | 0.5.3 | colorama | 0.3.9 | configparser | 3.5.0 |
cryptography | 2.2.2 | cycler | 0.10.0 | Cython | 0.28.2 |
decorator | 4.3.0 | docutils | 0.14 | entrypoints | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | future | 0.17.1 |
futures | 3.2.0 | gast | 0.2.2 | grpcio | 1.12.1 |
h5py | 2.8.0 | horovod | 0.16.0 | html5lib | 1.0.1 |
hyperopt | 0.1.2.db4 | idna | 2.6 | ipaddress | 1.0.22 |
ipython | 5.7.0 | ipython_genutils | 0.2.0 | jdcal | 1.4 |
Jinja2 | 2.10 | jmespath | 0.9.4 | jsonschema | 2.6.0 |
jupyter-client | 5.2.3 | jupyter-core | 4.4.0 | Keras | 2.2.4 |
Keras-Applications | 1.0.7 | Keras-Preprocessing | 1.0.9 | kiwisolver | 1.1.0 |
linecache2 | 1.0.0 | llvmlite | 0.23.1 | lxml | 4.2.1 |
Markdown | 3.1.1 | MarkupSafe | 1.0 | matplotlib | 2.2.2 |
mistune | 0.8.3 | mkl-fft | 1.0.0 | mkl-random | 1.0.1 |
mleap | 0.8.1 | mock | 2.0.0 | msgpack | 0.5.6 |
nbconvert | 5.3.1 | nbformat | 4.4.0 | networkx | 2.2 |
nose | 1.3.7 | nose-exclude | 0.5.0 | numba | 0.38.0+0.g2a2b772fc.dirty |
numpy | 1.14.3 | olefile | 0.45.1 | openpyxl | 2.5.3 |
pandas | 0.23.0 | pandocfilters | 1.4.2 | paramiko | 2.4.1 |
pathlib2 | 2.3.2 | patsy | 0.5.0 | pbr | 5.1.3 |
pexpect | 4.5.0 | pickleshare | 0.7.4 | Pillow | 5.1.0 |
pip | 10.0.1 | ply | 3.11 | prompt-toolkit | 1.0.15 |
protobuf | 3.7.1 | psutil | 5.6.2 | psycopg2 | 2.7.5 |
ptyprocess | 0.5.2 | pyarrow | 0.12.1 | pyasn1 | 0.4.5 |
pycparser | 2.18 | Pygments | 2.2.0 | pymongo | 3.8.0 |
PyNaCl | 1.3.0 | pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 |
PySocks | 1.6.8 | Python | 2.7.15 | python-dateutil | 2.7.3 |
pytz | 2018.4 | PyYAML | 5.1 | pyzmq | 17.0.0 |
requests | 2.18.4 | s3transfer | 0.1.13 | scandir | 1.7 |
scikit-learn | 0.19.1 | scipy | 1.1.0 | seaborn | 0.8.1 |
setuptools | 39.1.0 | simplegeneric | 0.8.1 | singledispatch | 3.4.0.3 |
6 | 1.11.0 | statsmodels | 0.9.0 | subprocess32 | 3.5.4 |
TensorBoard | 1.12.2 | tensorboardX | 1.6 | tensorflow | 1.12.0 |
termcolor | 1.1.0 | testpath | 0.3.1 | torch | 0.4.1 |
torchvision | 0.2.1 | tornado | 5.0.2 | tqdm | 4.32.1 |
traceback2 | 1.4.0 | traitlets | 4.3.2 | unittest2 | 1.1.0 |
urllib3 | 1.22 | virtualenv | 16.0.0 | wcwidth | 0.1.7 |
webencodings | 0.5.1 | Werkzeug | 0.14.1 | wheel | 0.31.1 |
wrapt | 1.10.11 | wsgiref | 0.1.2 |
さらに、次の Spark パッケージには Python モジュールが含まれています。
Spark パッケージ | Python モジュール | Version |
---|---|---|
graphframes | graphframes | 0.7.0-db1-spark2.4 |
spark-deep-learning | sparkdl | 1.5.0-db3-spark2.4 |
tensorframes | tensorframes | 0.6.0-s_2.11 |
R ライブラリ
この R ライブラリは、Databricks Runtime 5.4 の R ライブラリと同じです。
Java と Scala のライブラリ (Scala 2.11 クラスター)
Databricks Runtime 5.4 ML には、Databricks Runtime 5.4 の Java および Scala ライブラリに加え、次の JAR が含まれています。
グループ ID | 成果物 ID | Version |
---|---|---|
com.databricks | spark-deep-learning | 1.5.0-db3-spark2.4 |
com.typesafe.akka | akka-actor_2.11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0.81 |
ml.dmlc | xgboost4j-spark | 0.81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-spark2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | tensorflow | 1.12.0 |
org.tensorframes | tensorframes | 0.6.0-s_2.11 |