Databricks Runtime 5.4 untuk ML (EoS)
Catatan
Dukungan untuk versi Databricks Runtime ini telah berakhir. Untuk tanggal akhir dukungan, lihat Riwayat akhir dukungan. Untuk semua versi Runtime Databricks yang didukung, lihat Versi dan kompatibilitas catatan rilis Databricks Runtime.
Databricks merilis versi ini pada Juni 2019.
Databricks Runtime 5.4 untuk Pembelajaran Mesin menyediakan lingkungan siap pakai untuk pembelajaran mesin dan ilmu data berdasarkan Databricks Runtime 5.4 (EoS). Pembelajaran Mesin (ML) Databricks Runtime berisi banyak pustaka pembelajaran mesin populer, termasuk TensorFlow, PyTorch, Keras, dan XGBoost. Ini juga mendukung pelatihan pembelajaran mendalam terdistribusi menggunakan Horovod.
Untuk informasi selengkapnya, termasuk instruksi untuk membuat kluster ML Runtime Databricks, lihat AI dan pembelajaran mesin di Databricks.
Fitur baru
Databricks Runtime 5.4 ML dibangun di atas Databricks Runtime 5.4. Untuk informasi tentang apa yang baru di Databricks Runtime 5.4, lihat catatan rilis Databricks Runtime 5.4 (EoS ).
Selain pembaruan pustaka, Databricks Runtime 5.4 ML memperkenalkan fitur-fitur baru berikut:
Hyperopt terdistribusi + pelacakan MLflow otomatis
Databricks Runtime 5.4 ML memperkenalkan implementasi baru Hyperopt yang didukung oleh Apache Spark untuk menskalakan dan menyederhanakan penyetelan hiperparameter.
Trials
Kelas SparkTrials
baru diimplementasikan untuk mendistribusikan uji coba Hyperopt di antara beberapa mesin dan node menggunakan Apache Spark. Selain itu, semua eksperimen penyetelan, bersama dengan hiperparameter yang disetel dan metrik yang ditargetkan, secara otomatis dicatat ke eksekusi MLflow. Lihat Menyetel hiperparameter Hyperopt secara paralel.
Penting
Fitur ini ada di Pratinjau Publik.
Apache Spark MLlib + pelacakan MLflow otomatis
Databricks Runtime 5.4 ML mendukung pengelogan otomatis eksekusi MLflow untuk model yang cocok menggunakan algoritma CrossValidator
dan TrainValidationSplit
penyetelan PySpark. Lihat Apache Spark MLlib dan pelacakan MLflow otomatis. Fitur ini menyala secara default di Databricks Runtime 5.4 ML tetapi mati secara default di Databricks Runtime 5.3 ML.
Penting
Fitur ini ada di Pratinjau Publik.
Peningkatan HorovodRunner
Keluaran yang dikirimkan dari Horovod ke node driver Spark sekarang terlihat di sel notebook.
Paket XGBoost Python update
Paket XGBoost Python 0.80 diinstal.
Lingkungan sistem
Lingkungan sistem di Databricks Runtime 5.4 ML berbeda dengan Databricks Runtime 5.4 seperti berikut:
- Python: 2.7.15 untuk kluster Python 2 dan 3.6.5 untuk kluster Python 3.
- DBUtils: Databricks Runtime 5.4 ML tidak berisi utilitas Pustaka (dbutils.library) (warisan).
- Untuk kluster GPU, pustaka GPU NVIDIA berikut:
- Driver Tesla 396.44
- CUDA 9.2
- CUDNN 7.2.1
Pustaka
Bagian berikut list pustaka yang disertakan dalam Databricks Runtime 5.4 ML yang berbeda dari yang disertakan dalam Databricks Runtime 5.4.
Pustaka tingkat atas
Databricks Runtime 5.4 ML mencakup pustaka tingkat atas berikut:
- GraphFrames
- Horovod dan HorovodRunner
- PyTorch
- spark-tensorflow-connector
- TensorFlow 2.5.0
- TensorBoard
Pustaka Python
Databricks Runtime 5.4 ML menggunakan Conda untuk pengelolaan paket Python. Akibatnya, ada perubahan besar dalam pustaka Python yang diinstal dibandingkan dengan Databricks Runtime. Berikut ini adalah list lengkap paket dan versi Python yang disediakan yang diinstal menggunakan manajer paket Conda.
Pustaka | Versi | Pustaka | Versi | Pustaka | Versi |
---|---|---|---|---|---|
absl-py | 0.7.1 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
astor | 0.7.1 | backports-abc | 0,5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.post1 | bcrypt | 3.1.6 | pemutih | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
cloudpickle | 0.5.3 | colorama | 0.3.9 | configparser | 3.5.0 |
cryptography | 2.2.2 | cycler | 0.10.0 | Cython | 0.28.2 |
decorator | 4.3.0 | docutils | 0.14 | titik masuk | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | future | 0.17.1 |
futures | 3.2.0 | gast | 0.2.2 | grpcio | 1.12.1 |
h5py | 2.8.0 | Horovod | 0.16.0 | html5lib | 1.0.1 |
hyperopt | 0.1.2.db4 | idna | 2.6 | ipaddress | 1.0.22 |
ipython | 5.7.0 | ipython_genutils | 0.2.0 | jdcal | 1.4 |
Jinja2 | 2.10 | jmespath | 0.9.4 | jsonschema | 2.6.0 |
jupyter-client | 5.2.3 | jupyter-core | 4.4.0 | Keras | 2.2.4 |
Keras-Applications | 1.0.7 | Keras-Preprocessing | 1.0.9 | kiwisolver | 1.1.0 |
linecache2 | 1.0.0 | llvmlite | 0.23.1 | lxml | 4.2.1 |
Markdown | 3.1.1 | MarkupSafe | 1.0 | matplotlib | 2.2.2 |
mistune | 0.8.3 | mkl-fft | 1.0.0 | mkl-random | 1.0.1 |
mleap | 0.8.1 | mock | 2.0.0 | msgpack | 0.5.6 |
nbconvert | 5.3.1 | nbformat | 4.4.0 | networkx | 2.2 |
nose | 1.3.7 | nose-exclude | 0.5.0 | numba | 0.38.0+0.g2a2b772fc.dirty |
numpy | 1.14.3 | olefile | 0.45.1 | openpyxl | 2.5.3 |
pandas | 0.23.0 | pandocfilters | 1.4.2 | paramiko | 2.4.1 |
pathlib2 | 2.3.2 | patsy | 0.5.0 | pbr | 5.1.3 |
pexpect=4.8.0 | 4.5.0 | pickleshare | 0.7.4 | Pillow | 5.1.0 |
pip | 10.0.1 | ply | 3.11 | prompt-toolkit | 1.0.15 |
protobuf | 3.7.1 | psutil | 5.6.2 | psycopg2 | 2.7.5 |
ptyprocess | 0.5.2 | pyarrow | 0.12.1 | pyasn1 | 0.4.5 |
pycparser | 2,18 | Pygments | 2.2.0 | pymongo | 3.8.0 |
PyNaCl | 1.3.0 | pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 |
PySocks | 1.6.8 | Python | 2.7.15 | python-dateutil | 2.7.3 |
pytz | 2018.4 | PyYAML | 5.1 | pyzmq | 17.0.0 |
permintaan | 2.18.4 | s3transfer | 0.1.13 | scandir | 1.7 |
scikit-learn | 0.19.1 | scipy | 1.1.0 | seaborn | 0.8.1 |
setuptools | 39.1.0 | simplegeneric | 0.8.1 | singledispatch | 3.4.0.3 |
six | 1.11.0 | statsmodels | 0.9.0 | subprocess32 | 3.5.4 |
tensorboard | 1.12.2 | tensorboardX | 1.6 | tensorflow | 1.12.0 |
termcolor | 1.1.0 | testpath | 0.3.1 | obor | 0.4.1 |
torchvision | 0.2.1 | tornado | 5.0.2 | tqdm | 4.32.1 |
traceback2 | 1.4.0 | traitlets=5.0.5 | 4.3.2 | unittest2 | 1.1.0 |
urllib3 | 1.22 | virtualenv | 16.0.0 | wcwidth | 0.1.7 |
webencodings=0.5.1 | 0.5.1 | Werkzeug | 0.14.1 | wheel | 0.31.1 |
wrapt | 1.10.11 | wsgiref | 0.1.2 |
Selain itu, paket Spark berikut mencakup modul Python:
Paket Spark | Modul Python | Versi |
---|---|---|
graphframes | graphframes | 0.7.0-db1-spark2.4 |
spark-deep-learning | sparkdl | 1.5.0-db3-spark2.4 |
tensorframes | tensorframes | 0.6.0-s_2.11 |
Pustaka R
Pustaka R identik dengan Pustaka R di Databricks Runtime 5.4.
Pustaka Java dan Scala (Kluster Scala 2.11)
Selain pustaka Java dan Scala di Databricks Runtime 5.4, Databricks Runtime 5.4 ML berisi JAR berikut:
ID Grup | ID Artefak | Versi |
---|---|---|
com.databricks | spark-deep-learning | 1.5.0-db3-spark2.4 |
com.typesafe.akka | akka-actor_2.11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0,81 |
ml.dmlc | xgboost4j-spark | 0,81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-spark2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | tensorflow | 1.12.0 |
org.tensorframes | tensorframes | 0.6.0-s_2.11 |