Databricks Runtime 10.4 LTS voor Machine Learning
Databricks Runtime 10.4 LTS voor Machine Learning biedt een kant-en-klare omgeving voor machine learning en gegevenswetenschap op basis van Databricks Runtime 10.4 LTS. Databricks Runtime ML bevat veel populaire machine learning-bibliotheken, waaronder TensorFlow, PyTorch en XGBoost. Databricks Runtime ML bevat AutoML, een hulpprogramma voor het automatisch trainen van machine learning-pijplijnen. Databricks Runtime ML biedt ook ondersteuning voor gedistribueerde Deep Learning-training met behulp van Horovod.
Notitie
LTS betekent dat deze versie op lange termijn wordt ondersteund. Zie de levenscyclus van de Databricks Runtime LTS-versie.
Zie AI en machine learning op Databricks voor meer informatie, inclusief instructies voor het maken van een Databricks Runtime ML-cluster.
Tip
Zie de releaseopmerkingen voor Databricks Runtime-versies die end-of-support (EoS) hebben bereikt, onder Releaseopmerkingen van end-of-support Databricks Runtime. De EoS Databricks Runtime-versies zijn buiten gebruik gesteld en worden mogelijk niet bijgewerkt.
Nieuwe functies en verbeteringen
Databricks Runtime 10.4 LTS ML is gebaseerd op Databricks Runtime 10.4 LTS. Zie de releaseopmerkingen voor Databricks Runtime 10.4 LTS, waaronder Apache Spark MLlib en SparkR, voor informatie over wat er nieuw is in Databricks Runtime 10.4 LTS .
Verbeteringen aan AutoML
De volgende verbeteringen zijn aangebracht in AutoML.
AutoML is algemeen beschikbaar
Vanaf Databricks Runtime 10.4 LTS ML is AutoML algemeen beschikbaar.
Imputatie van ontbrekende waarden
U kunt nu opgeven hoe null-waarden worden toegerekend. Standaard selecteert AutoML een imputatiemethode op basis van het kolomtype en de inhoud. Zie Ontbrekende waarden invoeren voor meer informatie.).
Kolomselectie uit gebruikersinterface
Voor classificatie- en regressieproblemen kunt u nu de gebruikersinterface naast de API gebruiken om kolommen op te geven die AutoML tijdens de berekeningen moet negeren. Zie Kolomselectie.
Nieuw gegevenstype
AutoML ondersteunt nu numerieke matrixtypen.
Aangepaste locatie van gegenereerde notebooks en experiment
U kunt nu een locatie opgeven in de werkruimte waarin AutoML gegenereerde notebooks en experimenten moet opslaan. Gebruik de experiment_dir
parameter. Zie de AutoML Python API-referentie.
Verbeteringen in Databricks Feature Store
De volgende verbeteringen zijn aangebracht in Databricks Feature Store.
- U kunt nu een bestaande Delta-tabel registreren als functietabel.
Systeemomgeving
De systeemomgeving in Databricks Runtime 10.4 LTS ML verschilt als volgt van Databricks Runtime 10.4 LTS:
-
DBUtils: Databricks Runtime ML bevat geen bibliotheekhulpprogramma (dbutils.library) (verouderd).
Gebruik in plaats daarvan
%pip
opdrachten. Zie Notebook-scoped Python libraries (Notebook-scoped Python-bibliotheken) voor meer informatie. - Voor GPU-clusters bevat Databricks Runtime ML de volgende NVIDIA GPU-bibliotheken:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Bibliotheken
In de volgende secties worden de bibliotheken vermeld die zijn opgenomen in Databricks Runtime 10.4 LTS ML die verschillen van de bibliotheken die zijn opgenomen in Databricks Runtime 10.4 LTS.
In deze sectie:
Topklasse bibliotheken
Databricks Runtime 10.4 LTS ML bevat de volgende topbibliotheken:
- GraphFrames
- Horovod en HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Python-bibliotheken
Databricks Runtime 10.4 LTS ML maakt gebruik van Virtualenv voor Python-pakketbeheer en bevat veel populaire ML-pakketten.
Naast de pakketten die zijn opgegeven in de volgende secties, bevat Databricks Runtime 10.4 LTS ML ook de volgende pakketten:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.8
- automl 1.7.2
Python-bibliotheken op CPU-clusters
Als u de Databricks Runtime ML Python-omgeving in uw lokale virtuele Python-omgeving wilt reproduceren, downloadt u het requirements-10.4.txt-bestand en voert u het uitpip install -r requirements-10.4.txt
. Met deze opdracht worden alle opensourcebibliotheken geïnstalleerd die door Databricks Runtime ML worden gebruikt, maar worden geen door Azure Databricks ontwikkelde bibliotheken geïnstalleerd, zoals databricks-automl
, databricks-feature-store
of de Databricks-fork van hyperopt
.
Bibliotheek | Versie | Bibliotheek | Versie | Bibliotheek | Versie |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | terugbelverzoek | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleekmiddel | 3.3.0 |
gelukzaligheid | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | catalogus | 2.0.6 | certificaat | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | klikken | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | cryptografie | 3.4.7 | wielrijder | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
decorateur | 5.0.6 | defusedxml | 0.7.1 | dille | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
invoerpunten | 0,3 | kortstondig | 4.1.3 | facetten-overzicht | 1.0.0 |
fasttext | 0.9.2 | bestandvergrendeling | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | toekomst | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.3 | vakantie | 0,12 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | onevenwichtig leren | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koala's | 1.8.2 |
koreaans-maankalender | 0.2.1 | langcodes | 3.3.0 | libclang | 13.0.0 |
lightgbm | 3.3.2 | llvmlite | 0.38.0 | Maankalender | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.1 | onstemmen | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.24.0 | multimethode | 1,7 |
murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | notitieboek | 6.3.0 | numba | 0.55.1 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
verpakking | 21.3 | Pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
-pathie | 0.6.0 | Patsy | 0.5.1 | petastorm | 0.11.4 |
pexpect | 4.8.0 | "Phik" | 0.12.0 | pickleshare | 0.7.5 |
Kussen | 8.2.0 | pit | 21.0.1 | plotly | 5.5.0 |
pmdarima | 1.8.4 | vooraf geslagen | 3.0.5 | prometheus-client | 0.10.1 |
prompt-toolkit | 3.0.17 | profeet | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.9.1 | pycparser | 2,20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 |
python-dateutil | 2.8.1 | python-editor | 1.0.4 | python-engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
verzoeken | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
RSA | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
Shap | 0.40.0 | simplejson | 3.17.2 | Zes | 1.15.0 |
snijmachine | 0.0.7 | smart-open | 5.2.0 | smmap | 3.0.5 |
spatie | 3.2.1 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | Serieus | 2.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | In een tabel plaatsen | 0.8.7 |
tangled-up-in-unicode | 0.1.0 | vasthoudendheid | 6.2.0 | tensorboard | 2.8.0 |
tensorboard-gegevensserver | 0.6.1 | tensorboard-plugin-profiel | 2.5.0 | tensorboard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.8.0 | tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 |
termcolor | 1.1.0 | voltooid | 0.9.4 | testpath | 0.4.4 |
tf-estimator-nightly | 2.8.0.dev2021122109 | thinc | 8.0.12 | threadpoolctl | 2.1.0 |
tokenizers | 0.10.3 | fakkel | 1.10.2+cpu | torchvision | 0.11.3+cpu |
tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
Transformatoren | 4.16.2 | Typer | 0.3.2 | typen-extensies | 3.7.4.3 |
ujson | 4.0.2 | onbeheerde upgrades | 0,1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | Visioenen | 0.7.4 | wasabi | 0.8.2 |
wcwidth | 0.2.5 | webcoderingen | 0.5.1 | websocket-client | 0.57.0 |
gereedschap | 1.0.1 | wiel | 0.36.2 | widgetsnbextension | 3.5.1 |
omhuld | 1.12.1 | xgboost | 1.5.2 | zipp | 3.4.1 |
Python-bibliotheken op GPU-clusters
Bibliotheek | Versie | Bibliotheek | Versie | Bibliotheek | Versie |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleekmiddel | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | catalogus | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | klikken | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | cryptografie | 3.4.7 | wielrijder | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
decorateur | 5.0.6 | defusedxml | 0.7.1 | dille | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.4 | Distro-info | 0.23ubuntu1 |
invoerpunten | 0,3 | kortstondig | 4.1.3 | overzicht van facetten | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | toekomst | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | Google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.3 | vakantie | 0,12 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | onevenwichtig leren | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koala's | 1.8.2 |
koreaans-maankalender | 0.2.1 | langcodes | 3.3.0 | libclang | 13.0.0 |
lightgbm | 3.3.2 | llvmlite | 0.38.0 | Maankalender | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.1 | mistune | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.24.0 | multimethode | 1,7 |
murmurhash (een hashfunctie gebruikt in computerwetenschappen) | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | notitieboek | 6.3.0 | numba | 0.55.1 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
verpakking | 21.3 | Pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
pathy | 0.6.0 | Patsy | 0.5.1 | petastorm | 0.11.4 |
pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
Kussen | 8.2.0 | pit | 21.0.1 | plotly | 5.5.0 |
pmdarima | 1.8.4 | vooraf geslagen | 3.0.5 | prompt-toolkit | 3.0.17 |
profeet | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.9.1 |
pycparser | 2,20 | pydantic | 1.8.2 | Pygments | 2.8.1 |
PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.4.0 |
pyodbc | 4.0.30 | pyparsing | 2.4.7 | pyrsistent | 0.17.3 |
pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 | python-dateutil | 2.8.1 |
python-editor | 1.0.4 | python-engineio | 4.3.0 | python-socketio | 5.4.1 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | verzoeken | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | RSA (Rivest–Shamir–Adleman) is een veelgebruikt cryptografisch algoritme. | 4.7.2 |
s3transfer | 0.3.7 | sacremoses | 0.0.46 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | Shap | 0.40.0 |
simplejson | 3.17.2 | Zes | 1.15.0 | Snijmachine | 0.0.7 |
smart-open | 5.2.0 | smmap | 3.0.5 | spatie | 3.2.1 |
spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.1 | srsly | 2.4.1 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | Opstellen | 0.8.7 | verstrikt-in-unicode | 0.1.0 |
vasthoudendheid | 6.2.0 | tensorboard | 2.8.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 | tensorflow | 2.8.0 |
tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 | termcolor | 1.1.0 |
voltooid | 0.9.4 | testpath | 0.4.4 | tf-estimator-nightly | 2.8.0.dev2021122109 |
thinc | 8.0.12 | threadpoolctl | 2.1.0 | tokenizers | 0.10.3 |
fakkel | 1.10.2+cu111 | torchvision | 0.11.3+cu111 | tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | Transformatoren | 4.16.2 |
Typer | 0.3.2 | typografie-extensies | 3.7.4.3 | ujson | 4.0.2 |
upgrades zonder toezicht | 0,1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
Visies | 0.7.4 | wasabi | 0.8.2 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | gereedschap | 1.0.1 |
wiel | 0.36.2 | widgetsnbextension | 3.5.1 | gewikkeld | 1.12.1 |
xgboost | 1.5.2 | zipp | 3.4.1 |
Spark-pakketten met Python-modules
Spark-pakket | Pythonmodule | Versie |
---|---|---|
graphframes | graphframes | 0.8.2-db1-spark3.2 |
R-bibliotheken
De R-bibliotheken zijn identiek aan de R-bibliotheken in Databricks Runtime 10.4 LTS.
Java- en Scala-bibliotheken (Scala 2.12-cluster)
Naast Java- en Scala-bibliotheken in Databricks Runtime 10.4 LTS bevat Databricks Runtime 10.4 LTS ML de volgende JAR's:
CPU-clusters
Groeps-id | Artefact-ID | Versie |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.24.0 |
org.mlflow | mlflow-spark | 1.24.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
GPU-clusters
Groeps-id | Artefact-ID | Versie |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.24.0 |
org.mlflow | mlflow-spark | 1.24.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |