Databricks Runtime 10.4 LTS for Machine Learning
Środowisko Databricks Runtime 10.4 LTS for Machine Learning zapewnia gotowe do użycia środowisko do uczenia maszynowego i nauki o danych oparte na środowisku Databricks Runtime 10.4 LTS. Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego, w tym TensorFlow, PyTorch i XGBoost. Środowisko Databricks Runtime ML obejmuje rozwiązanie AutoML— narzędzie do automatycznego trenowania potoków uczenia maszynowego. Środowisko Databricks Runtime ML obsługuje również trenowanie rozproszonego uczenia głębokiego przy użyciu struktury Horovod.
Uwaga
LTS oznacza, że ta wersja jest objęta długoterminową pomocą techniczną. Zobacz Cykl życia wersji LTS środowiska Databricks Runtime.
Aby uzyskać więcej informacji, w tym instrukcje dotyczące tworzenia klastra uczenia maszynowego usługi Databricks Runtime, zobacz Sztuczna inteligencja i uczenie maszynowe w usłudze Databricks.
Napiwek
Aby wyświetlić informacje o wersji środowiska Databricks Runtime, które osiągnęły koniec wsparcia technicznego (EoS), zobacz End-of-support Databricks Runtime release notes (Informacje o wersji środowiska Databricks Runtime). Wersje środowiska Uruchomieniowego usługi EoS Databricks zostały wycofane i mogą nie zostać zaktualizowane.
Nowe funkcje i ulepszenia
Środowisko Databricks Runtime 10.4 LTS ML jest oparte na środowisku Databricks Runtime 10.4 LTS. Aby uzyskać informacje na temat nowości w środowisku Databricks Runtime 10.4 LTS, w tym Apache Spark MLlib i SparkR, zobacz notatki o wydaniu środowiska Databricks Runtime 10.4 LTS.
Ulepszenia rozwiązania AutoML
Następujące ulepszenia zostały wprowadzone do rozwiązania AutoML.
Rozwiązanie AutoML jest ogólnie dostępne
Począwszy od środowiska Databricks Runtime 10.4 LTS ML, rozwiązanie AutoML jest ogólnie dostępne.
Imputacja brakujących wartości
Teraz możesz określić, w jaki sposób wartości null są przypisywane. Domyślnie rozwiązanie AutoML wybiera metodę imputacji na podstawie typu kolumny i zawartości. Aby uzyskać szczegółowe informacje, zobacz Uzupełnianie brakujących wartości.
Wybór kolumny z interfejsu użytkownika
W przypadku problemów klasyfikacji i regresji można teraz używać interfejsu użytkownika oprócz interfejsu API do określania kolumn, które mają być ignorowane przez rozwiązanie AutoML podczas wykonywania obliczeń. Zobacz Wybór kolumny.
Nowy typ danych
Rozwiązanie AutoML obsługuje teraz typy tablic liczbowych.
Własna lokalizacja wygenerowanych notebooków i eksperymentów
Teraz możesz określić lokalizację w obszarze roboczym, w którym rozwiązanie AutoML powinno zapisywać wygenerowane notesy i eksperymenty. Użyj parametru experiment_dir
. Zobacz dokumentację interfejsu API języka Python AutoML.
Ulepszenia funkcji Databricks Feature Store
Następujące ulepszenia zostały wprowadzone w usłudze Databricks Feature Store.
- Teraz możesz zarejestrować istniejącą tabelę delty jako tabelę funkcji.
Środowisko systemu
Środowisko systemowe w środowisku Databricks Runtime 10.4 LTS ML różni się od środowiska Databricks Runtime 10.4 LTS w następujący sposób:
-
DBUtils: Środowisko uruchomieniowe Databricks Runtime ML nie zawiera narzędzia biblioteki (dbutils.library) (starsza wersja).
Użyj zamiast tego poleceń
%pip
. Zobacz Biblioteki Python przeznaczone dla notesów. - W przypadku klastrów gpu środowisko Databricks Runtime ML obejmuje następujące biblioteki procesora GPU FIRMY NVIDIA:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Biblioteki
W poniższych sekcjach wymieniono biblioteki zawarte w środowisku Databricks Runtime 10.4 LTS ML, które różnią się od bibliotek zawartych w środowisku Databricks Runtime 10.4 LTS.
W tej sekcji:
- Biblioteki najwyższego poziomu
- Biblioteki języka Python
- Biblioteki języka R
- Biblioteki Java i Scala (klaster Scala 2.12)
Biblioteki najwyższego poziomu
Środowisko Databricks Runtime 10.4 LTS ML obejmuje następujące biblioteki najwyższego poziomu:
- GraphFrames
- Horovod i HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Biblioteki języka Python
Środowisko Databricks Runtime 10.4 LTS ML używa usługi Virtualenv do zarządzania pakietami języka Python i zawiera wiele popularnych pakietów uczenia maszynowego.
Oprócz pakietów określonych w poniższych sekcjach środowisko Databricks Runtime 10.4 LTS ML zawiera również następujące pakiety:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.8
- automl 1.7.2
Biblioteki języka Python w klastrach procesora CPU
Aby odtworzyć środowisko Python Databricks Runtime ML w lokalnym wirtualnym środowisku Python, pobierz plik requirements-10.4.txt i uruchom polecenie pip install -r requirements-10.4.txt
. To polecenie instaluje wszystkie biblioteki open-source używane przez Databricks Runtime ML, ale nie instaluje bibliotek opracowanych przez Azure Databricks, takich jak databricks-automl
, databricks-feature-store
, lub wersji Databricks hyperopt
.
Biblioteka | Wersja | Biblioteka | Wersja | Biblioteka | Wersja |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
asynchroniczny generator | 1.10 | attrs | 20.3.0 | oddzwonienie | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | wybielacz | 3.3.0 |
błogość | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | katalog | 2.0.6 | certyfikat | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | kliknięcie | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
konwersja daty | 2.3.2 | kryptografia | 3.4.7 | rowerzysta | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
dekorator | 5.0.6 | defusedxml | 0.7.1 | koper | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.4 | informacje o dystrybucji | 0.23ubuntu1 |
punkty wejścia | 0.3 | ephem | 4.1.3 | aspekty — omówienie | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | przyszłość | 0.18.2 |
Gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | makaron google | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | przelicznik kalendarza hidżry | 2.2.3 | wakacje | 0,12 |
horovod | 0.23.0 | htmlmin | 0.1.12 | Hugging Face Hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | niezrównoważona nauka | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
jegodangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
Wstępne przetwarzanie Keras | 1.1.2 | kiwisolver | 1.3.1 | Koale | 1.8.2 |
koreański kalendarz księżycowy | 0.2.1 | kody językowe | 3.3.0 | libclang | 13.0.0 |
lightgbm | 3.3.2 | llvmlite | 0.38.0 | Kalendarz księżycowy | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.1 | rozstroić | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.24.0 | wielometodowy | 1,7 |
szmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2,5 |
nltk | 3.6.1 | notatnik | 6.3.0 | numba | 0.55.1 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
opakowanie | 21,3 | Pandas | 1.2.4 | Profilowanie pandas | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
patologia | 0.6.0 | Patsy | 0.5.1 | petastorm | 0.11.4 |
pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
Poduszka | 8.2.0 | pip | 21.0.1 | kreślenie | 5.5.0 |
pmdarima | 1.8.4 | preshed | 3.0.5 | prometheus-client | 0.10.1 |
prompt-toolkit | 3.0.17 | prorok | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.9.1 | pycparser | 2,20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 |
python-dateutil | 2.8.1 | Python-editor | 1.0.4 | python-engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
żądania | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
rsa | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
Shap | 0.40.0 | simplejson | 3.17.2 | Sześć | 1.15.0 |
krajalnica | 0.0.7 | smart-open | 5.2.0 | smmap | 3.0.5 |
spacy | 3.2.1 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | serio | 2.4.1 |
ssh-import-id (narzędzie do importowania kluczy SSH) | 5.10 | statsmodels | 0.12.2 | tabulować | 0.8.7 |
uwikłany-w-unicode | 0.1.0 | Wytrzymałość | 6.2.0 | TensorBoard | 2.8.0 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.8.0 | tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 |
termcolor | 1.1.0 | zakończony | 0.9.4 | ścieżka testowa | 0.4.4 |
tf-estimator-nightly (nocna wersja narzędzia do estymacji tensorflow) | 2.8.0.dev2021212109 | cienki | 8.0.12 | threadpoolctl | 2.1.0 |
tokenizatory | 0.10.3 | pochodnia | 1.10.2+procesor | torchvision | 0.11.3+procesor |
tornado | 6.1 | tqdm | 4.59.0 | traitlety | 5.0.5 |
Transformersi | 4.16.2 | typer | 0.3.2 | wpisywanie rozszerzeń | 3.7.4.3 |
ujson | 4.0.2 | nienadzorowane uaktualnienia | 0.1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | Wizje | 0.7.4 | wasabi | 0.8.2 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | koło | 0.36.2 | widgetsnbextension | 3.5.1 |
owinięty | 1.12.1 | xgboost | 1.5.2 | zipp | 3.4.1 |
Biblioteki języka Python w klastrach gpu
Biblioteka | Wersja | Biblioteka | Wersja | Biblioteka | Wersja |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
generator asynchroniczny | 1.10 | attrs | 20.3.0 | wywołanie wsteczne | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | wybielacz | 3.3.0 |
błogość | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | katalog | 2.0.6 | certyfikat | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | kliknięcie | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
konwertuj | 2.3.2 | kryptografia | 3.4.7 | rowerzysta | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
dekorator | 5.0.6 | defusedxml | 0.7.1 | koper | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.4 | informacje o dystrybucji | 0.23ubuntu1 |
punkty wejścia | 0.3 | efem | 4.1.3 | aspekty — omówienie | 1.0.0 |
fasttext | 0.9.2 | blokada plików | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | przyszłość | 0.18.2 |
Gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | Google Pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | konwerter hidżri | 2.2.3 | wakacje | 0,12 |
horowód | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | niezrównoważona nauka | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
jestniebezpieczne | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
Wstępne przetwarzanie Keras | 1.1.2 | kiwisolver | 1.3.1 | Koale | 1.8.2 |
koreański kalendarz księżycowy | 0.2.1 | kody językowe | 3.3.0 | libclang | 13.0.0 |
lightgbm | 3.3.2 | llvmlite | 0.38.0 | Księżycowy Kalendarz | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.1 | mistune | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.24.0 | wielometodowy | 1,7 |
szmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2,5 |
nltk | 3.6.1 | notatnik | 6.3.0 | numba | 0.55.1 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
opakowanie | 21,3 | Pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
-patia | 0.6.0 | Patsy | 0.5.1 | petastorm | 0.11.4 |
pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
Poduszka | 8.2.0 | pip | 21.0.1 | kreślenie | 5.5.0 |
pmdarima | 1.8.4 | preshed | 3.0.5 | prompt-toolkit | 3.0.17 |
prorok | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.9.1 |
pycparser | 2,20 | pydantic | 1.8.2 | Pygments | 2.8.1 |
PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.4.0 |
pyodbc | 4.0.30 | pyparsing | 2.4.7 | pyrsistent | 0.17.3 |
pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 | python-dateutil | 2.8.1 |
Python-editor | 1.0.4 | python-engineio | 4.3.0 | python-socketio | 5.4.1 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | żądania | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | rsa | 4.7.2 |
s3transfer | 0.3.7 | sacremoses | 0.0.46 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | shap | 0.40.0 |
simplejson | 3.17.2 | Sześć | 1.15.0 | krajalnica | 0.0.7 |
smart-open | 5.2.0 | smmap | 3.0.5 | przestrzenny | 3.2.1 |
spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.1 | serio | 2.4.1 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | tabelować | 0.8.7 | splątane w unicode | 0.1.0 |
Wytrzymałość | 6.2.0 | TensorBoard | 2.8.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 | tensorflow | 2.8.0 |
tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 | termcolor | 1.1.0 |
zakończony | 0.9.4 | ścieżka testowa | 0.4.4 | tf-estimator-nightly | 2.8.0.dev2021212109 |
cienki | 8.0.12 | threadpoolctl | 2.1.0 | tokenizatory | 0.10.3 |
pochodnia | 1.10.2+cu111 | torchvision | 0.11.3+cu111 | tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | Transformatory | 4.16.2 |
typer | 0.3.2 | wpisywanie rozszerzeń | 3.7.4.3 | ujson | 4.0.2 |
nienadzorowane uaktualnienia | 0.1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
Wizje | 0.7.4 | wasabi | 0.8.2 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
koło | 0.36.2 | widgetsnbextension | 3.5.1 | zawijanie | 1.12.1 |
xgboost | 1.5.2 | zipp | 3.4.1 |
Pakiety platformy Spark zawierające moduły języka Python
Pakiet Spark | Moduł języka Python | Wersja |
---|---|---|
GraphFrames | GraphFrames | 0.8.2-db1-spark3.2 |
Biblioteki R
Biblioteki języka R są identyczne z bibliotekami języka R w środowisku Databricks Runtime 10.4 LTS.
Biblioteki Java i Scala (klaster Scala 2.12)
Oprócz bibliotek Java i Scala w środowisku Databricks Runtime 10.4 LTS środowisko Databricks Runtime 10.4 LTS ML zawiera następujące elementy JAR:
Klastry procesora CPU
Identyfikator grupy | Identyfikator artefaktu | Wersja |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.24.0 |
org.mlflow | mlflow-spark | 1.24.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Klastry procesora GPU
Identyfikator grupy | Identyfikator artefaktu | Wersja |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.24.0 |
org.mlflow | mlflow-spark | 1.24.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |