Udostępnij za pośrednictwem


Databricks Runtime 10.3 for ML (EoS)

Uwaga

Obsługa tej wersji środowiska Databricks Runtime została zakończona. Aby uzyskać datę zakończenia pomocy technicznej, zobacz Historia zakończenia pomocy technicznej. Wszystkie obsługiwane wersje środowiska Databricks Runtime można znaleźć w temacie Databricks Runtime release notes versions and compatibility (Wersje i zgodność środowiska Databricks Runtime).

Środowisko Databricks Runtime 10.3 for Machine Learning zapewnia gotowe do użycia środowisko do uczenia maszynowego i nauki o danych oparte na środowisku Databricks Runtime 10.3 (EoS). Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego, w tym TensorFlow, PyTorch i XGBoost. Środowisko Databricks Runtime ML obejmuje rozwiązanie AutoML— narzędzie do automatycznego trenowania potoków uczenia maszynowego. Środowisko Databricks Runtime ML obsługuje również trenowanie rozproszonego uczenia głębokiego przy użyciu struktury Horovod.

Aby uzyskać więcej informacji, w tym instrukcje dotyczące tworzenia klastra uczenia maszynowego usługi Databricks Runtime, zobacz Sztuczna inteligencja i uczenie maszynowe w usłudze Databricks.

Nowe funkcje i ulepszenia

Środowisko Databricks Runtime 10.3 ML jest oparte na środowisku Databricks Runtime 10.3. Aby uzyskać informacje o nowościach w Databricks Runtime 10.3, w tym Apache Spark MLlib i SparkR, zobacz uwagi do wydania Databricks Runtime 10.3 (EoS).

Ulepszenia rozwiązania AutoML

Następujące ulepszenia zostały wprowadzone do rozwiązania AutoML.

Rozwiązanie AutoML obsługuje teraz model ARIMA na potrzeby prognozowania

Oprócz Prophet, rozwiązanie AutoML tworzy teraz i ocenia modele ARIMA do prognozowania.

Wykluczanie kolumn z zestawu danych

W przypadku korzystania z interfejsu API automatycznego uczenia maszynowego można określić kolumny, które mają być ignorowane przez rozwiązanie AutoML podczas wykonywania obliczeń. Jest to dostępne tylko w przypadku problemów klasyfikacji i regresji. Aby uzyskać szczegółowe informacje, zobacz AutoML Python API reference (Dokumentacja interfejsu API języka Python rozwiązania AutoML).

Wykluczanie frameworków algorytmów z uruchomienia AutoML

Można określić struktury algorytmów, takie jak scikit-learn, których AutoML nie powinien uwzględniać podczas tworzenia modeli. Aby uzyskać szczegółowe informacje, zobacz Advanced configurations and AutoML Python API reference (Zaawansowane konfiguracje i dokumentacja interfejsu API języka Python rozwiązania AutoML).

max_trials Przestarzałe

Parametr max_trials jest przestarzały i zostanie usunięty w następnej głównej wersji usługi Databricks Runtime ML. Użyj timeout_minutes do kontrolowania czasu trwania uruchomienia AutoML. Ponadto, w środowisku Databricks Runtime 10.1 ML i nowszym, rozwiązanie AutoML obejmuje wcześniejsze zatrzymanie; zatrzyma trenowanie i dostrajanie modeli, jeśli metryka walidacji już się nie poprawia.

Ulepszenia w Feature Store w usłudze Databricks

Teraz można stosować wyszukiwania punktowe w czasie do tabel funkcji szeregów czasowych. Aby uzyskać szczegółowe informacje, zobacz Wsparcie punktowe w czasie z wykorzystaniem tabel funkcji szeregów czasowych.

Automatyczne rejestrowanie Databricks (dostępność ogólna)

Automatyczne rejestrowanie usługi Databricks jest teraz ogólnie dostępne w środowisku Databricks Runtime 10.3 ML. Automatyczne rejestrowanie usługi Databricks to rozwiązanie bez kodu, które zapewnia automatyczne śledzenie eksperymentów na potrzeby sesji uczenia maszynowego w usłudze Azure Databricks. Dzięki funkcji automatycznego rejestrowania usługi Databricks parametry modelu, metryki, pliki i informacje o pochodzeniu są automatycznie przechwytywane podczas trenowania modeli z wykorzystaniem różnych popularnych bibliotek uczenia maszynowego. Sesje szkoleniowe są rejestrowane jako przebiegi śledzenia MLflow. Pliki modelu są również śledzone, dzięki czemu można je łatwo rejestrować w rejestrze modeli MLflow i wdrażać je na potrzeby oceniania w czasie rzeczywistym za pomocą usługi MLflow Model Serving.

Aby uzyskać więcej informacji, zobacz Automatyczne rejestrowanie w usłudze Databricks.

Środowisko systemu

Środowisko systemowe w środowisku Databricks Runtime 10.3 ML różni się od środowiska Databricks Runtime 10.3 w następujący sposób:

Biblioteki

W poniższych sekcjach wymieniono biblioteki zawarte w środowisku Databricks Runtime 10.3 ML, które różnią się od bibliotek zawartych w środowisku Databricks Runtime 10.3.

W tej sekcji:

Biblioteki najwyższego poziomu

Środowisko Databricks Runtime 10.3 ML obejmuje następujące biblioteki najwyższego poziomu:

Biblioteki języka Python

Środowisko Databricks Runtime 10.3 ML używa usługi Virtualenv do zarządzania pakietami języka Python i zawiera wiele popularnych pakietów uczenia maszynowego.

Oprócz pakietów określonych w poniższych sekcjach środowisko Databricks Runtime 10.3 ML zawiera również następujące pakiety:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.7
  • automl 1.6.0

Biblioteki języka Python w klastrach procesora CPU

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
absl-py 0.11.0 Antergos Linux 2015.10 (ISO w trybie ciągłym) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
asynchroniczny-generator 1.10 attrs 20.3.0 powrót do wywołania 0.2.0
bcrypt 3.2.0 bidict 0.21.4 wybielacz 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 katalog 2.0.6 certyfikat 2020.12.5
cffi 1.14.5 chardet 4.0.0 kliknij 7.1.2
cloudpickle (biblioteka Python do serializacji obiektów) 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 kryptografia 3.4.7 rowerzysta 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.5
databricks-cli 0.16.2 dbl-tempo 0.1.2 dbus-python 1.2.16
dekorator 5.0.6 defusedxml 0.7.1 koper 0.3.2
diskcache 5.2.1 distlib 0.3.4 informacje o dystrybucji 0.23ubuntu1
punkty wejścia 0.3 efem 4.1.3 aspekty — omówienie 1.0.0
fasttext 0.9.2 filelock 3.0.12 Kolba 1.1.2
flatbuffers 2.0 fsspec 0.9.0 przyszłość 0.18.2
gość 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth (autoryzacja Google) 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 konwerter kalendarza hidżry 2.2.2 wakacje 0,12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 niezrównoważona nauka 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
to jest niebezpieczne 1.1.0 jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.7.0
Wstępne przetwarzanie Keras 1.1.2 kiwisolver 1.3.1 Koale 1.8.2
koreański kalendarz księżycowy 0.2.1 kody językowe 3.3.0 libclang 12.0.0
lightgbm 3.3.1 llvmlite 0.38.0 Kalendarz Księżycowy 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 Nie nastroić 0.8.4
mleap 0.18.1 mlflow-skinny 1.23.0 wielometodowy 1.6
szmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
nltk 3.6.1 notatnik 6.3.0 numba 0.55.0
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
opakowanie 21,3 Pandas 1.2.4 Profilowanie danych za pomocą pandas 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
patia 0.6.0 frajer 0.5.1 petastorm 0.11.3
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Poduszka 8.2.0 pip 21.0.1 kreślenie 5.5.0
pmdarima 1.8.4 If no further context or intended meaning is available, the term remains as "preshed," as translation without context may lead to inaccuracy. 3.0.5 prometheus-client 0.10.1
prompt-toolkit 3.0.17 prorok 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.0 pycparser 2,20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil 2.8.1 Python-editor 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
żądania 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
Shap 0.40.0 simplejson 3.17.2 Sześć 1.15.0
krajalnica 0.0.7 inteligentne otwarcie 5.2.0 smmap 3.0.5
spacy 3.2.1 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 serio 2.4.1
ssh-import-id 5.10 statsmodels 0.12.2 zestawić 0.8.7
zaplątane-w-unicode 0.1.0 Wytrzymałość 6.2.0 tablica tensorboard 2.7.0
tensorboard-data-server (serwer danych TensorBoard) 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.7.0 tensorflow-estimator 2.7.0 tensorflow-io-gcs-filesystem 0.23.1
termcolor (narzędzie do zarządzania kolorami w terminalu) 1.1.0 zakończony 0.9.4 ścieżka testowa 0.4.4
cienki 8.0.12 threadpoolctl 2.1.0 tokenizatory 0.10.3
pochodnia 1.10.1+procesor torchvision 0.11.2+ procesor tornado 6.1
tqdm 4.59.0 traitlets 5.0.5 Transformatory 4.15.0
pisarz 0.3.2 wpisywanie rozszerzeń 3.7.4.3 ujson 4.0.2
nienadzorowane uaktualnienia 0.1 urllib3 1.25.11 virtualenv 20.4.1
Wizje 0.7.4 wasabi 0.8.2 wcwidth 0.2.5
kodowania sieciowe 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
koło 0.36.2 widgetsnbextension 3.5.1 owinięty 1.12.1
xgboost 1.5.1 zipp 3.4.1

Biblioteki języka Python w klastrach gpu

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
generator asynchroniczny 1.10 attrs 20.3.0 koprocedura 0.2.0
bcrypt 3.2.0 bidict 0.21.4 wybielacz 3.3.0
błogość 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 katalog 2.0.6 certyfikat 2020.12.5
cffi 1.14.5 chardet 4.0.0 kliknij 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
konwertuj 2.3.2 kryptografia 3.4.7 rowerzysta 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.5
databricks-cli 0.16.2 dbl-tempo 0.1.2 dbus-python 1.2.16
dekorator 5.0.6 defusedxml 0.7.1 koper 0.3.2
diskcache 5.2.1 distlib 0.3.4 informacja o dystrybucji 0.23ubuntu1
punkty wejścia 0.3 ephem 4.1.3 aspekty — omówienie 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 przyszłość 0.18.2
gość 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 makaron Google 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 konwerter kalendarza hidżry 2.2.2 wakacje 0,12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 niezrównoważona nauka 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
jegodangerous 1.1.0 jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.7.0
Przetwarzanie wstępne Keras 1.1.2 kiwisolver 1.3.1 Koale 1.8.2
koreański kalendarz księżycowy 0.2.1 kody językowe 3.3.0 libclang 12.0.0
lightgbm 3.3.1 llvmlite 0.38.0 Kalendarz Księżycowy 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 nieprawidłowe dostrojenie 0.8.4
mleap 0.18.1 mlflow-skinny 1.23.0 multimethod 1.6
szmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
nltk 3.6.1 zeszyt 6.3.0 numba 0.55.0
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
opakowanie 21,3 Pandas 1.2.4 Profilowanie danych z pandas 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
patia 0.6.0 Patsy 0.5.1 petastorm 0.11.3
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Poduszka 8.2.0 pip 21.0.1 kreślenie 5.5.0
pmdarima 1.8.4 preshed 3.0.5 prompt-toolkit 3.0.17
prorok 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.0
pycparser 2,20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1
Python-editor 1.0.4 python-engineio 4.3.0 python-socketio 5.4.1
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 żądania 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 Shap 0.40.0
simplejson 3.17.2 Sześć 1.15.0 krajalnica 0.0.7
inteligentne otwieranie 5.2.0 smmap 3.0.5 rozproszony 3.2.1
spacy-legacy 3.0.8 spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 serio 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 tabulować 0.8.7 Zaplątany-w-Unicode 0.1.0
Wytrzymałość 6.2.0 tablica tensorboard 2.7.0 tensorboard-data-serwer 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1 tensorflow 2.7.0
tensorflow-estimator 2.7.0 tensorflow-io-gcs-filesystem 0.23.1 termcolor 1.1.0
zakończony 0.9.4 ścieżka testowa 0.4.4 cienki 8.0.12
threadpoolctl 2.1.0 tokenizatory 0.10.3 pochodnia 1.10.1+cu111
torchvision 0.11.2+cu111 tornado 6.1 tqdm 4.59.0
traitlets 5.0.5 Transformatory 4.15.0 typer 0.3.2
wpisywanie rozszerzeń 3.7.4.3 ujson 4.0.2 nienadzorowane uaktualnienia 0.1
urllib3 1.25.11 virtualenv 20.4.1 Wizje 0.7.4
wasabi 0.8.2 wcwidth 0.2.5 webencodings 0.5.1
websocket-client (klient sieciowy) 0.57.0 Werkzeug 1.0.1 koło 0.36.2
widgetsnbextension 3.5.1 owinięty 1.12.1 xgboost 1.5.1
zipp 3.4.1

Pakiety platformy Spark zawierające moduły języka Python

Pakiet Spark Moduł języka Python Wersja
graphframes graphframes 0.8.2-db1-spark3.2

Biblioteki R

Biblioteki języka R są identyczne z bibliotekami języka R w środowisku Databricks Runtime 10.3.

Biblioteki Java i Scala (klaster Scala 2.12)

Oprócz bibliotek Java i Scala w środowisku Databricks Runtime 10.3 środowisko Databricks Runtime 10.3 ML zawiera następujące jednostki JAR:

Klastry procesora CPU

Identyfikator grupy Identyfikator artefaktu Wersja
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.23.0
org.mlflow mlflow-spark 1.23.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Klastry procesora GPU

Identyfikator grupy Identyfikator artefaktu Wersja
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.23.0
org.mlflow mlflow-spark 1.23.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0