Megosztás a következőn keresztül:


Databricks Runtime 10.1 for ML (EoS)

Feljegyzés

A Databricks Runtime-verzió támogatása véget ért. A támogatás megszűnésének dátumáról lásd a támogatási előzményeket. Lásd az összes támogatott Databricks Runtime-verziót a következő helyen: Databricks Runtime release notes versions and compatibility.

A Databricks Runtime 10.1 for Machine Learning használatra kész környezetet biztosít a Databricks Runtime 10.1 (EoS) alapú gépi tanuláshoz és adatelemzéshez. A Databricks Runtime ML számos népszerű gépi tanulási kódtárat tartalmaz, köztük a TensorFlow-t, a PyTorch-ot és az XGBoost-t. Emellett támogatja az elosztott mélytanulási képzést a Horovod használatával.

További információkért, beleértve a Databricks Runtime ML-fürt létrehozásához szükséges utasításokat, tekintse meg Az AI és gépi tanulás a Databricks-en.

Új funkciók és fejlesztések

A Databricks Runtime 10.1 ML a Databricks Runtime 10.1-es verziójára épül. A Databricks Runtime 10.1 újdonságairól, beleértve az Apache Spark MLlib és a SparkR újdonságait, tekintse meg a Databricks Runtime 10.1 (EoS) kibocsátási megjegyzéseit.

Az AutoML fejlesztései

A Databricks Runtime 10.1-ben az AutoML továbbfejlesztett szemantikai típusészlelést, új riasztásokat tartalmaz a betanítás során felmerülő lehetséges adatproblémákra vonatkozóan, új képességek a modellek túlillesztésének megelőzésére, valamint a bemeneti adathalmaz időrendben történő betanításra, ellenőrzésre és tesztkészletekre való felosztására.

További szemantikai típusészlelések

Az AutoML mostantól támogatja a további szemantikai típusészlelést:

  • A kategorikus címkéket tartalmazó numerikus oszlopok kategorikus típusként vannak kezelve.
  • Az angol szöveget tartalmazó sztringoszlopok szövegfunkcióként lesznek kezelve.

Mostantól széljegyzeteket is hozzáadhat az oszlop adattípusának megadásához. További részletekért lásd a szemantikai típusészlelést.

Riasztások a betanítás során lehetséges adatproblémák esetén

Az AutoML mostantól észleli és létrehozza az adatkészlettel kapcsolatos lehetséges problémákra vonatkozó riasztásokat. A riasztások közé tartoznak például a nem támogatott oszloptípusok és a nagy kardinalitású oszlopok. Ezek a riasztások az új Riasztások lap kísérletoldalán jelennek meg. A riasztásokkal kapcsolatos további információkat az adatfeltárási jegyzetfüzet tartalmazza. További információ: A kísérlet futtatása és az eredmények figyelése.

A modell túltanulásának csökkentése

Két új képesség csökkenti a modell túlillesztésének esélyét az AutoML használatakor:

  • Az AutoML mostantól az érvényesítési és betanítási metrikák mellett a tesztelési metrikákat is jelenti.
  • Az AutoML most már korai leállítást használ. Leállítja a modellek betanítását és finomhangolását, ha az érvényesítési metrika már nem javul.

Az adatkészletet oszd szét tanulási, validációs és tesztkészletekre időrendi sorrendben.

Besorolási és regressziós problémák esetén az adathalmazt időrendben feloszthatja betanítási, érvényesítési és tesztelési csoportokra. Részletekért lásd: Adatok felosztása betanítási, érvényesítési és tesztkészletekre .

A Databricks szolgáltatástároló fejlesztései

A Databricks Feature Store mostantól további adattípusokat is támogat a funkciótáblákhoz: BinaryType, DecimalTypeés MapType.

Mlflow

Az alábbi fejlesztések az Mlflow 1.21.0-s verziójától érhetők el, amely a Databricks Runtime 10.1 ML-ben található.

  • [Modellek] Frissítse a fastai modell ízét a fastai v2 (2.4.1 vagy újabb) támogatásához.
  • [Modellek] Az mlflow.prophet modellváltozat bevezetése Prophet idősorozat-modellekhez.
  • [Pontozás] Kijavítottunk egy sémakényszerítési hibát, amely helytelenül alakította át a dátumszerű karakterláncokat dátum- és időobjektumokká.

Hyperopt

SparkTrials mostantól támogatja a early_stopping_fn paramétert a fmin számára. A korai leállítási függvénnyel megadhatja azokat a feltételeket, amikor a Hyperoptnak le kell állítania a hiperparaméterek finomhangolását a kiértékelések maximális számának elérése előtt. Ezt a paramétert használhatja például a finomhangolás befejezéséhez, ha a célfüggvény többé nem csökken. Részletekért lásd: fmin().

A Databricks Runtime ML Python-környezetének főbb változásai

Python-csomagok frissítve

  • automl 1.3.1 => 1.4.1
  • feature_store 0.3.4 => 0.3.5
  • ünnepnapok 0.11.2 => 0.11.3.1
  • horovod 0.22.1 => 0.23.0
  • hyperopt 0.2.5.db2 => 0.2.5.db4
  • kiegyensúlyozatlan tanulás 0.8.0 => 0.8.1
  • lightgbm 3.1.1 => 3.3.0
  • mlflow 1.20.2 => 1.21.0
  • petastorm 0.11.2 => 0.11.3
  • plotly 5.1.0 => 5.3.0
  • pytorch 1.9.0 => 1.9.1
  • spacy 3.1.2 => 3.1.3
  • sparkdl 2.2.0_db3 => 2.2.0_db4
  • torchvision 0.10.0 => 0.10.1
  • transzformátorok 4.9.2 => 4.11.3

Python-csomagok hozzáadva

  • fasttext => 0.9.2
  • tensorboard-plugin-profile => 2.5.0

Elavulások

Az MLlib automatizált MLflow-nyomkövetés elavult a Databricks Runtime 10.1 ML-t és újabb verziót futtató fürtökön. Ehelyett használja az MLflow PySpark ML automatikus naplózását a mlflow.pyspark.ml.autolog() hívásával. Az automatikus naplózás alapértelmezés szerint engedélyezve van a Databricks Autologging segítségével.

Rendszerkörnyezet

A Databricks Runtime 10.1 ML rendszerkörnyezete az alábbiak szerint különbözik a Databricks Runtime 10.1-től:

Könyvtárak

Az alábbi szakaszok a Databricks Runtime 10.1 ML-ben található kódtárakat sorolják fel, amelyek eltérnek a Databricks Runtime 10.1-ben szereplő kódtáraktól.

Ebben a szakaszban:

Felső szintű kódtárak

A Databricks Runtime 10.1 ML a következő legfelső szintű kódtárakat tartalmazza:

Python-kódtárak

A Databricks Runtime 10.1 ML a Virtualenv-t használja a Python-csomagkezeléshez, és számos népszerű ML-csomagot tartalmaz.

A következő szakaszokban megadott csomagok mellett a Databricks Runtime 10.1 ML a következő csomagokat is tartalmazza:

  • hyperopt 0.2.5.db4
  • sparkdl 2.2.0-db4
  • feature_store 0.3.5
  • automl 1.4.0

Feljegyzés

A Databricks Runtime 10.1 ML kompatibilitási problémák miatt az 1.0-s verzió helyett a Scikit-Learn 0.24-es verzióját tartalmazza. A scikit-learn csomag számos más csomaggal is együttműködik a Databricks Runtime 10.1 ML-ben.

Frissíthet a scikit-learn 1.0-s verziójára; A Databricks azonban nem támogatja ezt a verziót.

A frissítéshez használjon jegyzetfüzet-hatókörű könyvtárakat. Jegyzetfüzetből futtassa %pip install --upgrade "scikit-learn>=1.0,<1.1".

Másik lehetőségként használja ezt a fürt init szkriptet:

#!/bin/bash

set -e

pip install --upgrade "scikit-learn>=1.0,<1.1"

Python-könyvtárak CPU-fürtökön

Könyvtár Verzió Könyvtár Verzió Könyvtár Verzió
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
aszinkron generátor 1.10 attribútumok 20.3.0 backcall 0.2.0
bcrypt 3.2.0 fehérítő 3.3.0 blis 0.7.4
boto3 1.16.7 botocore 1.19.7 Gyorstár-eszközök 4.2.4
katalógus 2.0.6 minősítés 2020.12.5 cffi 1.14.5
karakterészlelés 4.0.0 cseng 5,0 kattintás 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
konvertáldátum 2.3.2 kriptográfia 3.4.7 biciklista 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.3
databricks-cli 0.14.3 dbus-python 1.2.16 lakberendező 5.0.6
defusedxml 0.7.1 kapor 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0,23ubuntu1 belépési pontok 0,3
ephem 4.1 aspektusok áttekintése 1.0.0 fasttext 0.9.2
fájlzár 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 jövő 0.18.2 vendég 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-hitelesítés 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-konverter 2.2.2 szünidő 0.11.3.1 horovod (orosz néptánc) 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 idna 2.10
ImageHash 4.2.1 kiegyensúlyozatlan tanulás 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter ügyfélprogram 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgetek 1.0.0 keras 2.6.0 Keras-Előfeldolgozás 1.1.2
kiwisolver 1.3.1 Koalák 1.8.2 koreai-holdnaptár 0.2.1
lightgbm 3.3.0 llvmlite 0.37.0 LunarCalendar 0.0.9
Makó 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 rosszul hangolt 0.8.4
mleap 0.18.1 mlflow-skinny 1.21.0 többmódszertan 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
nltk 3.6.1 jegyzetfüzet 6.3.0 numba 0.54.1
numpy 1.19.2 oauthlib 3.1.0 opt-einsum 3.3.0
csomagolás 20.9 pandas 1.2.4 pandas-profilkészítés 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 Patsy 0.5.1 petastorm 0.11.3
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Párna 8.2.0 mag 21.0.1 ábrázolás 5.3.0
préselt 3.0.5 prometheus-client 0.10.1 prompt-toolkit 3.0.17
próféta 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.8.0
pycparser 2,20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1
Python szerkesztő 1.0.4 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
kérelmek 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
Rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 SciPy 1.6.2 tengeri 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1,2
shap 0.39.0 simplejson 3.17.2 Hat 1.15.0
szeletelő 0.0.7 smart-open 5.2.0 smmap 3.0.5
tágas 3.1.3 spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 komolyan 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 táblázatba foglal 0.8.7 összegabalyodva a Unicode-dal 0.1.0
Kitartás 6.2.0 tensorboard 2.6.0 szerver tensorboard-adatokhoz 0.6.1
TensorBoard bővítmény profil 2.5.0 tensorboard-plugin-wit 1.8.0 tensorflow-cpu (TensorFlow processzoros verzió) 2.6.0
tensorflow-estimator 2.6.0 termcolor 1.1.0 befejezve 0.9.4
tesztútvonal 0.4.4 thinc 8.0.9 threadpoolctl 2.1.0
tokenizálók 0.10.3 fáklya 1.9.1+cpu torchvision 0.10.1+cpu
tornádó 6.1 tqdm 4.59.0 traitlets 5.0.5
transzformátorok 4.11.3 Typer 0.3.2 gépelés-bővítmények 3.7.4.3
ujson 4.0.2 felügyelet nélküli frissítések 0,1 urllib3 1.25.11
virtualenv 20.4.1 Látomások 0.7.4 Wasabi 0.8.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-kliens 0.57.0
Werkzeug 1.0.1 kerék 0.36.2 widgetsnbextension 3.5.1
becsomagolt 1.12.1 xgboost 1.4.2 cipzár 3.4.1

Python-könyvtárak GPU-fürtökön

Könyvtár Verzió Könyvtár Verzió Könyvtár Verzió
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-gördülő) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
aszinkron generátor 1.10 attribútumok 20.3.0 visszahívás 0.2.0
bcrypt 3.2.0 fehérítő 3.3.0 boldogság 0.7.4
boto3 1.16.7 botocore 1.19.7 cachetools 4.2.4
katalógus 2.0.6 certifi 2020.12.5 cffi 1.14.5
chardet 4.0.0 cseng 5,0 kattintás 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
dátum konvertálása 2.3.2 kriptográfia 3.4.7 biciklista 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.3
databricks-cli 0.14.3 dbus-python 1.2.16 lakberendező 5.0.6
defusedxml 0.7.1 kapor 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0,23ubuntu1 belépési pontok 0.3
ephem 4.1 aspektusok áttekintése 1.0.0 fasttext 0.9.2
fájlzár 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 jövő 0.18.2 vendég 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-hitelesítés 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-konverter 2.2.2 szünidő 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 idna 2.10
ImageHash 4.2.1 kiegyensúlyozatlan tanulás 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgetek 1.0.0 keras 2.6.0 Keras-Előfeldolgozás 1.1.2
kiwisolver 1.3.1 Koalák 1.8.2 koreai-holdnaptár 0.2.1
lightgbm 3.3.0 llvmlite 0.37.0 LunarCalendar 0.0.9
Makó 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 elhangolni 0.8.4
mleap 0.18.1 mlflow-skinny 1.21.0 többmódszeres 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
nltk 3.6.1 jegyzetfüzet 6.3.0 numba 0.54.1
numpy 1.19.2 oauthlib 3.1.0 opt-einsum 3.3.0
csomagolás 20.9 pandas 1.2.4 pandas-profilkészítés 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 Patsy 0.5.1 petastorm 0.11.3
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Párna 8.2.0 pont 21.0.1 ábrázolás 5.3.0
előre meg van nyitható 3.0.5 prompt-toolkit 3.0.17 próféta 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.8.1 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.4.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 kérelmek 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
scipy 1.6.2 tengeri 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1,2 shap 0.39.0
simplejson 3.17.2 hat 1.15.0 szeletelő 0.0.7
smart-open 5.2.0 smmap 3.0.5 tágas 3.1.3
spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1
srsly 2.4.1 ssh-import-id 5.10 statsmodels 0.12.2
táblázatba rendez 0.8.7 tangled-up-in-unicode 0.1.0 Kitartás 6.2.0
tensorboard 2.6.0 tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0
tensorboard-plugin-wit 1.8.0 tensorflow 2.6.0 tensorflow-estimator 2.6.0
termcolor 1.1.0 befejezett 0.9.4 tesztútvonal 0.4.4
thinc 8.0.9 threadpoolctl 2.1.0 tokenizálók 0.10.3
fáklya 1.9.1+cu111 torchvision 0.10.1+cu111 tornádó 6.1
tqdm 4.59.0 árulók 5.0.5 Transzformátorok 4.11.3
Typer 0.3.2 szövegbeviteli bővítmények 3.7.4.3 ujson 4.0.2
felügyelet nélküli frissítések 0,1 urllib3 1.25.11 virtualenv 20.4.1
Látomások 0.7.4 Wasabi 0.8.2 wcwidth 0.2.5
webenkódolások 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
kerék 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.4.2 ZIP fájl 3.4.1

Python-modulokat tartalmazó Spark-csomagok

Spark-csomag Python-modul Verzió
graphframes GraphFrames 0.8.2-db1-spark3.2

R-kódtárak

Az R-kódtárak megegyeznek a Databricks Runtime 10.1 R-kódtáraival .

Java és Scala könyvtárak (Scala 2.12 fürt)

A Databricks Runtime 10.1 Java- és Scala-kódtárai mellett a Databricks Runtime 10.1 ML a következő JAR-eket tartalmazza:

CPU klaszterek

Csoportazonosító Artefaktum azonosítója Verzió
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db6-spark3.2
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-klaszterek

Csoportazonosító Összetevő azonosítója Verzió
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1-spark3.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.21.0
org.mlflow mlflow-spark 1.21.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0