Mi az AutoML?

Cikk
02/03/2025

Az AutoML leegyszerűsíti a gépi tanulás adathalmazokra való alkalmazását azáltal, hogy automatikusan megtalálja a legjobb algoritmust és hiperparaméter-konfigurációt.

Hogyan működik az AutoML?

Adja meg az adathalmazt, és adja meg a gépi tanulási probléma típusát, majd az AutoML a következőket teszi:

Megtisztítja és előkészíti az adatokat.
Elosztott modell betanítását és hiperparaméter-finomhangolását vezényli több algoritmus között.
A legjobb modellt a scikit-learn, xgboost, LightGBM, Prophet és ARIMA nyílt forráskód kiértékelési algoritmusai alapján találja meg.
Megjeleníti az eredményeket. Az AutoML emellett forráskód-jegyzetfüzeteket is létrehoz az egyes próbaverziókhoz , így szükség szerint áttekintheti, reprodukálhatja és módosíthatja a kódot.

Az AutoML-kísérletek megkezdése alacsony kódot igénylő felhasználói felületen keresztül, például regresszió, besorolás, vagy előrejelzésesetén, illetve a Python APIsegítségével.

Követelmények

Az Azure Databricks a Databricks Runtime 10.4 LTS ML vagy újabb verzióját javasolja az AutoML általános rendelkezésre állásához.
Az AutoML a databricks-automl-runtime csomagtól függ, amely az AutoML-en kívül hasznos összetevőket tartalmaz, és segít leegyszerűsíteni az AutoML-betanítás által létrehozott jegyzetfüzeteket. databricks-automl-runtimea PyPI-n érhető el.
A Databricks Runtime for Machine Learningben előre telepített kódtárakon kívül nem lehet további kódtárakat telepíteni a fürtre.
- A meglévő kódtárverziók módosításai (eltávolítása, frissítései vagy leminősítései) kompatibilitási hibákhoz vezetnek.
A munkaterület fájljainak eléréséhez meg kell nyitnia az 1017-es és az 1021-es hálózati portot az AutoML-kísérletekhez. Ha meg szeretné nyitni ezeket a portokat, vagy ellenőrizni szeretné, hogy nyitva vannak-e, tekintse át a felhőbeli VPN-tűzfal konfigurációját és a biztonsági csoport szabályait, vagy forduljon a helyi felhő rendszergazdájához. A munkaterület konfigurációjáról és üzembe helyezéséről további információt a Munkaterület létrehozása című témakörben talál.

Használjon számítási erőforrást támogatott számítási hozzáférési móddal. Nem minden számítási hozzáférési mód rendelkezik hozzáféréssel a Unity-katalógushoz:

Számítási hozzáférési mód	AutoML-támogatás	Unity Catalog-támogatás
dedikált hozzáférési mód	Nem támogatott	Támogatott
egyfelhasználós	Támogatott (a fürt kijelölt egyetlen felhasználójának kell lennie)	Támogatott
Megosztott hozzáférési mód	Nem támogatott	Nem támogatott
Nincs megosztott elkülönítés	Támogatott	Nem támogatott

AutoML-algoritmusok

Az AutoML az alábbi táblázatban szereplő algoritmusok alapján képez és értékel ki modelleket.

Feljegyzés

A besorolási és regressziós modellek esetében a döntési fa, a véletlenszerű erdők, a logisztikai regresszió és a lineáris regresszió a sztochasztikus gradiens süllyedési algoritmusokkal a scikit-learn függvényen alapul.

Besorolási modellek	Regressziós modellek	Előrejelzési modellek	Előrejelzési modellek (kiszolgáló nélküli)
Döntési fák	Döntési fák	Próféta	Próféta
Véletlenszerű erdők	Véletlenszerű erdők	Auto-ARIMA (a Databricks Runtime 10.3 ML-ben és újabb verziókban érhető el.)	Auto-ARIMA
Logisztikai regresszió	Lineáris regresszió sztochasztikus gradiens süllyedéssel		DeepAR
XGBoost	XGBoost
LightGBM	LightGBM

Próbaverziós jegyzetfüzet létrehozása

A klasszikus compute AutoML a próbaverziók mögötti forráskód jegyzetfüzeteit hozza létre, hogy szükség szerint áttekinthesse, reprodukálhassa és módosítsa a kódot.

A kísérletek előrejelzéséhez a rendszer automatikusan importálja az AutoML által létrehozott jegyzetfüzeteket a munkaterületre a kísérlet összes próbaidőszakához.

Besorolási és regressziós kísérletek esetén a rendszer automatikusan importálja az AutoML által az adatfeltáráshoz és a kísérlet legjobb próbaverziójához létrehozott jegyzetfüzeteket a munkaterületre. Az egyéb kísérletkísérletekhez létrehozott jegyzetfüzetek MLflow-összetevőkként vannak mentve a DBFS-en ahelyett, hogy automatikusan importálták volna a munkaterületre. A legjobb próba kivételével a többi próbánál az notebook_path Python API-ban a notebook_url és a TrialInfo nincsenek beállítva. Ha ezeket a jegyzetfüzeteket szeretné használni, manuálisan importálhatja őket a munkaterületre az AutoML-kísérlet felhasználói felületével vagy a databricks.automl.import_notebookPython API-val.

Ha csak az AutoML által létrehozott adatfeltáró jegyzetfüzetet vagy a legjobb próbaverziós jegyzetfüzetet használja, az AutoML-kísérlet felhasználói felületén található Forrás oszlop tartalmazza a létrehozott jegyzetfüzetre mutató hivatkozást a legjobb próbaverzióhoz.

Ha más létrehozott jegyzetfüzeteket használ az AutoML-kísérlet felhasználói felületén, a rendszer nem importálja őket automatikusan a munkaterületre. A jegyzetfüzeteket az egyes MLflow-futtatásokra kattintva találja meg. Az IPython-jegyzetfüzet a futtatási lap Összetevők szakaszában lesz mentve. Letöltheti ezt a jegyzetfüzetet, és importálhatja a munkaterületre, ha a munkaterület rendszergazdái engedélyezik az összetevők letöltését.

Shapley értékek (SHAP) a modell magyarázatához

Feljegyzés

Az MLR 11.1-es és újabb verzió esetén az SHAP-diagramok nem jönnek létre, ha az adatkészlet datetime oszlopot tartalmaz.

Az AutoML-regressziós és besorolási futtatások által létrehozott jegyzetfüzetek olyan kódot tartalmaznak, amely Shapley-értékeketszámít ki. A shapley értékek a játékelméletben alapulnak, és megbecsülik az egyes funkciók fontosságát a modell előrejelzéseiben.

Az AutoML-jegyzetfüzetek a Shapley-értékeket az SHAP-csomaghasználatával számítják ki. Mivel ezek a számítások nagy memóriaigényűek, a számítások alapértelmezés szerint nem lesznek végrehajtva.

Shapley-értékek kiszámítása és megjelenítése:

Nyissa meg az AutoML által létrehozott próbajegyzetfüzet Szolgáltatás fontossági szakaszát.
shap_enabled = Truebeállítása.
Futtassa újra a jegyzetfüzetet.

Megosztás a következőn keresztül:

Mi az AutoML?

Hogyan működik az AutoML?

Követelmények

AutoML-algoritmusok

Próbaverziós jegyzetfüzet létrehozása

Shapley értékek (SHAP) a modell magyarázatához

Következő lépések

Visszajelzés

További források