Mi az AutoML?
Az AutoML leegyszerűsíti a gépi tanulás adathalmazokra való alkalmazását azáltal, hogy automatikusan megtalálja a legjobb algoritmust és hiperparaméter-konfigurációt.
Hogyan működik az AutoML?
Adja meg az adathalmazt, és adja meg a gépi tanulási probléma típusát, majd az AutoML a következőket teszi:
- Megtisztítja és előkészíti az adatokat.
- Elosztott modell betanítását és hiperparaméter-finomhangolását vezényli több algoritmus között.
- A legjobb modellt a scikit-learn, xgboost, LightGBM, Prophet és ARIMA nyílt forráskód kiértékelési algoritmusai alapján találja meg.
- Megjeleníti az eredményeket. Az AutoML emellett forráskód-jegyzetfüzeteket is létrehoz az egyes próbaverziókhoz , így szükség szerint áttekintheti, reprodukálhatja és módosíthatja a kódot.
Az AutoML-kísérletek megkezdése alacsony kódot igénylő felhasználói felületen keresztül, például regresszió, besorolás, vagy előrejelzésesetén, illetve a Python APIsegítségével.
Követelmények
Az Azure Databricks a Databricks Runtime 10.4 LTS ML vagy újabb verzióját javasolja az AutoML általános rendelkezésre állásához.
Az AutoML a
databricks-automl-runtime
csomagtól függ, amely az AutoML-en kívül hasznos összetevőket tartalmaz, és segít leegyszerűsíteni az AutoML-betanítás által létrehozott jegyzetfüzeteket.databricks-automl-runtime
a PyPI-n érhető el.A Databricks Runtime for Machine Learningben előre telepített kódtárakon kívül nem lehet további kódtárakat telepíteni a fürtre.
- A meglévő kódtárverziók módosításai (eltávolítása, frissítései vagy leminősítései) kompatibilitási hibákhoz vezetnek.
A munkaterület fájljainak eléréséhez meg kell nyitnia az 1017-es és az 1021-es hálózati portot az AutoML-kísérletekhez. Ha meg szeretné nyitni ezeket a portokat, vagy ellenőrizni szeretné, hogy nyitva vannak-e, tekintse át a felhőbeli VPN-tűzfal konfigurációját és a biztonsági csoport szabályait, vagy forduljon a helyi felhő rendszergazdájához. A munkaterület konfigurációjáról és üzembe helyezéséről további információt a Munkaterület létrehozása című témakörben talál.
Használjon számítási erőforrást támogatott számítási hozzáférési móddal. Nem minden számítási hozzáférési mód rendelkezik hozzáféréssel a Unity-katalógushoz:
AutoML-algoritmusok
Az AutoML az alábbi táblázatban szereplő algoritmusok alapján képez és értékel ki modelleket.
Feljegyzés
A besorolási és regressziós modellek esetében a döntési fa, a véletlenszerű erdők, a logisztikai regresszió és a lineáris regresszió a sztochasztikus gradiens süllyedési algoritmusokkal a scikit-learn függvényen alapul.
Besorolási modellek | Regressziós modellek | Előrejelzési modellek | Előrejelzési modellek (kiszolgáló nélküli) |
---|---|---|---|
Döntési fák | Döntési fák | Próféta | Próféta |
Véletlenszerű erdők | Véletlenszerű erdők | Auto-ARIMA (a Databricks Runtime 10.3 ML-ben és újabb verziókban érhető el.) | Auto-ARIMA |
Logisztikai regresszió | Lineáris regresszió sztochasztikus gradiens süllyedéssel | DeepAR | |
XGBoost | XGBoost | ||
LightGBM | LightGBM |
Próbaverziós jegyzetfüzet létrehozása
A klasszikus compute AutoML a próbaverziók mögötti forráskód jegyzetfüzeteit hozza létre, hogy szükség szerint áttekinthesse, reprodukálhassa és módosítsa a kódot.
A kísérletek előrejelzéséhez a rendszer automatikusan importálja az AutoML által létrehozott jegyzetfüzeteket a munkaterületre a kísérlet összes próbaidőszakához.
Besorolási és regressziós kísérletek esetén a rendszer automatikusan importálja az AutoML által az adatfeltáráshoz és a kísérlet legjobb próbaverziójához létrehozott jegyzetfüzeteket a munkaterületre. Az egyéb kísérletkísérletekhez létrehozott jegyzetfüzetek MLflow-összetevőkként vannak mentve a DBFS-en ahelyett, hogy automatikusan importálták volna a munkaterületre. A legjobb próba kivételével a többi próbánál az notebook_path
Python API-ban a notebook_url
és a TrialInfo
nincsenek beállítva. Ha ezeket a jegyzetfüzeteket szeretné használni, manuálisan importálhatja őket a munkaterületre az AutoML-kísérlet felhasználói felületével vagy a databricks.automl.import_notebook
Python API-val.
Ha csak az AutoML által létrehozott adatfeltáró jegyzetfüzetet vagy a legjobb próbaverziós jegyzetfüzetet használja, az AutoML-kísérlet felhasználói felületén található Forrás oszlop tartalmazza a létrehozott jegyzetfüzetre mutató hivatkozást a legjobb próbaverzióhoz.
Ha más létrehozott jegyzetfüzeteket használ az AutoML-kísérlet felhasználói felületén, a rendszer nem importálja őket automatikusan a munkaterületre. A jegyzetfüzeteket az egyes MLflow-futtatásokra kattintva találja meg. Az IPython-jegyzetfüzet a futtatási lap Összetevők szakaszában lesz mentve. Letöltheti ezt a jegyzetfüzetet, és importálhatja a munkaterületre, ha a munkaterület rendszergazdái engedélyezik az összetevők letöltését.
Shapley értékek (SHAP) a modell magyarázatához
Feljegyzés
Az MLR 11.1-es és újabb verzió esetén az SHAP-diagramok nem jönnek létre, ha az adatkészlet datetime
oszlopot tartalmaz.
Az AutoML-regressziós és besorolási futtatások által létrehozott jegyzetfüzetek olyan kódot tartalmaznak, amely Shapley-értékeketszámít ki. A shapley értékek a játékelméletben alapulnak, és megbecsülik az egyes funkciók fontosságát a modell előrejelzéseiben.
Az AutoML-jegyzetfüzetek a Shapley-értékeket az SHAP-csomaghasználatával számítják ki. Mivel ezek a számítások nagy memóriaigényűek, a számítások alapértelmezés szerint nem lesznek végrehajtva.
Shapley-értékek kiszámítása és megjelenítése:
- Nyissa meg az AutoML által létrehozott próbajegyzetfüzet Szolgáltatás fontossági szakaszát.
-
shap_enabled = True
beállítása. - Futtassa újra a jegyzetfüzetet.