Megosztás a következőn keresztül:


Mi az AutoML?

Az AutoML leegyszerűsíti a gépi tanulás adathalmazokra való alkalmazását azáltal, hogy automatikusan megtalálja a legjobb algoritmust és hiperparaméter-konfigurációt.

Hogyan működik az AutoML?

Adja meg az adathalmazt, és adja meg a gépi tanulási probléma típusát, majd az AutoML a következőket teszi:

  1. Megtisztítja és előkészíti az adatokat.
  2. Elosztott modell betanítását és hiperparaméter-finomhangolását vezényli több algoritmus között.
  3. A legjobb modellt a scikit-learn, xgboost, LightGBM, Prophet és ARIMA nyílt forráskód kiértékelési algoritmusai alapján találja meg.
  4. Megjeleníti az eredményeket. Az AutoML emellett forráskód-jegyzetfüzeteket is létrehoz az egyes próbaverziókhoz , így szükség szerint áttekintheti, reprodukálhatja és módosíthatja a kódot.

Az AutoML-kísérletek megkezdése alacsony kódot igénylő felhasználói felületen keresztül, például regresszió, besorolás, vagy előrejelzésesetén, illetve a Python APIsegítségével.

Követelmények

  • Az Azure Databricks a Databricks Runtime 10.4 LTS ML vagy újabb verzióját javasolja az AutoML általános rendelkezésre állásához.

  • Az AutoML a databricks-automl-runtime csomagtól függ, amely az AutoML-en kívül hasznos összetevőket tartalmaz, és segít leegyszerűsíteni az AutoML-betanítás által létrehozott jegyzetfüzeteket. databricks-automl-runtimea PyPI-n érhető el.

  • A Databricks Runtime for Machine Learningben előre telepített kódtárakon kívül nem lehet további kódtárakat telepíteni a fürtre.

    • A meglévő kódtárverziók módosításai (eltávolítása, frissítései vagy leminősítései) kompatibilitási hibákhoz vezetnek.
  • A munkaterület fájljainak eléréséhez meg kell nyitnia az 1017-es és az 1021-es hálózati portot az AutoML-kísérletekhez. Ha meg szeretné nyitni ezeket a portokat, vagy ellenőrizni szeretné, hogy nyitva vannak-e, tekintse át a felhőbeli VPN-tűzfal konfigurációját és a biztonsági csoport szabályait, vagy forduljon a helyi felhő rendszergazdájához. A munkaterület konfigurációjáról és üzembe helyezéséről további információt a Munkaterület létrehozása című témakörben talál.

  • Használjon számítási erőforrást támogatott számítási hozzáférési móddal. Nem minden számítási hozzáférési mód rendelkezik hozzáféréssel a Unity-katalógushoz:

    Számítási hozzáférési mód AutoML-támogatás Unity Catalog-támogatás
    dedikált hozzáférési mód Nem támogatott Támogatott
    egyfelhasználós Támogatott (a fürt kijelölt egyetlen felhasználójának kell lennie) Támogatott
    Megosztott hozzáférési mód Nem támogatott Nem támogatott
    Nincs megosztott elkülönítés Támogatott Nem támogatott

AutoML-algoritmusok

Az AutoML az alábbi táblázatban szereplő algoritmusok alapján képez és értékel ki modelleket.

Feljegyzés

A besorolási és regressziós modellek esetében a döntési fa, a véletlenszerű erdők, a logisztikai regresszió és a lineáris regresszió a sztochasztikus gradiens süllyedési algoritmusokkal a scikit-learn függvényen alapul.

Besorolási modellek Regressziós modellek Előrejelzési modellek Előrejelzési modellek (kiszolgáló nélküli)
Döntési fák Döntési fák Próféta Próféta
Véletlenszerű erdők Véletlenszerű erdők Auto-ARIMA (a Databricks Runtime 10.3 ML-ben és újabb verziókban érhető el.) Auto-ARIMA
Logisztikai regresszió Lineáris regresszió sztochasztikus gradiens süllyedéssel DeepAR
XGBoost XGBoost
LightGBM LightGBM

Próbaverziós jegyzetfüzet létrehozása

A klasszikus compute AutoML a próbaverziók mögötti forráskód jegyzetfüzeteit hozza létre, hogy szükség szerint áttekinthesse, reprodukálhassa és módosítsa a kódot.

A kísérletek előrejelzéséhez a rendszer automatikusan importálja az AutoML által létrehozott jegyzetfüzeteket a munkaterületre a kísérlet összes próbaidőszakához.

Besorolási és regressziós kísérletek esetén a rendszer automatikusan importálja az AutoML által az adatfeltáráshoz és a kísérlet legjobb próbaverziójához létrehozott jegyzetfüzeteket a munkaterületre. Az egyéb kísérletkísérletekhez létrehozott jegyzetfüzetek MLflow-összetevőkként vannak mentve a DBFS-en ahelyett, hogy automatikusan importálták volna a munkaterületre. A legjobb próba kivételével a többi próbánál az notebook_path Python API-ban a notebook_url és a TrialInfo nincsenek beállítva. Ha ezeket a jegyzetfüzeteket szeretné használni, manuálisan importálhatja őket a munkaterületre az AutoML-kísérlet felhasználói felületével vagy a databricks.automl.import_notebookPython API-val.

Ha csak az AutoML által létrehozott adatfeltáró jegyzetfüzetet vagy a legjobb próbaverziós jegyzetfüzetet használja, az AutoML-kísérlet felhasználói felületén található Forrás oszlop tartalmazza a létrehozott jegyzetfüzetre mutató hivatkozást a legjobb próbaverzióhoz.

Ha más létrehozott jegyzetfüzeteket használ az AutoML-kísérlet felhasználói felületén, a rendszer nem importálja őket automatikusan a munkaterületre. A jegyzetfüzeteket az egyes MLflow-futtatásokra kattintva találja meg. Az IPython-jegyzetfüzet a futtatási lap Összetevők szakaszában lesz mentve. Letöltheti ezt a jegyzetfüzetet, és importálhatja a munkaterületre, ha a munkaterület rendszergazdái engedélyezik az összetevők letöltését.

Shapley értékek (SHAP) a modell magyarázatához

Feljegyzés

Az MLR 11.1-es és újabb verzió esetén az SHAP-diagramok nem jönnek létre, ha az adatkészlet datetime oszlopot tartalmaz.

Az AutoML-regressziós és besorolási futtatások által létrehozott jegyzetfüzetek olyan kódot tartalmaznak, amely Shapley-értékeketszámít ki. A shapley értékek a játékelméletben alapulnak, és megbecsülik az egyes funkciók fontosságát a modell előrejelzéseiben.

Az AutoML-jegyzetfüzetek a Shapley-értékeket az SHAP-csomaghasználatával számítják ki. Mivel ezek a számítások nagy memóriaigényűek, a számítások alapértelmezés szerint nem lesznek végrehajtva.

Shapley-értékek kiszámítása és megjelenítése:

  1. Nyissa meg az AutoML által létrehozott próbajegyzetfüzet Szolgáltatás fontossági szakaszát.
  2. shap_enabled = Truebeállítása.
  3. Futtassa újra a jegyzetfüzetet.

Következő lépések