Gépi tanulási szószedet fontos kifejezésekről

Cikk
12/21/2024

Az alábbi lista olyan fontos gépi tanulási kifejezéseket tartalmaz, amelyek hasznosak az egyéni modellek ML.NET való létrehozása során.

Pontosság

A besorolásia pontosság a helyesen besorolt tételek száma és a tesztkészlet elemeinek teljes számával osztva. A tartomány 0 (legkevésbé pontos) és 1 (legpontosabb). A pontosság a modell teljesítményének egyik kiértékelési mérőszáma. Vegye figyelembe pontossági, visszahívásiés F-pontszám.

A görbe alatti terület (AUC)

Az bináris besorolásiegy kiértékelési metrika, amely a görbe alatti terület értéke, amely a valódi pozitív arányt ábrázolja (az y tengelyen) a hamis pozitív értékek arányával (az x tengelyen). A tartomány 0,5 (legrosszabb) és 1 (legjobb). Más néven az ROC-görbe alatti terület, azaz a vevő működési jellemző görbéje. További információ: Receiver működési jellemző cikk a Wikipédián.

Bináris besorolás

Egy besorolási eset, amelyben a címke csak egy a két osztály közül. További információt a Gépi tanulási feladatok témakörének bináris besorolási szakaszában talál.

Kalibrálás

A kalibráció a nyers pontszám osztálytagságra való leképezésének folyamata bináris és többosztályos besoroláshoz. Egyes ML.NET oktatók NonCalibrated utótagot kaptak. Ezek az algoritmusok nyers pontszámot hoznak létre, amelyet aztán osztály-valószínűségre kell leképezni.

Katalógus

A ML.NET a katalógus a bővítményfüggvények gyűjteménye, amely egy közös cél szerint van csoportosítva.

Például minden gépi tanulási feladat (bináris besorolás, regresszió, rangsorolás stb.) rendelkezik az elérhető gépi tanulási algoritmusok (oktatók) katalógusával. A bináris besorolási oktatók katalógusa a következő: BinaryClassificationCatalog.BinaryClassificationTrainers.

Osztályozás

Ha az adatok egy kategória előrejelzésére szolgálnak, felügyelt gépi tanulási feladatot besorolásnak nevezzük. bináris besorolási csak két kategória előrejelzésére utal (például egy kép "macska" vagy "kutya" képeként való besorolására). többosztályos besorolási több kategória előrejelzésére utal (például ha egy képet egy adott kutyafajta képének minősít).

A meghatározási együttható

A regressziósegy kiértékelési metrika, amely azt jelzi, hogy az adatok mennyire illenek egy modellhez. 0 és 1 közötti tartomány. A 0 érték azt jelenti, hogy az adatok véletlenszerűek, vagy más módon nem felelnek meg a modellnek. Az 1 érték azt jelenti, hogy a modell pontosan egyezik az adatokkal. Ezt gyakran nevezik r², R²vagy r-négyzet.

Adat

Az adatok minden gépi tanulási alkalmazás központi fontosságúak. ML.NET az adatokat IDataView objektumok jelölik. Adatnézeti objektumok:

oszlopokból és sorokból állnak
lazán kiértékelik őket, vagyis csak akkor töltik be az adatokat, amikor egy művelet meghívja őket
olyan sémát tartalmaz, amely meghatározza az egyes oszlopok típusát, formátumát és hosszát

Becslő

A ML.NET osztálya, amely megvalósítja a IEstimator<TTransformer> felületet.

A becslő egy átalakítás specifikációja (adatelőkészítési átalakítás és gépi tanulási modell betanítása). Az értékbecslők összefűzhetők az átalakítások folyamatával. A becslők vagy a becslők folyamatának paramétereit a rendszer Fit meghívásakor tanulja meg. A Fit eredménye egy Transformer.

Bővítménymetódus

.NET-metódus, amely egy osztály része, de az osztályon kívül van definiálva. A bővítménymetódus első paramétere egy statikus this hivatkozás arra az osztályra, amelyhez a bővítménymetódus tartozik.

A bővítménymetelyeket széles körben használják ML.NET becslésipéldányainak létrehozásához.

Vonás

A mért jelenség mérhető tulajdonsága, jellemzően numerikus (dupla) érték. Több funkciót nevezünk funkcióvektornak, és általában double[]ként vannak tárolva. A jellemzők határozzák meg a mérendő jelenség fontos jellemzőit. További információ: Funkció cikk a Wikipédián.

Funkciófejlesztés

A funkciófejlesztés az a folyamat, amely magában foglalja funkciók és olyan szoftverek fejlesztését, amelyek funkcióvektorokat állítanak elő a rendelkezésre álló jelenségadatokból, azaz a funkciók kinyeréséből. További információ: Szolgáltatásfejlesztés cikk a Wikipédiáról.

F-pontszám

A besorolásiegy kiértékelési metrika, amely pontossági és visszahívásiegyensúlyba.

Hiperparaméter

Egy gépi tanulási algoritmus paramétere. Ilyen például a döntési erdőben tanulni kívánt fák száma vagy a lépésméret egy színátmenetes süllyedő algoritmusban. A hiperparaméterek értékei a modell betanítása előtt vannak beállítva, és szabályozzák az előrejelzési függvény paramétereinek megtalálásának folyamatát, például a döntési fában lévő összehasonlító pontokat vagy a lineáris regressziós modell súlyait. További információ: Hyperparameter cikk a Wikipédián.

Címke

A gépi tanulási modellel előre jelezendő elem. Például a kutyafajta vagy a jövőbeli részvényár.

Naplóvesztés

Az besorolásiegy kiértékelési metrika, amely az osztályozó pontosságát jellemzi. Minél kisebb a naplóvesztés, annál pontosabb az osztályozó.

Veszteség függvény

A veszteségfüggvény a betanítási címke értékei és a modell által készített előrejelzés közötti különbség. A modell paramétereit a veszteségfüggvény minimalizálásával becsüljük meg.

A különböző oktatók különböző veszteségfüggvényekkel konfigurálhatók.

Átlagos abszolút hiba (MAE)

A regressziósegy kiértékelési metrika, amely az összes modellhiba átlaga, ahol a modellhiba az előrejelzett címke értéke és a megfelelő címkeérték közötti távolság.

Modell

Az előrejelzési függvény paraméterei hagyományosan. Például egy lineáris regressziós modell súlyozása vagy egy döntési fa felosztási pontjai. A ML.NET egy modell tartalmazza a tartományobjektumok (például kép vagy szöveg) címke előrejelzéséhez szükséges összes információt. Ez azt jelenti, hogy ML.NET modellek tartalmazzák a szükséges featurizációs lépéseket, valamint az előrejelzési függvény paramétereit.

Többosztályos besorolás

Olyan besorolási eset, amelyben a címke három vagy több osztály egyike. További információt a Gépi tanulási feladatok témakör többosztályos besorolási szakaszában talál.

N-gram

A szöveges adatok funkciókinyerési sémája: az N szavak bármely sorozata funkcióvá értékké válik.

Normalizálás

A normalizálás a lebegőpontos adatok 0 és 1 közötti értékekre való skálázásának folyamata. A ML.NET használt betanítási algoritmusok közül sok megköveteli a bemeneti funkciók adatainak normalizálását. ML.NET átalakítások sorozatát biztosítja a normalizálási.

Numerikus jellemzők vektora

Egy jellemző vektor, amely csak numerikus értékekből áll. Ez hasonló a double[].

Csővezeték

A modell adatkészlethez való igazításához szükséges összes művelet. A folyamatok adatimportálásból, átalakításból, featurizálásból és tanulási lépésekből állnak. Miután betanított egy folyamatot, modellré válik.

Precizitás

Az besorolásiaz osztály pontossága az adott osztályhoz tartozóként helyesen előrejelzett elemek száma, osztva az osztályhoz tartozóként előrejelzett elemek teljes számával.

Felidéz

Az besorolásiaz osztály visszahívása az adott osztályhoz tartozóként helyesen előrejelzett elemek száma, osztva az osztályhoz ténylegesen tartozó elemek teljes számával.

Rendszeresítés

A rendszeresítés a túl bonyolultság miatt bünteti a lineáris modellt. A rendszerezésnek két típusa van:

$L_1$ reginálási nullákkal nulláz a jelentéktelen funkciókhoz. Az ilyen típusú rendszeresítés után a mentett modell mérete kisebb lehet.
$L_2$ rendszeresítés minimálisra csökkenti a súlytartományt a jelentéktelen funkciókhoz. Ez egy általánosabb folyamat, és kevésbé érzékeny a kiugró értékekre.

Regresszió

Egy felügyelt gépi tanulási feladat, amelyben a kimenet valós érték, például dupla. Ilyen például a tőzsdei árfolyamok előrejelzése. További információt a Gépi tanulási feladatok témakör Regressziós című szakaszában talál.

Relatív abszolút hiba

Az regressziósegy kiértékelési metrika, amely az összes abszolút hiba összegét osztja el a helyes címke értékek és a helyes címkeértékek átlaga közötti távolságok összegével.

Relatív négyzetes hiba

A regresszióskiértékelési metrika, amely az összes négyzetes abszolút hiba összege, a helyes címke értékek és a helyes címkeértékek átlaga közötti négyzetes távolságok összegével osztva.

Középérték négyzetes hiba gyökere (RMSE)

A regressziósegy kiértékelési metrika, amely a hibák négyzetgyöke.

Pontozás

A pontozás az új adatok betanított gépi tanulási modellre való alkalmazásának és előrejelzések generálásának folyamata. A pontozást következtetésnek is nevezik. A modell típusától függően a pontszám lehet nyers érték, valószínűség vagy kategória.

Felügyelt gépi tanulás

A gépi tanulás alosztálya, amelyben egy kívánt modell előrejelzi a még nem látott adatok címkéjét. Ilyen például a besorolás, a regresszió és a strukturált előrejelzés. További információ: Felügyelt tanulás cikk a Wikipédiáról.

Képzés

Egy adott betanítási adatkészlethez modell azonosításának folyamata. Lineáris modell esetén ez a súlyok megtalálását jelenti. A fa esetében a felosztási pontok azonosítására van szükség.

Transzformátor

Egy ML.NET osztály, amely implementálja a ITransformer felületet.

A transzformátor átalakítja az egyik IDataView egy másikba. A transzformátor egy becslővagy egy becslési folyamat betanításával jön létre.

Nem felügyelt gépi tanulás

A gépi tanulás alosztálya, amelyben egy kívánt modell rejtett (vagy látens) struktúrát talál az adatokban. Ilyenek például a fürtözés, a témakörmodellezés és a dimenziócsökkentés. További információ: Nem felügyelt tanulás cikk a Wikipédián.

Megosztás a következőn keresztül: