Jogkivonatok ismertetése

Cikk
02/02/2025

A tokenek szavak, karakterkészletek vagy szavak és írásjelek kombinációi, amelyeket nagy nyelvi modellek (LLM-ek) generálnak a szöveg felbontásakor. A tokenizálás a betanítás első lépése. Az LLM elemzi a jogkivonatok közötti szemantikai kapcsolatokat, például azt, hogy milyen gyakran használják őket együtt, vagy hogy hasonló kontextusban használják-e őket. A betanítás után az LLM ezeket a mintákat és kapcsolatokat használja a kimeneti jogkivonatok sorozatának létrehozásához a bemeneti sorrend alapján.

Szöveget tokenné alakítani

Az LLM által betanított egyedi tokenek készletét a szókincsnek nevezzük.

Vegyük például a következő mondatot:

I heard a dog bark loudly at a cat

Ez a szöveg a következő módon lehet jogkivonatos:

I
heard
a
dog
bark
loudly
at
a
cat

A megfelelő méretű betanítási szövegkészlettel a jogkivonatok több ezer tokenből álló szókészletet állíthatnak össze.

Gyakori tokenizálási módszerek

Az adott tokenizálási módszer LLM-enként változik. Gyakori tokenizálási módszerek a következők:

Szó jogkivonatosítása (a szöveg elválasztójel alapján különálló szavakra van felosztva)
Karakter-jogkivonatok (a szöveg különálló karakterekre van felosztva)
Subword tokenization (a szöveg részszavakra vagy karakterkészletekre van felosztva)

Az OpenAI által kifejlesztett GPT-modellek például a Byte-Pair Encoding (BPE) néven ismert alszó-jogkivonat-típust használják. Az OpenAI egy eszközt biztosít a szöveg jogkivonatossá alakításához.

Az egyes tokenizálási módszereknek vannak előnyei és hátrányai:

Jogkivonat mérete	Előnyök	Hátrányok
Kisebb jogkivonatok (karakter- vagy alszavas jogkivonatok)	– Lehetővé teszi a modell számára a bemenetek szélesebb körének kezelését, például ismeretlen szavakat, elírásokat vagy összetett szintaxist. – Csökkentheti a szókincs méretét, ami kevesebb memóriaerőforrást igényel.	– Egy adott szöveg több tokenre van bontva, ami további számítási erőforrásokat igényel a feldolgozás során. - Rögzített tokenkorlát mellett a modell bemenetének és kimenetének maximális mérete kisebb.
Nagyobb jogkivonatok (szó jogkivonatosítása)	– Egy adott szöveg kevesebb jogkivonatra van bontva, és a feldolgozás során kevesebb számítási erőforrást igényel. - Ugyanezen jogkivonat-korlát miatt a modell bemenetének és kimenetének maximális mérete nagyobb.	– Növelheti a szókincs méretét, ami több memóriaerőforrást igényel. – Korlátozhatja, hogy a modellek képesek legyenek kezelni az ismeretlen szavakat, elírásokat vagy összetett szintaxist.

Hogyan használják az LLM-ek a jogkivonatokat?

Miután az LLM befejezte a tokenizálást, minden egyes egyedi jogkivonathoz hozzárendel egy azonosítót.

Vegyük példamondatunkat:

I heard a dog bark loudly at a cat

Miután a modell egy szó jogkivonat-szerzési módszert használ, a következő módon rendelhet hozzá jogkivonat-azonosítókat:

I (1)
heard (2)
a (3)
dog (4)
bark (5)
loudly (6)
at (7)
a (az "a" token már rendelkezik azonosítóval 3)
cat (8)

Azonosítók hozzárendelésével a szöveg tokenazonosítók sorozataként jeleníthető meg. A példamondat [1, 2, 3, 4, 5, 6, 7, 3, 8]. A "I heard a cat" mondat [1, 2, 3, 8] néven jelenik meg.

A betanítás folytatásával a modell hozzáadja a betanítási szövegben lévő új jogkivonatokat a szókincséhez, és azonosítót rendel hozzá. Példa:

meow (9)
run (10)

A jogkivonatok közötti szemantikai kapcsolatok elemezhetők ezekkel a tokenazonosító-sorozatokkal. Ezek a kapcsolatok többértékű numerikus vektorok, más néven beágyazások. A beágyazás minden jogkivonathoz az alapján van hozzárendelve, hogy milyen gyakran használják a többi jogkivonattal együtt vagy hasonló kontextusban.

A betanítás után a modell kiszámíthatja a több jogkivonatot tartalmazó szöveg beágyazását. A modell tokenizálja a szöveget, majd kiszámít egy általános beágyazási értéket az egyes tokenek tanult beágyazásai alapján. Ez a technika használható szemantikai dokumentumok kereséséhez vagy vektortárolók AI-hoz való hozzáadásához.

A kimenet létrehozása során a modell előrejelzést ad a sorozat következő tokenjének vektorértékére. A modell ezután kiválasztja a következő tokent a szókincséből ezen vektorérték alapján. A gyakorlatban a modell több vektort számít ki az előző tokenek beágyazási elemeinek különböző elemeivel. A modell ezután kiértékeli az összes lehetséges tokent ezekből a vektorokból, és kiválasztja a legvalószínűbbet a sorozat folytatásához.

A kimeneti generálás iteratív művelet. A modell hozzáfűzi az előrejelzett jogkivonatot az eddigi sorozathoz, és ezt használja a következő iteráció bemeneteként, és a végső kimenetet egyszerre egy jogkivonattal készíti el.

Jogkivonat korlátai

Az LLM-eknek korlátozásuk van a bemenetként vagy kimenetként létrehozható jogkivonatok maximális számára vonatkozóan. Ez a korlátozás gyakran azt eredményezi, hogy a bemeneti és kimeneti jogkivonatok egy maximális környezeti ablakban vannak kombinálva. A modell jogkivonatkorlátja és tokenizálási módszere együttesen határozza meg a bemenetként vagy kimenetként létrehozható szövegek maximális hosszát.

Vegyük például azt a modellt, amelynek a környezetének maximális ablaka 100 jogkivonat. A modell bemeneti szövegként dolgozza fel a példamondatokat:

I heard a dog bark loudly at a cat

Egy szóalapú tokenizálási módszer használatával a bemenet kilenc jogkivonat. Így 91 szó jogkivonat érhető el a kimenethez.

Karakteralapú tokenizálási módszer használatával a bemenet 34 jogkivonat (szóközökkel együtt). Ez csak 66 karakteres jogkivonatot hagy elérhetővé a kimenethez.

Jogkivonatalapú díjszabás és sebességkorlátozás

A Generatív AI-szolgáltatások gyakran tokenalapú díjszabást használnak. Az egyes kérések költsége a bemeneti és kimeneti jogkivonatok számától függ. A díjszabás eltérő lehet a bemenet és a kimenet között. Lásd például az Azure OpenAI szolgáltatás díjszabását.

A Generatív AI-szolgáltatások a percenkénti jogkivonatok maximális száma (TPM) tekintetében is korlátozottak lehetnek. Ezek a sebességkorlátok a szolgáltatási régiótól és az LLM-től függően változhatnak. Az egyes régiókról további információt az Azure OpenAI szolgáltatás kvótái és korlátai című témakörben talál.

Megosztás a következőn keresztül:

Jogkivonatok ismertetése

Szöveget tokenné alakítani

Gyakori tokenizálási módszerek

Hogyan használják az LLM-ek a jogkivonatokat?

Jogkivonat korlátai

Jogkivonatalapú díjszabás és sebességkorlátozás

További források

Megosztás a következőn keresztül:

Jogkivonatok ismertetése

Szöveget tokenné alakítani

Gyakori tokenizálási módszerek

Hogyan használják az LLM-ek a jogkivonatokat?

Jogkivonat korlátai

Jogkivonatalapú díjszabás és sebességkorlátozás

Kapcsolódó tartalom

További források