Jogkivonatok ismertetése
A tokenek szavak, karakterkészletek vagy szavak és írásjelek kombinációi, amelyeket nagy nyelvi modellek (LLM-ek) generálnak a szöveg felbontásakor. A tokenizálás a betanítás első lépése. Az LLM elemzi a jogkivonatok közötti szemantikai kapcsolatokat, például azt, hogy milyen gyakran használják őket együtt, vagy hogy hasonló kontextusban használják-e őket. A betanítás után az LLM ezeket a mintákat és kapcsolatokat használja a kimeneti jogkivonatok sorozatának létrehozásához a bemeneti sorrend alapján.
Szöveget tokenné alakítani
Az LLM által betanított egyedi tokenek készletét a szókincsnek nevezzük.
Vegyük például a következő mondatot:
I heard a dog bark loudly at a cat
Ez a szöveg a következő módon lehet jogkivonatos:
I
heard
a
dog
bark
loudly
at
a
cat
A megfelelő méretű betanítási szövegkészlettel a jogkivonatok több ezer tokenből álló szókészletet állíthatnak össze.
Gyakori tokenizálási módszerek
Az adott tokenizálási módszer LLM-enként változik. Gyakori tokenizálási módszerek a következők:
- Szó jogkivonatosítása (a szöveg elválasztójel alapján különálló szavakra van felosztva)
- Karakter-jogkivonatok (a szöveg különálló karakterekre van felosztva)
- Subword tokenization (a szöveg részszavakra vagy karakterkészletekre van felosztva)
Az OpenAI által kifejlesztett GPT-modellek például a Byte-Pair Encoding (BPE) néven ismert alszó-jogkivonat-típust használják. Az OpenAI egy eszközt biztosít a szöveg jogkivonatossá alakításához.
Az egyes tokenizálási módszereknek vannak előnyei és hátrányai:
Jogkivonat mérete | Előnyök | Hátrányok |
---|---|---|
Kisebb jogkivonatok (karakter- vagy alszavas jogkivonatok) | – Lehetővé teszi a modell számára a bemenetek szélesebb körének kezelését, például ismeretlen szavakat, elírásokat vagy összetett szintaxist. – Csökkentheti a szókincs méretét, ami kevesebb memóriaerőforrást igényel. |
– Egy adott szöveg több tokenre van bontva, ami további számítási erőforrásokat igényel a feldolgozás során. - Rögzített tokenkorlát mellett a modell bemenetének és kimenetének maximális mérete kisebb. |
Nagyobb jogkivonatok (szó jogkivonatosítása) | – Egy adott szöveg kevesebb jogkivonatra van bontva, és a feldolgozás során kevesebb számítási erőforrást igényel. - Ugyanezen jogkivonat-korlát miatt a modell bemenetének és kimenetének maximális mérete nagyobb. |
– Növelheti a szókincs méretét, ami több memóriaerőforrást igényel. – Korlátozhatja, hogy a modellek képesek legyenek kezelni az ismeretlen szavakat, elírásokat vagy összetett szintaxist. |
Hogyan használják az LLM-ek a jogkivonatokat?
Miután az LLM befejezte a tokenizálást, minden egyes egyedi jogkivonathoz hozzárendel egy azonosítót.
Vegyük példamondatunkat:
I heard a dog bark loudly at a cat
Miután a modell egy szó jogkivonat-szerzési módszert használ, a következő módon rendelhet hozzá jogkivonat-azonosítókat:
-
I
(1) -
heard
(2) -
a
(3) -
dog
(4) -
bark
(5) -
loudly
(6) -
at
(7) -
a
(az "a" token már rendelkezik azonosítóval 3) -
cat
(8)
Azonosítók hozzárendelésével a szöveg tokenazonosítók sorozataként jeleníthető meg. A példamondat [1, 2, 3, 4, 5, 6, 7, 3, 8]. A "I heard a cat
" mondat [1, 2, 3, 8] néven jelenik meg.
A betanítás folytatásával a modell hozzáadja a betanítási szövegben lévő új jogkivonatokat a szókincséhez, és azonosítót rendel hozzá. Példa:
-
meow
(9) -
run
(10)
A jogkivonatok közötti szemantikai kapcsolatok elemezhetők ezekkel a tokenazonosító-sorozatokkal. Ezek a kapcsolatok többértékű numerikus vektorok, más néven beágyazások. A beágyazás minden jogkivonathoz az alapján van hozzárendelve, hogy milyen gyakran használják a többi jogkivonattal együtt vagy hasonló kontextusban.
A betanítás után a modell kiszámíthatja a több jogkivonatot tartalmazó szöveg beágyazását. A modell tokenizálja a szöveget, majd kiszámít egy általános beágyazási értéket az egyes tokenek tanult beágyazásai alapján. Ez a technika használható szemantikai dokumentumok kereséséhez vagy vektortárolók AI-hoz való hozzáadásához.
A kimenet létrehozása során a modell előrejelzést ad a sorozat következő tokenjének vektorértékére. A modell ezután kiválasztja a következő tokent a szókincséből ezen vektorérték alapján. A gyakorlatban a modell több vektort számít ki az előző tokenek beágyazási elemeinek különböző elemeivel. A modell ezután kiértékeli az összes lehetséges tokent ezekből a vektorokból, és kiválasztja a legvalószínűbbet a sorozat folytatásához.
A kimeneti generálás iteratív művelet. A modell hozzáfűzi az előrejelzett jogkivonatot az eddigi sorozathoz, és ezt használja a következő iteráció bemeneteként, és a végső kimenetet egyszerre egy jogkivonattal készíti el.
Jogkivonat korlátai
Az LLM-eknek korlátozásuk van a bemenetként vagy kimenetként létrehozható jogkivonatok maximális számára vonatkozóan. Ez a korlátozás gyakran azt eredményezi, hogy a bemeneti és kimeneti jogkivonatok egy maximális környezeti ablakban vannak kombinálva. A modell jogkivonatkorlátja és tokenizálási módszere együttesen határozza meg a bemenetként vagy kimenetként létrehozható szövegek maximális hosszát.
Vegyük például azt a modellt, amelynek a környezetének maximális ablaka 100 jogkivonat. A modell bemeneti szövegként dolgozza fel a példamondatokat:
I heard a dog bark loudly at a cat
Egy szóalapú tokenizálási módszer használatával a bemenet kilenc jogkivonat. Így 91 szó jogkivonat érhető el a kimenethez.
Karakteralapú tokenizálási módszer használatával a bemenet 34 jogkivonat (szóközökkel együtt). Ez csak 66 karakteres jogkivonatot hagy elérhetővé a kimenethez.
Jogkivonatalapú díjszabás és sebességkorlátozás
A Generatív AI-szolgáltatások gyakran tokenalapú díjszabást használnak. Az egyes kérések költsége a bemeneti és kimeneti jogkivonatok számától függ. A díjszabás eltérő lehet a bemenet és a kimenet között. Lásd például az Azure OpenAI szolgáltatás díjszabását.
A Generatív AI-szolgáltatások a percenkénti jogkivonatok maximális száma (TPM) tekintetében is korlátozottak lehetnek. Ezek a sebességkorlátok a szolgáltatási régiótól és az LLM-től függően változhatnak. Az egyes régiókról további információt az Azure OpenAI szolgáltatás kvótái és korlátai című témakörben talál.