Belirteçleri anlama
Belirteçler, büyük dil modelleri (LLM' ler) tarafından metin ayrıştırıldığında oluşturulan sözcükler, karakter kümeleri veya sözcük ve noktalama bileşimleridir. Belirteç oluşturma, eğitimin ilk adımıdır. LLM, belirteçler arasındaki anlamsal ilişkileri analiz eder; örneğin, bunların ne sıklıkta birlikte kullanıldığı veya benzer bağlamlarda kullanılıp kullanılmadığı. Eğitimden sonra LLM bu desenleri ve ilişkileri kullanarak giriş dizisine dayalı bir çıkış belirteci dizisi oluşturur.
Metni belirteçlere dönüştürme
LlM'nin eğitilmiş olduğu benzersiz belirteç kümesi, kelime dağarcığı olarak bilinir.
Örneğin, aşağıdaki cümleyi göz önünde bulundurun:
I heard a dog bark loudly at a cat
Bu metin şu şekilde belirteç haline getirilebilir:
I
heard
a
dog
bark
loudly
at
a
cat
Belirteç oluşturma, yeterince büyük bir eğitim metni kümesine sahip olarak binlerce belirteç içeren bir sözlük derleyebilir.
Yaygın belirteç oluşturma yöntemleri
Belirli belirteç oluşturma yöntemi LLM'ye göre değişir. Yaygın belirteç oluşturma yöntemleri şunlardır:
- Sözcük belirteci (metin, sınırlayıcı temelinde tek tek sözcüklere bölünür)
- Karakter belirteci oluşturma (metin tek tek karakterlere bölünür)
- Alt sözcük belirteci (metin kısmi sözcüklere veya karakter kümelerine bölünür)
Örneğin, OpenAI tarafından geliştirilen GPT modelleri, Bayt Eşleştirme Kodlaması (BPE) olarak bilinen bir alt sözcük belirteci türü kullanır. OpenAI, metnin nasıl belirteç haline getirileceğini görselleştirmek için bir araç sağlar.
Her belirteç oluşturma yönteminin avantajları ve dezavantajları vardır:
Belirteç boyutu | Avantajlar | Dezavantajlar |
---|---|---|
Daha küçük belirteçler (karakter veya alt kelime belirteci oluşturma) | - Modelin bilinmeyen sözcükler, yazım hataları veya karmaşık söz dizimi gibi daha geniş bir giriş aralığını işlemesini sağlar. - Sözcük dağarcığı boyutunun azaltılmasına izin verebilir ve daha az bellek kaynağı gerektirebilir. |
- Belirli bir metin daha fazla belirteçe bölünerek işlenirken ek hesaplama kaynakları gerektirir. - Sabit bir belirteç sınırı verildiğinde, modelin giriş ve çıkışının maksimum boyutu daha küçüktür. |
Daha büyük belirteçler (sözcük belirteci oluşturma) | - Belirli bir metin daha az belirteçe bölünerek işlenirken daha az hesaplama kaynağı gerektirir. - Aynı belirteç sınırı göz önüne alındığında, modelin giriş ve çıkışının maksimum boyutu daha büyük olur. |
- Daha fazla bellek kaynağı gerektiren sözcük dağarcığı boyutunun artmasına neden olabilir. - Modellerin bilinmeyen sözcükleri, yazım hatalarını veya karmaşık söz dizimini işleyebilmesini sınırlayabilir. |
LLM'ler belirteçleri nasıl kullanır?
LLM belirteçleştirmeyi tamamladıktan sonra, her benzersiz belirteç için bir kimlik atar.
Örnek cümlemizi göz önünde bulundurun:
I heard a dog bark loudly at a cat
Model bir sözcük belirteci oluşturma yöntemi kullanıldıktan sonra, belirteç kimliklerini aşağıdaki gibi atayabilir:
-
I
(1) -
heard
(2) -
a
(3) -
dog
(4) -
bark
(5) -
loudly
(6) -
at
(7) -
a
("a" belirtecine zaten 3 kimlik atanmıştır) -
cat
(8)
Kimlikler atanarak, metin belirteç kimlikleri dizisi olarak gösterilebilir. Örnek tümce [1, 2, 3, 4, 5, 6, 7, 3, 8] olarak temsil edilir. "I heard a cat
" cümlesi [1, 2, 3, 8] olarak temsil edilir.
Eğitim devam ettikçe model, eğitim metnindeki tüm yeni belirteçleri kelime dağarcığına ekler ve buna bir kimlik atar. Örneğin:
-
meow
(9) -
run
(10)
Belirteçler arasındaki anlamsal ilişkiler bu belirteç kimliği dizileri kullanılarak analiz edilebilir. Ekleme olarak bilinen çok değerli sayısal vektörler, bu ilişkileri temsil etmek için kullanılır. Ekleme, diğer belirteçlerle birlikte veya benzer bağlamlarda ne kadar yaygın kullanıldığına bağlı olarak her belirteçe atanır.
Model eğitildikten sonra birden çok belirteç içeren metinler için ekleme işlemini hesaplayabilir. Model, metni belirteç haline getirir ve ardından tek tek belirteçlerin öğrenilen eklemelerine göre genel bir ekleme değeri hesaplar. Bu teknik, anlamsal belge aramaları veya yapay zekaya vektör depoları eklemek için kullanılabilir.
Çıkış oluşturma sırasında model, dizideki sonraki belirteç için bir vektör değeri tahmin eder. Model daha sonra bu vektör değerine göre kelime dağarcığından sonraki belirteci seçer. Pratikte model, önceki belirteçlerin eklemelerinin çeşitli öğelerini kullanarak birden çok vektör hesaplar. Model daha sonra bu vektörlerden tüm olası belirteçleri değerlendirir ve diziye devam etmek için en olası olanı seçer.
Çıkış oluşturma yinelemeli bir işlemdir. Model, tahmin edilen belirteci şu ana kadar diziye ekler ve bunu bir sonraki yineleme için giriş olarak kullanır ve son çıkışı bir kerede bir belirteç oluşturur.
Belirteç sınırları
LLM'lerin giriş olarak kullanılabilecek veya çıkış olarak oluşturulabilecek en fazla belirteç sayısıyla ilgili sınırlamaları vardır. Bu sınırlama genellikle giriş ve çıkış belirteçlerinin en yüksek bağlam penceresinde birleştirilmesine neden olur. Birlikte kullanıldığında, bir modelin belirteç sınırı ve belirteç oluşturma yöntemi, giriş olarak sağlanacak veya çıkış olarak oluşturulabilecek en uzun metin uzunluğunu belirler.
Örneğin, en fazla 100 belirteç bağlam penceresine sahip bir model düşünün. Model, örnek cümleleri giriş metni olarak işler:
I heard a dog bark loudly at a cat
Sözcük tabanlı belirteç oluşturma yöntemi kullanılarak giriş dokuz belirteçtir. Bu, çıktı için 91 sözcük belirteci bırakır.
Karakter tabanlı belirteç oluşturma yöntemi kullanıldığında giriş 34 belirteçtir (boşluklar dahil). Bu, çıkış için yalnızca 66 karakterlik belirteçler bırakır.
Belirteç tabanlı fiyatlandırma ve hız sınırlama
Üretken yapay zeka hizmetleri genellikle belirteç tabanlı fiyatlandırmayı kullanır. Her isteğin maliyeti, giriş ve çıkış belirteçlerinin sayısına bağlıdır. Fiyatlandırma, giriş ve çıkış arasında farklılık gösterebilir. Örneğin bkz . Azure OpenAI Hizmeti fiyatlandırması.
Oluşturucu yapay zeka hizmetleri de dakika başına en fazla belirteç sayısı (TPM) ile sınırlı olabilir. Bu fiyat sınırları, hizmet bölgesine ve LLM'ye bağlı olarak farklılık gösterebilir. Belirli bölgeler hakkında daha fazla bilgi için bkz . Azure OpenAI Hizmeti kotaları ve sınırları.