Penyematan dalam .NET
Penyematan adalah cara LLM menangkap makna semantik. Mereka adalah representasi numerik dari data non-numerik yang dapat digunakan LLM untuk menentukan hubungan antar konsep. Anda dapat menggunakan penyematan untuk membantu model AI memahami arti input sehingga dapat melakukan perbandingan dan transformasi, seperti meringkas teks atau membuat gambar dari deskripsi teks. LLM dapat segera menggunakan penyematan, dan Anda dapat menyimpan penyematan dalam database vektor untuk menyediakan memori semantik untuk LLM sesuai kebutuhan.
Kasus penggunaan untuk penyematan
Bagian ini mencantumkan kasus penggunaan utama untuk penyematan.
Gunakan data Anda sendiri untuk meningkatkan relevansi penyelesaian
Gunakan database Anda sendiri untuk menghasilkan penyematan untuk data Anda dan integrasikan dengan LLM untuk membuatnya tersedia untuk penyelesaian. Penggunaan penyematan ini adalah komponen penting dari pembuatan yang ditambung pengambilan.
Menambah jumlah teks yang dapat Anda paskan dalam perintah
Gunakan penyematan untuk meningkatkan jumlah konteks yang dapat Anda paskan dalam perintah tanpa meningkatkan jumlah token yang diperlukan.
Misalnya, Anda ingin menyertakan 500 halaman teks dalam perintah. Jumlah token untuk sebanyak itu teks mentah akan melebihi batas token input, sehingga tidak mungkin untuk secara langsung disertakan dalam perintah. Anda dapat menggunakan penyematan untuk meringkas dan memecah sejumlah besar teks tersebut menjadi potongan-potongan yang cukup kecil agar pas dalam satu input, lalu menilai kesamaan setiap bagian dengan seluruh teks mentah. Kemudian Anda dapat memilih bagian yang paling tepat mempertahankan arti semantik dari teks mentah dan menggunakannya dalam perintah Anda tanpa mencapai batas token.
Melakukan klasifikasi teks, ringkasan, atau terjemahan
Gunakan penyematan untuk membantu model memahami arti dan konteks teks, lalu mengklasifikasikan, meringkas, atau menerjemahkan teks tersebut. Misalnya, Anda dapat menggunakan penyematan untuk membantu model mengklasifikasikan teks sebagai positif atau negatif, spam atau bukan spam, atau berita atau pendapat.
Membuat dan mentranskripsikan audio
Gunakan penyematan audio untuk memproses file audio atau input di aplikasi Anda.
Misalnya, layanan Ucapan mendukung berbagai penyematan audio, termasuk ucapan ke teks dan teks ke ucapan. Anda dapat memproses audio secara real time atau dalam batch.
Mengubah teks menjadi gambar atau gambar menjadi teks
Pemrosesan gambar semantik memerlukan penyematan gambar, yang tidak dapat dihasilkan oleh sebagian besar LLM. Gunakan model penyematan gambar seperti ViT untuk membuat penyematan vektor untuk gambar. Kemudian Anda dapat menggunakan penyematan tersebut dengan model pembuatan gambar untuk membuat atau memodifikasi gambar menggunakan teks atau sebaliknya. Misalnya, Anda dapat menggunakan DALLĀ· Model E untuk menghasilkan gambar seperti logo, wajah, hewan, dan lanskap.
Membuat atau mendokumen kode
Gunakan penyematan untuk membantu model membuat kode dari teks atau sebaliknya, dengan mengonversi kode atau ekspresi teks yang berbeda menjadi representasi umum. Misalnya, Anda dapat menggunakan penyematan untuk membantu model menghasilkan atau kode dokumen di C# atau Python.
Pilih model penyematan
Anda menghasilkan penyematan untuk data mentah Anda dengan menggunakan model penyematan AI, yang dapat mengodekan data non-numerik ke dalam vektor (array angka yang panjang). Model ini juga dapat mendekode penyematan ke dalam data non-numerik yang memiliki arti yang sama atau serupa dengan data mentah asli. Ada banyak model penyematan yang tersedia untuk Anda gunakan, dengan model OpenAI text-embedding-ada-002
menjadi salah satu model umum yang digunakan. Untuk contoh selengkapnya, lihat daftar model Penyematan yang tersedia di Azure OpenAI.
Menyimpan dan memproses penyematan dalam database vektor
Setelah membuat penyematan, Anda memerlukan cara untuk menyimpannya sehingga nantinya Anda dapat mengambilnya dengan panggilan ke LLM. Database vektor dirancang untuk menyimpan dan memproses vektor, sehingga mereka adalah rumah alami untuk penyematan. Database vektor yang berbeda menawarkan kemampuan pemrosesan yang berbeda, jadi Anda harus memilihnya berdasarkan data mentah dan tujuan Anda. Untuk informasi tentang opsi Anda, lihat solusi database vektor yang tersedia.
Menggunakan penyematan dalam solusi LLM Anda
Saat membangun aplikasi berbasis LLM, Anda dapat menggunakan Semantic Kernel untuk mengintegrasikan model penyematan dan penyimpanan vektor, sehingga Anda dapat dengan cepat menarik data teks, dan menghasilkan dan menyimpan penyematan. Ini memungkinkan Anda menggunakan solusi database vektor untuk menyimpan dan mengambil memori semantik.