Mendapatkan respons cache permintaan API model bahasa besar

Artikel
02/04/2025

BERLAKU UNTUK: Semua tingkatAN API Management

llm-semantic-cache-lookup Gunakan kebijakan untuk melakukan pencarian cache respons terhadap permintaan API model bahasa besar (LLM) dari cache eksternal yang dikonfigurasi, berdasarkan kedekatan vektor permintaan ke permintaan sebelumnya dan ambang skor kesamaan yang ditentukan. Penembolokan respons mengurangi bandwidth dan persyaratan pemrosesan yang diberlakukan pada API LLM backend dan menurunkan latensi yang dirasakan oleh konsumen API.

Catatan

Kebijakan ini harus memiliki respons Cache yang sesuai terhadap kebijakan permintaan API model bahasa besar.
Untuk prasyarat dan langkah-langkah untuk mengaktifkan penembolokan semantik, lihat Mengaktifkan penembolokan semantik untuk API Azure OpenAI di Azure API Management.
Saat ini, kebijakan ini sedang dalam pratinjau.

Catatan

Tetapkan elemen kebijakan dan elemen turunan dalam urutan yang disediakan dalam pernyataan kebijakan. Pelajari lebih lanjut cara mengatur atau mengedit kebijakan API Management.

Model yang didukung

Gunakan kebijakan dengan API LLM yang ditambahkan ke Azure API Management yang tersedia melalui Azure AI Model Inference API.

Pernyataan kebijakan

<llm-semantic-cache-lookup
    score-threshold="similarity score threshold"
    embeddings-backend-id ="backend entity ID for embeddings API"
    embeddings-backend-auth ="system-assigned"             
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>

Atribut

Atribut	Deskripsi	Wajib diisi	Default
ambang skor	Ambang batas skor kesamaan yang digunakan untuk menentukan apakah akan mengembalikan respons cache ke perintah. Nilai adalah desimal antara 0,0 dan 1,0. Pelajari selengkapnya.	Ya	T/A
embeddings-backend-id	ID backend untuk panggilan API penyematan OpenAI.	Ya	T/A
embeddings-backend-auth	Autentikasi yang digunakan untuk backend API penyematan Azure OpenAI.	Ya. Harus diatur ke `system-assigned`.	T/A
ignore-system-messages	Boolean. Jika diatur ke `true`, menghapus pesan sistem dari perintah penyelesaian obrolan GPT sebelum menilai kesamaan cache.	No	salah
jumlah pesan maks	Jika ditentukan, jumlah pesan dialog yang tersisa setelah penembolokan dilewati.	No	T/A

Elemen

Nama	Deskripsi	Wajib diisi
bervariasi-oleh	Ekspresi kustom ditentukan pada runtime yang nilainya mempartisi penembolokan. Jika beberapa `vary-by` elemen ditambahkan, nilai digabungkan untuk membuat kombinasi unik.	No

Penggunaan

Bagian kebijakan: masuk
Cakupan kebijakan: global, produk, API, operasi
Gateway: klasik, v2, konsumsi

Catatan penggunaan

Kebijakan ini hanya dapat digunakan sekali di bagian kebijakan.

Contoh

Contoh dengan kebijakan llm-semantic-cache-store yang sesuai

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Untuk informasi selengkapnya tentang bekerja dengan kebijakan, lihat:

Tutorial: Mengubah dan melindungi API Anda
Referensi Kebijakan untuk daftar lengkap pernyataan kebijakan dan pengaturannya
Ekspresi kebijakan
Mengatur atau mengedit kebijakan
Menggunakan kembali konfigurasi kebijakan
Repositori cuplikan kebijakan
Toolkit kebijakan Azure API Management
Kebijakan penulis menggunakan Microsoft Copilot di Azure

Bagikan melalui

Mendapatkan respons cache permintaan API model bahasa besar

Model yang didukung

Pernyataan kebijakan

Atribut

Elemen

Penggunaan

Catatan penggunaan

Contoh

Contoh dengan kebijakan llm-semantic-cache-store yang sesuai

Saran dan Komentar

Sumber Daya Tambahan:

Bagikan melalui

Mendapatkan respons cache permintaan API model bahasa besar

Model yang didukung

Pernyataan kebijakan

Atribut

Elemen

Penggunaan

Catatan penggunaan

Contoh

Contoh dengan kebijakan llm-semantic-cache-store yang sesuai

Kebijakan terkait

Konten terkait

Saran dan Komentar

Sumber Daya Tambahan: