Penembolokan perintah

Artikel
02/25/2025

Penembolokan perintah memungkinkan Anda mengurangi latensi permintaan keseluruhan dan biaya untuk permintaan yang lebih lama yang memiliki konten yang identik di awal prompt. "Prompt" dalam konteks ini mengacu pada input yang Anda kirim ke model sebagai bagian dari permintaan penyelesaian obrolan Anda. Daripada memproses ulang token input yang sama berulang kali, layanan ini dapat mempertahankan cache sementara komputasi token input yang diproses untuk meningkatkan performa keseluruhan. Penembolokan perintah tidak berdampak pada konten output yang dikembalikan dalam respons model di luar pengurangan latensi dan biaya. Untuk model yang didukung, token cache ditagih dengan diskon harga token input untuk jenis penyebaran Standar dan diskon hingga 100% pada token input untuk jenis penyebaran yang disediakan.

Cache biasanya dibersihkan dalam waktu 5-10 menit setelah tidak aktif dan selalu dihapus dalam satu jam setelah penggunaan terakhir cache. Cache prompt tidak dibagikan antara langganan Azure.

Model yang didukung

Saat ini hanya model berikut yang mendukung penembolokan prompt dengan Azure OpenAI:

o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
gpt-4o-realtime-preview (versi 2024-12-17)
gpt-4o-mini-realtime-preview (versi 2024-12-17)

Catatan

Penembolokan perintah sekarang juga tersedia sebagai bagian dari penyempurnaan model untuk gpt-4o dan gpt-4o-mini. Lihat bagian penyempurnaan halaman harga untuk detailnya.

Dukungan API

Dukungan resmi untuk penembolokan prompt pertama kali ditambahkan dalam versi 2024-10-01-previewAPI . Saat ini, hanya keluarga model o1 yang cached_tokens mendukung parameter respons API.

Memulai

Agar permintaan dapat memanfaatkan permintaan penembolokan permintaan harus berupa:

Panjang minimal 1.024 token.
1.024 token pertama dalam prompt harus identik.

Ketika kecocokan ditemukan antara komputasi token dalam perintah dan konten cache prompt saat ini, itu disebut sebagai hit cache. Temuan cache akan muncul seperti cached_tokens di bawah prompt_tokens_details dalam respons penyelesaian obrolan.

{
  "created": 1729227448,
  "model": "o1-preview-2024-09-12",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

Setelah 1.024 token pertama tembolok hit akan terjadi untuk setiap 128 token identik tambahan.

Perbedaan karakter tunggal dalam 1.024 token pertama akan mengakibatkan kesalahan cache yang ditandai dengan cached_tokens nilai 0. Penembolokan perintah diaktifkan secara default tanpa konfigurasi tambahan yang diperlukan untuk model yang didukung.

Apa itu cache?

Dukungan fitur model seri o1 bervariasi menurut model. Untuk detail selengkapnya, lihat panduan model penalaran khusus kami.

Penembolokan perintah didukung untuk:

Penembolokan didukung	Deskripsi	Model yang didukung
Pesan	Array pesan lengkap: konten sistem, pengembang, pengguna, dan asisten	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (versi 2024-12-17) `gpt-4o-mini-realtime-preview` (versi 2024-12-17) `o1` (versi 2024-12-17)
Gambar	Gambar yang disertakan dalam pesan pengguna, baik sebagai tautan atau sebagai data yang dikodekan base64. Parameter detail harus diatur sama di seluruh permintaan.	`gpt-4o` `gpt-4o-mini` `o1` (versi 2024-12-17)
Penggunaan alat	Baik array pesan maupun definisi alat.	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (versi 2024-12-17) `gpt-4o-mini-realtime-preview` (versi 2024-12-17) `o1` (versi 2024-12-17)
Output terstruktur	Skema output terstruktur ditambahkan sebagai awalan ke pesan sistem.	`gpt-4o` `gpt-4o-mini` `o1` (versi 2024-12-17)

Untuk meningkatkan kemungkinan temuan cache yang terjadi, Anda harus menyusun permintaan Anda sewaktu-waktu konten berulang terjadi di awal array pesan.

Bisakah saya menonaktifkan penembolokan perintah?

Penembolokan perintah diaktifkan secara default untuk semua model yang didukung. Tidak ada dukungan penolakan untuk penembolokan permintaan.

Bagikan melalui