Bagikan melalui


Penembolokan perintah

Penembolokan perintah memungkinkan Anda mengurangi latensi permintaan keseluruhan dan biaya untuk permintaan yang lebih lama yang memiliki konten yang identik di awal prompt. "Prompt" dalam konteks ini mengacu pada input yang Anda kirim ke model sebagai bagian dari permintaan penyelesaian obrolan Anda. Daripada memproses ulang token input yang sama berulang kali, layanan ini dapat mempertahankan cache sementara komputasi token input yang diproses untuk meningkatkan performa keseluruhan. Penembolokan perintah tidak berdampak pada konten output yang dikembalikan dalam respons model di luar pengurangan latensi dan biaya. Untuk model yang didukung, token cache ditagih dengan diskon harga token input untuk jenis penyebaran Standar dan diskon hingga 100% pada token input untuk jenis penyebaran yang disediakan.

Cache biasanya dibersihkan dalam waktu 5-10 menit setelah tidak aktif dan selalu dihapus dalam satu jam setelah penggunaan terakhir cache. Cache prompt tidak dibagikan antara langganan Azure.

Model yang didukung

Saat ini hanya model berikut yang mendukung penembolokan prompt dengan Azure OpenAI:

  • o1-2024-12-17
  • o1-preview-2024-09-12
  • o1-mini-2024-09-12
  • gpt-4o-2024-11-20
  • gpt-4o-2024-08-06
  • gpt-4o-mini-2024-07-18
  • gpt-4o-realtime-preview (versi 2024-12-17)
  • gpt-4o-mini-realtime-preview (versi 2024-12-17)

Catatan

Penembolokan perintah sekarang juga tersedia sebagai bagian dari penyempurnaan model untuk gpt-4o dan gpt-4o-mini. Lihat bagian penyempurnaan halaman harga untuk detailnya.

Dukungan API

Dukungan resmi untuk penembolokan prompt pertama kali ditambahkan dalam versi 2024-10-01-previewAPI . Saat ini, hanya keluarga model o1 yang cached_tokens mendukung parameter respons API.

Memulai

Agar permintaan dapat memanfaatkan permintaan penembolokan permintaan harus berupa:

  • Panjang minimal 1.024 token.
  • 1.024 token pertama dalam prompt harus identik.

Ketika kecocokan ditemukan antara komputasi token dalam perintah dan konten cache prompt saat ini, itu disebut sebagai hit cache. Temuan cache akan muncul seperti cached_tokens di bawah prompt_tokens_details dalam respons penyelesaian obrolan.

{
  "created": 1729227448,
  "model": "o1-preview-2024-09-12",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

Setelah 1.024 token pertama tembolok hit akan terjadi untuk setiap 128 token identik tambahan.

Perbedaan karakter tunggal dalam 1.024 token pertama akan mengakibatkan kesalahan cache yang ditandai dengan cached_tokens nilai 0. Penembolokan perintah diaktifkan secara default tanpa konfigurasi tambahan yang diperlukan untuk model yang didukung.

Apa itu cache?

Dukungan fitur model seri o1 bervariasi menurut model. Untuk detail selengkapnya, lihat panduan model penalaran khusus kami.

Penembolokan perintah didukung untuk:

Penembolokan didukung Deskripsi Model yang didukung
Pesan Array pesan lengkap: konten sistem, pengembang, pengguna, dan asisten gpt-4o
gpt-4o-mini
gpt-4o-realtime-preview (versi 2024-12-17)
gpt-4o-mini-realtime-preview (versi 2024-12-17)
o1 (versi 2024-12-17)
Gambar Gambar yang disertakan dalam pesan pengguna, baik sebagai tautan atau sebagai data yang dikodekan base64. Parameter detail harus diatur sama di seluruh permintaan. gpt-4o
gpt-4o-mini
o1 (versi 2024-12-17)
Penggunaan alat Baik array pesan maupun definisi alat. gpt-4o
gpt-4o-mini
gpt-4o-realtime-preview (versi 2024-12-17)
gpt-4o-mini-realtime-preview (versi 2024-12-17)
o1 (versi 2024-12-17)
Output terstruktur Skema output terstruktur ditambahkan sebagai awalan ke pesan sistem. gpt-4o
gpt-4o-mini
o1 (versi 2024-12-17)

Untuk meningkatkan kemungkinan temuan cache yang terjadi, Anda harus menyusun permintaan Anda sewaktu-waktu konten berulang terjadi di awal array pesan.

Bisakah saya menonaktifkan penembolokan perintah?

Penembolokan perintah diaktifkan secara default untuk semua model yang didukung. Tidak ada dukungan penolakan untuk penembolokan permintaan.