Gyorsítótárazás kérése

Cikk
02/25/2025

A parancssori gyorsítótárazás lehetővé teszi, hogy csökkentse a kérések késését és a kérés elején azonos tartalommal rendelkező hosszabb kérések költségeit. A "Prompt" ebben a kontextusban a modellnek a csevegés befejezésére vonatkozó kérés részeként küldött bemenetre utal. Ahelyett, hogy újra és újra feldolgozni ugyanazokat a bemeneti jogkivonatokat, a szolgáltatás képes megőrizni a feldolgozott bemeneti jogkivonat-számítások ideiglenes gyorsítótárát a teljes teljesítmény javítása érdekében. A gyors gyorsítótárazás nincs hatással a modell válaszában visszaadott kimeneti tartalomra a késés és a költség csökkentése mellett. A támogatott modellek esetében a gyorsítótárazott jogkivonatok a standard központi telepítési típusok bemeneti jogkivonatára, a kiépített üzembehelyezési típusok bemeneti jogkivonataira pedig akár 100%-os kedvezményben lesznek kiszámlázva.

A gyorsítótárak általában az inaktivitástól számított 5–10 percen belül törlődnek, és mindig a gyorsítótár utolsó használatától számított egy órán belül törlődnek. A parancssori gyorsítótárak nincsenek megosztva az Azure-előfizetések között.

Támogatott modellek

Jelenleg csak a következő modellek támogatják a gyors gyorsítótárazást az Azure OpenAI-val:

o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
gpt-4o-realtime-preview (2024-12-17-es verzió)
gpt-4o-mini-realtime-preview (2024-12-17-es verzió)

Feljegyzés

A parancssori gyorsítótárazás mostantól a modell finomhangolásának gpt-4o részeként gpt-4o-miniis elérhető. A részletekért tekintse meg a díjszabási oldal finomhangolási szakaszát.

API-támogatás

A gyors gyorsítótárazás hivatalos támogatása először az API-verzióban 2024-10-01-previewlett hozzáadva. Jelenleg csak az o1 modellcsalád támogatja az API válaszparamétert cached_tokens .

Első lépések

Ahhoz, hogy egy kérés kihasználhassa a kérés gyors gyorsítótárazását, mindkettőnek kell lennie:

Legalább 1024 token hosszúságú.
A parancssor első 1024 jogkivonatának azonosnak kell lennie.

Amikor egyezést talál a jogkivonat-számítások között egy parancssorban és a parancssori gyorsítótár aktuális tartalma között, a rendszer gyorsítótár-találatnak nevezi. A gyorsítótár-találatok a csevegés befejezésére adott válaszban prompt_tokens_details leírtak szerint cached_tokens jelennek meg.

{
  "created": 1729227448,
  "model": "o1-preview-2024-09-12",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

Az első 1024 token után a gyorsítótár-találatok minden 128 további azonos jogkivonat esetében megjelennek.

Az első 1024 token egyetlen karakterkülönbsége a gyorsítótár hiányát eredményezi, amelyet 0 érték jellemez cached_tokens . A parancssori gyorsítótárazás alapértelmezés szerint engedélyezve van, és nincs szükség további konfigurációra a támogatott modellekhez.

Mi a gyorsítótárazott?

Az o1 sorozatú modellek funkciótámogatása modellenként változik. További részletekért tekintse meg a dedikált érvelési modellek útmutatójában.

A parancssori gyorsítótárazás a következő célokra támogatott:

Támogatott gyorsítótárazás	Leírás	Támogatott modellek
Üzenetek	A teljes üzenettömb: rendszer-, fejlesztő-, felhasználói és segédtartalmak	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (2024-12-17-es verzió) `gpt-4o-mini-realtime-preview` (2024-12-17-es verzió) `o1` (2024-12-17-es verzió)
Képek	A felhasználói üzenetekben lévő képek hivatkozásként vagy base64 kódolású adatként is szerepelnek. A részletes paraméternek a kérések között azonosnak kell lennie.	`gpt-4o` `gpt-4o-mini` `o1` (2024-12-17-es verzió)
Eszközhasználat	Mind az üzenetek tömbje, mind az eszközdefiníciók.	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (2024-12-17-es verzió) `gpt-4o-mini-realtime-preview` (2024-12-17-es verzió) `o1` (2024-12-17-es verzió)
Strukturált kimenetek	A strukturált kimeneti séma a rendszerüzenet előtagjaként van hozzáfűzve.	`gpt-4o` `gpt-4o-mini` `o1` (2024-12-17-es verzió)

A gyorsítótár-találatok előfordulásának valószínűségének javítása érdekében úgy kell strukturálnia a kéréseket, hogy az ismétlődő tartalom az üzenettömb elején történjen.

Letilthatom a parancssori gyorsítótárazást?

A parancssori gyorsítótárazás alapértelmezés szerint engedélyezve van az összes támogatott modell esetében. A parancssori gyorsítótárazáshoz nem támogatott a letiltás.

Megosztás a következőn keresztül: