Gyorsítótárazás kérése
A parancssori gyorsítótárazás lehetővé teszi, hogy csökkentse a kérések késését és a kérés elején azonos tartalommal rendelkező hosszabb kérések költségeit. A "Prompt" ebben a kontextusban a modellnek a csevegés befejezésére vonatkozó kérés részeként küldött bemenetre utal. Ahelyett, hogy újra és újra feldolgozni ugyanazokat a bemeneti jogkivonatokat, a szolgáltatás képes megőrizni a feldolgozott bemeneti jogkivonat-számítások ideiglenes gyorsítótárát a teljes teljesítmény javítása érdekében. A gyors gyorsítótárazás nincs hatással a modell válaszában visszaadott kimeneti tartalomra a késés és a költség csökkentése mellett. A támogatott modellek esetében a gyorsítótárazott jogkivonatok a standard központi telepítési típusok bemeneti jogkivonatára, a kiépített üzembehelyezési típusok bemeneti jogkivonataira pedig akár 100%-os kedvezményben lesznek kiszámlázva.
A gyorsítótárak általában az inaktivitástól számított 5–10 percen belül törlődnek, és mindig a gyorsítótár utolsó használatától számított egy órán belül törlődnek. A parancssori gyorsítótárak nincsenek megosztva az Azure-előfizetések között.
Támogatott modellek
Jelenleg csak a következő modellek támogatják a gyors gyorsítótárazást az Azure OpenAI-val:
o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
-
gpt-4o-realtime-preview
(2024-12-17-es verzió) -
gpt-4o-mini-realtime-preview
(2024-12-17-es verzió)
Feljegyzés
A parancssori gyorsítótárazás mostantól a modell finomhangolásának gpt-4o
részeként gpt-4o-mini
is elérhető. A részletekért tekintse meg a díjszabási oldal finomhangolási szakaszát.
API-támogatás
A gyors gyorsítótárazás hivatalos támogatása először az API-verzióban 2024-10-01-preview
lett hozzáadva. Jelenleg csak az o1 modellcsalád támogatja az API válaszparamétert cached_tokens
.
Első lépések
Ahhoz, hogy egy kérés kihasználhassa a kérés gyors gyorsítótárazását, mindkettőnek kell lennie:
- Legalább 1024 token hosszúságú.
- A parancssor első 1024 jogkivonatának azonosnak kell lennie.
Amikor egyezést talál a jogkivonat-számítások között egy parancssorban és a parancssori gyorsítótár aktuális tartalma között, a rendszer gyorsítótár-találatnak nevezi. A gyorsítótár-találatok a csevegés befejezésére adott válaszban prompt_tokens_details
leírtak szerint cached_tokens
jelennek meg.
{
"created": 1729227448,
"model": "o1-preview-2024-09-12",
"object": "chat.completion",
"service_tier": null,
"system_fingerprint": "fp_50cdd5dc04",
"usage": {
"completion_tokens": 1518,
"prompt_tokens": 1566,
"total_tokens": 3084,
"completion_tokens_details": {
"audio_tokens": null,
"reasoning_tokens": 576
},
"prompt_tokens_details": {
"audio_tokens": null,
"cached_tokens": 1408
}
}
}
Az első 1024 token után a gyorsítótár-találatok minden 128 további azonos jogkivonat esetében megjelennek.
Az első 1024 token egyetlen karakterkülönbsége a gyorsítótár hiányát eredményezi, amelyet 0 érték jellemez cached_tokens
. A parancssori gyorsítótárazás alapértelmezés szerint engedélyezve van, és nincs szükség további konfigurációra a támogatott modellekhez.
Mi a gyorsítótárazott?
Az o1 sorozatú modellek funkciótámogatása modellenként változik. További részletekért tekintse meg a dedikált érvelési modellek útmutatójában.
A parancssori gyorsítótárazás a következő célokra támogatott:
Támogatott gyorsítótárazás | Leírás | Támogatott modellek |
---|---|---|
Üzenetek | A teljes üzenettömb: rendszer-, fejlesztő-, felhasználói és segédtartalmak | gpt-4o gpt-4o-mini gpt-4o-realtime-preview (2024-12-17-es verzió)gpt-4o-mini-realtime-preview (2024-12-17-es verzió)o1 (2024-12-17-es verzió) |
Képek | A felhasználói üzenetekben lévő képek hivatkozásként vagy base64 kódolású adatként is szerepelnek. A részletes paraméternek a kérések között azonosnak kell lennie. | gpt-4o gpt-4o-mini o1 (2024-12-17-es verzió) |
Eszközhasználat | Mind az üzenetek tömbje, mind az eszközdefiníciók. | gpt-4o gpt-4o-mini gpt-4o-realtime-preview (2024-12-17-es verzió)gpt-4o-mini-realtime-preview (2024-12-17-es verzió)o1 (2024-12-17-es verzió) |
Strukturált kimenetek | A strukturált kimeneti séma a rendszerüzenet előtagjaként van hozzáfűzve. | gpt-4o gpt-4o-mini o1 (2024-12-17-es verzió) |
A gyorsítótár-találatok előfordulásának valószínűségének javítása érdekében úgy kell strukturálnia a kéréseket, hogy az ismétlődő tartalom az üzenettömb elején történjen.
Letilthatom a parancssori gyorsítótárazást?
A parancssori gyorsítótárazás alapértelmezés szerint engedélyezve van az összes támogatott modell esetében. A parancssori gyorsítótárazáshoz nem támogatott a letiltás.