Az Azure OpenAI szolgáltatás kvótái és korlátai

Cikk
01/30/2025

Ez a cikk rövid áttekintést és részletes leírást tartalmaz az Azure OpenAI azure AI-szolgáltatásokban való kvótáiról és korlátairól.

Kvóták és korlátok referenciája

Az alábbi szakaszok gyors útmutatót nyújtanak az Azure OpenAI-ra vonatkozó alapértelmezett kvótákról és korlátokról:

Korlát neve	Határérték
Azure OpenAI-erőforrások régiónként Azure-előfizetésenként	30
Alapértelmezett DALL-E 2 kvótakorlátok	2 egyidejű kérés
Alapértelmezett DALL-E 3 kvótakorlátok	2 kapacitásegység (percenként 6 kérelem)
Alapértelmezett suttogókvótakorlátok	3 kérés percenként
Kérésenkénti jogkivonatok maximális száma	Modellenként változó. További információ: Azure OpenAI-szolgáltatásmodellek
Standard üzemelő példányok maximális száma erőforrásonként	32
A modell maximális finomhangolt üzembe helyezése	5
Betanítási feladatok teljes száma erőforrásonként	100
Betanítási feladatok egyidejű futtatásának maximális száma erőforrásonként	0
Várólistára helyezett betanítási feladatok maximális száma	20
Fájlok maximális száma erőforrásonként (finomhangolás)	50
Az összes fájl teljes mérete erőforrásonként (finomhangolás)	1 GB
Betanítási feladat maximális időtartama (a feladat túllépése esetén sikertelen lesz)	720 óra
Betanítási feladat maximális mérete (jogkivonatok a betanítási fájlban) x (az alapidőszakok száma)	2 milliárd
Az összes fájl maximális mérete feltöltésenként (az Azure OpenAI az adatokon)	16 MB
Maximális szám vagy bemenet a tömbben a következővel: `/embeddings`	2048
Üzenetek maximális száma `/chat/completions`	2048
Függvények `/chat/completions` maximális száma	128
Eszközök maximális száma `/chat completions`	128
Kiosztott átviteli egységek maximális száma üzemelő példányonként	100 000
Fájlok maximális száma asszisztensenként/szálonként	10 000 az API vagy az Azure AI Foundry portál használatakor. Az Azure OpenAI Studióban a korlát 20 volt.
Az Asszisztensek maximális fájlmérete > finomhangolása	512 MB 200 MB az Azure AI Foundry portálon keresztül
Az Asszisztensek összes feltöltött fájljának maximális mérete	100 GB
Asszisztensek jogkivonat-korlátja	2 000 000 tokenkorlát
GPT-4o maximális képek kérésenként (az üzenetek tömbjében/beszélgetési előzményeiben lévő képek száma)	50
GPT-4 `vision-preview` & GPT-4 `turbo-2024-04-09` alapértelmezett maximális jogkivonatok	16 Növelje a paraméter értékét a `max_tokens` csonkolt válaszok elkerülése érdekében. A GPT-4o maximális jogkivonatok alapértelmezett értéke 4096.
Egyéni fejlécek maximális száma AZ API-kérelmekben¹	10
Üzenet karakterkorlátja	1048576
Hangfájlok üzenetmérete	20 MB

¹ A jelenlegi API-k legfeljebb 10 egyéni fejlécet engedélyeznek, amelyeket a rendszer a folyamaton keresztül ad vissza. Egyes ügyfelek túllépik ezt a fejlécszámot, és HTTP 431-et eredményeznek. Erre a hibára nincs más megoldás, mint a fejlécmennyiség csökkentése. A jövőbeni API-verziókban már nem fogunk átmenni az egyéni fejléceken. Azt javasoljuk, hogy az ügyfelek ne függenek az egyéni fejlécek a jövőbeli rendszerarchitektúrákban.

Regionális kvótakorlátok

Régió	o1-mini	o1	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o-mini	GPT-35-Turbo	GPT-35-Turbo-Instruct	o1-mini - GlobalStandard	o1 – GlobalStandard	gpt-4o - GlobalStandard	gpt-4o-mini - GlobalStandard	GPT-4-Turbo - GlobalStandard	GPT-4o – Global-Batch	GPT-4o-mini - Global-Batch	GPT-4 – Global-Batch	GPT-4-Turbo - Global-Batch	gpt-35-turbo - Global-Batch	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	GPT-4o - finetune	GPT-4o-mini - finetune	GPT-4 - finetune	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - finetune	GPT-35-Turbo-1106 - finetune	GPT-35-Turbo-0125 - finetune
ausztráliaeast	-	-	40 K	80 K	80 K	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	-	-	40 K	80 K	80 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus	1 M	600 K	-	-	80 K	-	1 M	2 M	240 K	240 K	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	240 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus2	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	250 K	-	-	-	-	-	-	250 K	250 K	250 K
francecentral	-	-	20 e	60 K	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-	-
germanywestcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	-	-	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
koreacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	250 K	500 K	100 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norwayeast	-	-	-	-	150 K	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
lengyelországcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
USA déli középső régiója	1 M	600 K	-	-	80 K	-	1 M	2 M	240 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	-	-	150 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
spaincentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
swedencentral	1 M	600 K	40 K	80 K	150 K	30 K	1 M	2 M	300 K	240 K	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350 K	-	350 K	250 K	500 K	100 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K
switzerlandnorth	-	-	40 K	80 K	-	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
svájcwest	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	-	-	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
westus	1 M	600 K	-	-	80 K	30 K	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350 K	-	-	-	-	-	-	-	-	-	-	-	-
westus3	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-

Kötegkorlátok

Korlát neve	Határérték
Fájlok maximális száma erőforrásonként	500
Bemeneti fájl maximális mérete	200 MB
Kérelmek maximális száma fájlonként	100 000

Kötegkvóta

A táblázat a kötegkvótakorlátot mutatja. A globális köteg kvótaértékei a lekérdezett jogkivonatok szempontjából jelennek meg. Amikor kötegelt feldolgozásra küld egy fájlt, a rendszer megszámolja a fájlban található jogkivonatok számát. Amíg a kötegelt feladat el nem éri a terminálállapotot, ezek a jogkivonatok beleszámítanak a teljes lekérdezett jogkivonat-korlátba.

Globális köteg

Modell	Nagyvállalati szerződés	Alapértelmezett	Havi hitelkártya-alapú előfizetések	MSDN-előfizetések	Azure for Students, ingyenes próbaverziók
`gpt-4o`	5 B	200 M	50 M	90 K	n/a
`gpt-4o-mini`	15 B	1 B	50 M	90 K	n/a
`gpt-4-turbo`	300 M	80 M	40 M	90 K	n/a
`gpt-4`	150 M	30 M	5 M	100 K	n/a
`gpt-35-turbo`	10 B	1 B	100 M	2 M	50 K
`o3-mini`	15 B	1 B	50 M	90 K	n/a

B = milliárd | M = millió | K = ezer

Adatzóna köteg

Modell	Nagyvállalati szerződés	Alapértelmezett	Havi hitelkártya-alapú előfizetések	MSDN-előfizetések	Azure for Students, ingyenes próbaverziók
`gpt-4o`	500 M	30 M	30 M	90 K	n/a
`gpt-4o-mini`	1,5 B	100 M	50 M	90 K	n/a

`o-series` sebességkorlátok

Fontos

Az O1 sorozatú modellek kvótáihoz tartozó RPM/TPM aránya eltér a régebbi csevegésvégzítési modellekétől:

Régebbi csevegési modellek: 1 egység kapacitás = 6 RPM és 1000 TPM.
o1 &o1-preview: 1 egység kapacitás = 1 RPM és 6000 TPM.
o3-mini: 1 egység kapacitás = 1 RPM/10 000 TPM.
o1-mini: 1 egység kapacitás = 1 RPM/10 000 TPM.

Ez különösen fontos a programozott modellek üzembe helyezése szempontjából, mivel ez az RPM/TPM arány változása véletlen kvótakiosztást eredményezhet, ha az egyik még mindig az 1:1000 arányt feltételezi, majd a régebbi csevegés-befejezési modelleket.

Ismert probléma van a kvóta/használat API-val , amely feltételezi, hogy a régi arány az új o1 sorozatú modellekre vonatkozik. Az API a megfelelő alapkapacitásszámot adja vissza, de a TPM pontos kiszámításához nem alkalmazza a megfelelő arányt.

`o-series` globális szabvány

Modell	Szint	Kvótakorlát a jogkivonatokban percenként (TPM)	Kérelem/perc
`o3-mini`	Nagyvállalati szerződés	50 M	5 K
`o1` & `o1-preview`	Nagyvállalati szerződés	30 M	5 K
`o1-mini`	Nagyvállalati szerződés	50 M	5 K
`o3-mini`	Alapértelmezett	5 M	500
`o1` & `o1-preview`	Alapértelmezett	3 M	500
`o1-mini`	Alapértelmezett	5 M	500

o1-preview &o1-mini standard

Modell	Szint	Kvótakorlát a jogkivonatokban percenként (TPM)	Kérelem/perc
`o1-preview`	Nagyvállalati szerződés	600 K	100
`o1-mini`	Nagyvállalati szerződés	1 M	100
`o1-preview`	Alapértelmezett	300 K	50
`o1-mini`	Alapértelmezett	500 K	50

gpt-4o > GPT-4 Turbo sebességkorlátok

gpt-4oés gpt-4o-minigpt-4 (turbo-2024-04-09) bizonyos ügyféltípusokra magasabb korlátokkal rendelkező sebességkorlátozási szintekkel rendelkezik.

gpt-4o > GPT-4 Turbo globális szabvány

Modell	Szint	Kvótakorlát a jogkivonatokban percenként (TPM)	Kérelem/perc
`gpt-4o`	Nagyvállalati szerződés	30 M	180 K
`gpt-4o-mini`	Nagyvállalati szerződés	50 M	300 K
`gpt-4` (turbo-2024-04-09)	Nagyvállalati szerződés	2 M	12 K
`gpt-4o`	Alapértelmezett	450 K	2.7 K
`gpt-4o-mini`	Alapértelmezett	2 M	12 K
`gpt-4` (turbo-2024-04-09)	Alapértelmezett	450 K	2.7 K

M = millió | K = ezer

gpt-4o adatzóna standard

Modell	Szint	Kvótakorlát a jogkivonatokban percenként (TPM)	Kérelem/perc
`gpt-4o`	Nagyvállalati szerződés	10 M	60 K
`gpt-4o-mini`	Nagyvállalati szerződés	20 M	120 K
`gpt-4o`	Alapértelmezett	300 K	1,8 K
`gpt-4o-mini`	Alapértelmezett	1 M	6 K

M = millió | K = ezer

gpt-4o standard

Modell	Szint	Kvótakorlát a jogkivonatokban percenként (TPM)	Kérelem/perc
`gpt-4o`	Nagyvállalati szerződés	1 M	6 K
`gpt-4o-mini`	Nagyvállalati szerződés	2 M	12 K
`gpt-4o`	Alapértelmezett	150 K	900
`gpt-4o-mini`	Alapértelmezett	450 K	2.7 K

M = millió | K = ezer

gpt-4o audio

Az egyes gpt-4o hangmodellek üzembe helyezésének sebességkorlátjai 100 000 TPM és 1K RPM. Az előzetes verzióban előfordulhat, hogy az Azure AI Foundry portál és az API-k pontatlanul mutatnak eltérő díjszabási korlátokat. Még ha más sebességkorlátot is próbál beállítani, a tényleges sebességkorlát 100 000 TPM és 1K RPM lesz.

Modell	Szint	Kvótakorlát a jogkivonatokban percenként (TPM)	Kérelem/perc
`gpt-4o-audio-preview`	Alapértelmezett	450 K	1 K
`gpt-4o-realtime-preview`	Alapértelmezett	800 K	1 K
`gpt-4o-mini-audio-preview`	Alapértelmezett	2 M	1 K
`gpt-4o-mini-realtime-preview`	Alapértelmezett	800 K	1 K

M = millió | K = ezer

Használati szintek

A globális standard üzemelő példányok az Azure globális infrastruktúráját használják, dinamikusan irányítva az ügyfélforgalmat az adatközpontba, a legjobb rendelkezésre állással az ügyfél következtetési kérelmeihez. Hasonlóképpen, az adatzóna standard üzemelő példányai lehetővé teszik, hogy az Azure globális infrastruktúráját használva dinamikusan átirányítsa a forgalmat a Microsoft által meghatározott adatzónán belüli adatközpontba, a lehető legjobb rendelkezésre állással az egyes kérésekhez. Ez konzisztensebb késést tesz lehetővé az alacsony és közepes szintű forgalommal rendelkező ügyfelek számára. A magas szintű használattal rendelkező ügyfelek nagyobb varianciát láthatnak a válaszkésésben.

A használati korlát határozza meg azt a használati szintet, amely felett az ügyfelek nagyobb varianciát láthatnak a válaszkésésben. Az ügyfél kihasználtsága modellenként van meghatározva, és az adott bérlő összes előfizetésében az összes üzembe helyezéshez felhasznált összes jogkivonat.

Feljegyzés

A használati szintek csak a standard, az adatzóna standard és a globális standard központi telepítési típusokra vonatkoznak. A használati szintek nem vonatkoznak a globális kötegre és a kiépített átviteli sebesség üzembe helyezésére.

GPT-4o globális szabvány, adatzóna standard, > standard

Modell	Használati szintek havonta
`gpt-4o`	12 milliárd token
`gpt-4o-mini`	85 milliárd token

GPT-4 standard

Modell	Használati szintek havonta
`gpt-4` + `gpt-4-32k` (minden verzió)	6 milliárd

Egyéb ajánlattípusok

Ha az Azure-előfizetés bizonyos ajánlattípusokhoz van társítva, a maximális kvótaértékek alacsonyabbak, mint a fenti táblákban megadott értékek.

Szint	Kvótakorlát a jogkivonatokban percenként (TPM)
Azure for Students, ingyenes próbaverziók	1 K (minden modell)
MSDN-előfizetések	GPT 3.5 Turbo sorozat: 30 K GPT-4 sorozat: 8 K
Havi hitelkártya-alapú előfizetések ¹	GPT 3.5 Turbo sorozat: 30 K GPT-4 sorozat: 8 K

¹ Ez jelenleg a 0003P ajánlattípusra vonatkozik

Az Azure Portalon megtekintheti az előfizetéshez társított ajánlattípust az előfizetéshez való navigálással és az előfizetések áttekintési paneljének ellenőrzésével. Az ajánlat típusa megfelel az előfizetés áttekintésében szereplő csomagmezőnek.

Általános ajánlott eljárások a sebességkorláton belül maradásához

A sebességkorlátokkal kapcsolatos problémák minimalizálása érdekében érdemes az alábbi technikákat használni:

Implementáljon újrapróbálkozási logikát az alkalmazásba.
Kerülje a hirtelen terhelésváltásokat. Fokozatosan növelje a munkaterhelést.
Teszteljen különböző terhelésnövelési mintákat.
Növelje az üzemelő példányhoz rendelt kvótát. Szükség esetén áthelyezheti a kvótát egy másik üzembe helyezésből.

Kvótanövelés kérése

A kvótanövelési kérelmeket a kvótanövelési kéreleműrlapon lehet elküldeni. A nagy igény miatt a kvótanövelési kérelmeket elfogadjuk, és a beérkezés sorrendjében lesznek kitöltve. Elsőbbséget élveznek azok az ügyfelek, akik a meglévő kvótalefoglalást használó forgalmat generálják, és a kérés megtagadható, ha ez a feltétel nem teljesül.

Egyéb díjkorlátok esetén küldjön egy szolgáltatáskérést.

Következő lépések

Megtudhatja, hogyan kezelheti az Azure OpenAI-üzemelő példányok kvótáját . További információ az Azure OpenAI-t használó mögöttes modellekről.

Megosztás a következőn keresztül:

Az Azure OpenAI szolgáltatás kvótái és korlátai

Kvóták és korlátok referenciája

Regionális kvótakorlátok

Kötegkorlátok

Kötegkvóta

Globális köteg

Adatzóna köteg

`o-series` sebességkorlátok

`o-series` globális szabvány

o1-preview &o1-mini standard

gpt-4o > GPT-4 Turbo sebességkorlátok

gpt-4o > GPT-4 Turbo globális szabvány

gpt-4o adatzóna standard

gpt-4o standard

gpt-4o audio

Használati szintek

GPT-4o globális szabvány, adatzóna standard, > standard

GPT-4 standard

Egyéb ajánlattípusok

Általános ajánlott eljárások a sebességkorláton belül maradásához

Kvótanövelés kérése

Következő lépések

Visszajelzés

További források

Megosztás a következőn keresztül:

Az Azure OpenAI szolgáltatás kvótái és korlátai

Kvóták és korlátok referenciája

Regionális kvótakorlátok

Kötegkorlátok

Kötegkvóta

Globális köteg

Adatzóna köteg

o-series sebességkorlátok

o-series globális szabvány

o1-preview &o1-mini standard

gpt-4o > GPT-4 Turbo sebességkorlátok

gpt-4o > GPT-4 Turbo globális szabvány

gpt-4o adatzóna standard

gpt-4o standard

gpt-4o audio

Használati szintek

GPT-4o globális szabvány, adatzóna standard, > standard

GPT-4 standard

Egyéb ajánlattípusok

Általános ajánlott eljárások a sebességkorláton belül maradásához

Kvótanövelés kérése

Következő lépések

Visszajelzés

További források

`o-series` sebességkorlátok

`o-series` globális szabvány