Az Azure AI-modell következtetési kvótái és korlátai az Azure AI-szolgáltatásokban

Cikk
01/30/2025

Ez a cikk rövid áttekintést és részletes leírást tartalmaz az Azure AI-modell Azure AI-szolgáltatásokban való következtetéséhez szükséges kvótákról és korlátokról. Az Azure OpenAI szolgáltatásra vonatkozó kvótákról és korlátozásokról az Azure OpenAI szolgáltatás kvótái és korlátai című témakörben olvashat.

Kvóták és korlátok referenciája

Az alábbi szakaszok gyors útmutatót nyújtanak az Azure AI-modell következtetési szolgáltatására vonatkozó alapértelmezett kvótákról és korlátokról az Azure AI-szolgáltatásokban:

Erőforráskorlátok

Korlát neve	Határérték
Azure AI-szolgáltatások erőforrásai régiónként Azure-előfizetésenként	30
Üzemelő példányok maximális száma erőforrásonként	32

Sebességkorlátok

Korlát neve	Határérték
Jogkivonatok percenként (Azure OpenAI-modellek)	Modellenként és termékváltozatonként eltérő. Tekintse meg az Azure OpenAI korlátait.
Jogkivonatok percenként (a többi modell)	200.000
Kérések percenként (Azure OpenAI-modellek)	Modellenként és termékváltozatonként eltérő. Tekintse meg az Azure OpenAI korlátait.
Kérések percenként (a többi modell)	1,000

Egyéb korlátok

Korlát neve	Határérték
Egyéni fejlécek maximális száma AZ API-kérelmekben¹	10

¹ A jelenlegi API-k legfeljebb 10 egyéni fejlécet engedélyeznek, amelyeket a rendszer a folyamaton keresztül ad vissza. Észrevettük, hogy egyes ügyfelek túllépik ezt a fejlécszámot, és HTTP 431-et eredményeznek. Erre a hibára nincs más megoldás, mint a fejlécmennyiség csökkentése. A jövőbeni API-verziókban már nem fogunk átmenni az egyéni fejléceken. Azt javasoljuk, hogy az ügyfelek ne függenek az egyéni fejlécek a jövőbeli rendszerarchitektúrákban.

Használati szintek

A globális standard üzemelő példányok az Azure globális infrastruktúráját használják, dinamikusan irányítva az ügyfélforgalmat az adatközpontba, a legjobb rendelkezésre állással az ügyfél következtetési kérelmeihez. Ez konzisztensebb késést tesz lehetővé az alacsony és közepes szintű forgalommal rendelkező ügyfelek számára. A magas szintű használattal rendelkező ügyfelek több variabilitást láthatnak a válaszkésésben.

A használati korlát határozza meg azt a használati szintet, amely felett az ügyfelek nagyobb varianciát láthatnak a válaszkésésben. Az ügyfél kihasználtsága modellenként van meghatározva, és az adott bérlő összes előfizetésében az összes üzembe helyezéshez felhasznált összes jogkivonat.

Általános ajánlott eljárások a sebességkorláton belül maradásához

A sebességkorlátokkal kapcsolatos problémák minimalizálása érdekében érdemes az alábbi technikákat használni:

Implementáljon újrapróbálkozási logikát az alkalmazásba.
Kerülje a hirtelen terhelésváltásokat. Fokozatosan növelje a munkaterhelést.
Teszteljen különböző terhelésnövelési mintákat.
Növelje az üzemelő példányhoz rendelt kvótát. Szükség esetén áthelyezheti a kvótát egy másik üzembe helyezésből.

A kérések növelik az alapértelmezett kvótákat és korlátokat

A kvótanövelési kérelmek kérésenként elküldhetők és kiértékelhetők. Küldje el a szolgáltatáskérést.

Következő lépések

További információ az Azure AI-modell következtetési szolgáltatásában elérhető modellekről

Megosztás a következőn keresztül: