Az Azure AI-modell következtetési kvótái és korlátai az Azure AI-szolgáltatásokban
Ez a cikk rövid áttekintést és részletes leírást tartalmaz az Azure AI-modell Azure AI-szolgáltatásokban való következtetéséhez szükséges kvótákról és korlátokról. Az Azure OpenAI szolgáltatásra vonatkozó kvótákról és korlátozásokról az Azure OpenAI szolgáltatás kvótái és korlátai című témakörben olvashat.
Kvóták és korlátok referenciája
Az alábbi szakaszok gyors útmutatót nyújtanak az Azure AI-modell következtetési szolgáltatására vonatkozó alapértelmezett kvótákról és korlátokról az Azure AI-szolgáltatásokban:
Erőforráskorlátok
Korlát neve | Határérték |
---|---|
Azure AI-szolgáltatások erőforrásai régiónként Azure-előfizetésenként | 30 |
Üzemelő példányok maximális száma erőforrásonként | 32 |
Sebességkorlátok
Korlát neve | Határérték |
---|---|
Jogkivonatok percenként (Azure OpenAI-modellek) | Modellenként és termékváltozatonként eltérő. Tekintse meg az Azure OpenAI korlátait. |
Jogkivonatok percenként (a többi modell) | 200.000 |
Kérések percenként (Azure OpenAI-modellek) | Modellenként és termékváltozatonként eltérő. Tekintse meg az Azure OpenAI korlátait. |
Kérések percenként (a többi modell) | 1,000 |
Egyéb korlátok
Korlát neve | Határérték |
---|---|
Egyéni fejlécek maximális száma AZ API-kérelmekben1 | 10 |
1 A jelenlegi API-k legfeljebb 10 egyéni fejlécet engedélyeznek, amelyeket a rendszer a folyamaton keresztül ad vissza. Észrevettük, hogy egyes ügyfelek túllépik ezt a fejlécszámot, és HTTP 431-et eredményeznek. Erre a hibára nincs más megoldás, mint a fejlécmennyiség csökkentése. A jövőbeni API-verziókban már nem fogunk átmenni az egyéni fejléceken. Azt javasoljuk, hogy az ügyfelek ne függenek az egyéni fejlécek a jövőbeli rendszerarchitektúrákban.
Használati szintek
A globális standard üzemelő példányok az Azure globális infrastruktúráját használják, dinamikusan irányítva az ügyfélforgalmat az adatközpontba, a legjobb rendelkezésre állással az ügyfél következtetési kérelmeihez. Ez konzisztensebb késést tesz lehetővé az alacsony és közepes szintű forgalommal rendelkező ügyfelek számára. A magas szintű használattal rendelkező ügyfelek több variabilitást láthatnak a válaszkésésben.
A használati korlát határozza meg azt a használati szintet, amely felett az ügyfelek nagyobb varianciát láthatnak a válaszkésésben. Az ügyfél kihasználtsága modellenként van meghatározva, és az adott bérlő összes előfizetésében az összes üzembe helyezéshez felhasznált összes jogkivonat.
Általános ajánlott eljárások a sebességkorláton belül maradásához
A sebességkorlátokkal kapcsolatos problémák minimalizálása érdekében érdemes az alábbi technikákat használni:
- Implementáljon újrapróbálkozási logikát az alkalmazásba.
- Kerülje a hirtelen terhelésváltásokat. Fokozatosan növelje a munkaterhelést.
- Teszteljen különböző terhelésnövelési mintákat.
- Növelje az üzemelő példányhoz rendelt kvótát. Szükség esetén áthelyezheti a kvótát egy másik üzembe helyezésből.
A kérések növelik az alapértelmezett kvótákat és korlátokat
A kvótanövelési kérelmek kérésenként elküldhetők és kiértékelhetők. Küldje el a szolgáltatáskérést.
Következő lépések
- További információ az Azure AI-modell következtetési szolgáltatásában elérhető modellekről