Megosztás a következőn keresztül:


Azure OpenAI dinamikus kvóta (előzetes verzió)

A dinamikus kvóta egy Olyan Azure OpenAI-funkció, amely lehetővé teszi, hogy a standard (használatalapú fizetéses) üzemelő példányok kihasználhassák a további kvóták előnyeit, ha extra kapacitás áll rendelkezésre. Ha a dinamikus kvóta ki van kapcsolva, az üzembe helyezés képes lesz feldolgozni a Tokens Per Minute (TPM) beállítás által meghatározott maximális átviteli sebességet. Ha túllépi az előre beállított TPM-et, a kérések HTTP 429-válaszokat adnak vissza. Ha a dinamikus kvóta engedélyezve van, az üzembe helyezés képes a magasabb átviteli sebesség elérésére, mielőtt 429 választ ad vissza, így korábban több hívást is végrehajthat. A további kérések számlázása továbbra is a szokásos díjszabás szerint van kiszámlázva.

A dinamikus kvóta csak ideiglenesen növelheti a rendelkezésre álló kvótát: soha nem csökken a konfigurált érték alatt.

Mikor érdemes dinamikus kvótát használni?

A dinamikus kvóta a legtöbb forgatókönyvben hasznos, különösen akkor, ha az alkalmazás opportunista módon tud extra kapacitást használni, vagy maga az alkalmazás hajtja az Azure OpenAI API meghívásának sebességét.

Általában az a helyzet, hogy érdemes elkerülni a dinamikus kvótát, ha az alkalmazás kedvezőtlen élményt nyújt, ha a kvóta ingadozó vagy megnövelt.

A dinamikus kvóta esetében fontolja meg a következő forgatókönyveket:

  • Tömeges feldolgozás,
  • Összegzések vagy beágyazások létrehozása a bővített lekéréses generációhoz (RAG),
  • A metrikák és értékelések előállításához szükséges naplók offline elemzése,
  • Alacsony prioritású kutatás,
  • Kis mennyiségű kvótával rendelkező alkalmazások.

Mikor lép érvénybe a dinamikus kvóta?

Az Azure OpenAI háttérrendszere dönti el, hogy a rendszer hozzáadja-e, mikor és mennyi extra dinamikus kvótát ad hozzá vagy távolít el a különböző üzemelő példányokból. Nem előre van előre jelezve vagy bejelentve, és nem kiszámítható. A dinamikus kvóta előnyeinek kihasználásához az alkalmazás kódjának képesnek kell lennie további kérések kiállítására, mivel a HTTP 429-válaszok ritkán jelennek meg. Az Azure OpenAI http 429-es HTTP-vel válaszolva tudatja az alkalmazással, hogy elérte a kvótakorlátot, és nem engedi át a további API-hívásokat.

Hogyan változnak a dinamikus kvóta költségei?

  • Az alapkvótát meghaladó hívások ugyanolyan költségekkel járnak, mint a normál hívások.

  • Az üzemelő példányok dinamikus kvótájának bekapcsolása nem jár többletköltséggel, bár a megnövekedett átviteli sebesség végső soron a központi telepítés által kapott forgalom mennyiségétől függően növelheti a költségeket.

Feljegyzés

Dinamikus kvóta esetén nincs szükség "felső határ" kvótára vagy átviteli sebességre. Az Azure OpenAI annyi kérést fog feldolgozni, amennyi az alapkvótát meghaladhatja. Ha még akkor is szabályoznia kell a költési arányt, ha a kvóta kevésbé korlátozott, az alkalmazás kódjának ennek megfelelően vissza kell tartania a kérelmeket.

Dinamikus kvóta használata

A dinamikus kvóta használatához a következőt kell tennie:

  • Kapcsolja be a dinamikus kvótatulajdonságot az Azure OpenAI-üzemelő példányban.
  • Győződjön meg arról, hogy az alkalmazás kihasználhatja a dinamikus kvótát.

Dinamikus kvóta engedélyezése

Az üzembe helyezés dinamikus kvótájának aktiválásához lépjen az erőforrás-konfiguráció speciális tulajdonságaihoz, és kapcsolja be.

Azt is megteheti, hogy programozott módon engedélyezi az Azure CLI-vel az rest:

Cserélje le a {subscriptionId}, {resourceGroupName}, {accountName}és {deploymentName} az erőforrás megfelelő értékeit. Ebben az esetben accountName megegyezik az Azure OpenAI-erőforrás nevével.

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

Hogyan tudja, mennyi átviteli sebességű dinamikus kvóta van hozzáadva az alkalmazáshoz?

A működés monitorozásához nyomon követheti az alkalmazás átviteli sebességét az Azure Monitorban. A dinamikus kvóta előnézete alatt nincs konkrét metrika vagy napló, amely jelezze, hogy a kvóta dinamikusan nőtt vagy csökkent. A dinamikus kvóta kevésbé valószínű az üzembe helyezéshez, ha nagy kihasználtságú régiókban fut, és az adott régiókban a használat csúcsideje alatt.

Következő lépések

  • További információ a kvóta működéséről.
  • További információ az Azure OpenAI monitorozásáról.