Azure OpenAI Hizmeti kotası yönetme
Kota, aboneliğinizdeki dağıtımlar genelinde hız sınırlarının ayrılmasını etkin bir şekilde yönetme esnekliği sağlar. Bu makalede Azure OpenAI kotanızı yönetme işlemi adım adım açıklanmaktadır.
Önkoşullar
Önemli
Kullanılabilir kotayı görüntülemeyi gerektiren herhangi bir görev için Bilişsel Hizmetler Kullanımları Okuyucusu rolünü kullanmanızı öneririz. Bu rol, Azure aboneliği genelinde kota kullanımını görüntülemek için gereken en düşük erişimi sağlar. Bu rol ve Azure OpenAI'ye erişmeniz gereken diğer roller hakkında daha fazla bilgi edinmek için Azure rol tabanlı erişim denetimi kılavuzumuza başvurun.
Bu rol, Azure portalında Abonelikler>Erişim denetimi (IAM)>Bilişsel Hizmetler Kullanımları Okuyucusu için rol ataması> araması ekleme bölümünde bulunabilir. Bu rol abonelik düzeyinde uygulanmalıdır, kaynak düzeyinde mevcut değildir.
Bu rolü kullanmak istemiyorsanız abonelik Okuyucusu rolü eşdeğer erişim sağlar, ancak kota ve model dağıtımını görüntülemek için gerekenlerin kapsamının ötesinde okuma erişimi de verir.
Kotaya giriş
Azure OpenAI'nin kota özelliği, kotanız adı verilen genel sınıra kadar dağıtımlarınıza hız sınırları atamanızı sağlar. Kota, aboneliğinize bölge başına, model başına dakika başına belirteç (TPM) birimlerinde atanır. Azure OpenAI'ye bir abonelik eklediğinizde, kullanılabilir modellerin çoğu için varsayılan kotayı alırsınız. Ardından, oluşturulduktan sonra her dağıtıma TPM atayacaksınız ve bu model için kullanılabilir kota bu miktarda azaltılacaktır. Kota sınırınıza ulaşana kadar dağıtım oluşturmaya ve TPM atamaya devam edebilirsiniz. Bu durumda, yalnızca aynı modelin diğer dağıtımlarına atanan TPM'yi azaltarak (dolayısıyla TPM'yi kullanım için serbest kaldırarak) veya istenen bölgede model kotası artışı isteyerek ve onaylayarak bu modelin yeni dağıtımlarını oluşturabilirsiniz.
Not
Doğu ABD'de GPT-35-Turbo için 240.000 TPM kotasıyla, müşteri 240 K TPM'nin tek bir dağıtımını, her biri 120 K TPM'nin 2 dağıtımını veya TPM'sinin bu bölgede toplam 240 K'den daha az toplaması sürece bir veya birden çok Azure OpenAI kaynağında herhangi bir sayıda dağıtım oluşturabilir.
Bir dağıtım oluşturulduğunda, atanan TPM, çıkarım isteklerinde zorunlu kılınan dakika başına belirteç hız sınırına doğrudan eşlenir. Aşağıdaki oran kullanılarak değeri TPM atamasına orantılı olarak ayarlanmış olan Dakika Başına İstek (RPM) hız sınırı da uygulanır:
1000 TPM başına 6 RPM.
TPM'yi bir abonelik ve bölge içinde genel olarak dağıtma esnekliği, Azure OpenAI Hizmeti'nin diğer kısıtlamaları gevşetmesine olanak sağlamıştır:
- Bölge başına en fazla kaynak sayısı 30'a çıkarılır.
- Bir kaynakta aynı modelin birden fazla dağıtımını oluşturma sınırı kaldırıldı.
Kota atama
Model dağıtımı oluşturduğunuzda, bu dağıtıma Dakika Başına Belirteçler (TPM) atama seçeneğiniz vardır. TPM 1.000'lik artışlarla değiştirilebilir ve yukarıda açıklandığı gibi dağıtımınızda zorunlu kılınan TPM ve RPM hız sınırlarıyla eşlenir.
Azure AI Foundry portalından yeni bir dağıtım oluşturmak için Dağıtımlar>Modeli dağıt temel modeli>>dağıt'ı seçin Modeli>Onayla'yı seçin.
Dağıtım sonrası, Azure AI Foundry portalındaki Dağıtımlar sayfasından modelinizi seçip düzenleyerek TPM ayırmanızı ayarlayabilirsiniz. Bu ayarı Yönetim>Modeli kota sayfasından da değiştirebilirsiniz.
Önemli
Kotalar ve sınırlar değiştirilebilir, en güncel bilgiler için kotalar ve sınırlar makalemize bakın.
Daha fazla kota isteme
Kota artışı istekleri, kota artışı istek formu aracılığıyla gönderilebilir. Talebin yüksek olması nedeniyle kota artışı istekleri kabul edilir ve alındıkları sırayla doldurulur. Öncelik, mevcut kota ayırmayı kullanan trafik oluşturan müşterilere verilir ve bu koşul karşılanmazsa isteğiniz reddedilebilir.
Modele özgü ayarlar
Model sınıfları olarak da adlandırılan farklı model dağıtımları, artık denetleyebilmeniz için benzersiz maksimum TPM değerlerine sahiptir. Bu, belirli bir bölgedeki bu tür bir model dağıtımına ayrılabilecek en fazla TPM miktarını temsil eder.
Diğer tüm model sınıflarının ortak en yüksek TPM değeri vardır.
Not
Kota Belirteçleri-Dakika Başına (TPM) ayırma, bir modelin en yüksek giriş belirteci sınırıyla ilişkili değildir. Model giriş belirteci sınırları modeller tablosunda tanımlanır ve TPM'de yapılan değişikliklerden etkilenmez.
Kotayı görüntüleme ve isteme
Belirli bir bölgedeki dağıtımlar arasında kota ayırmalarınızın tüm görünümü için Azure AI Foundry portalında Yönetim>Kotası'yı seçin:
- Dağıtım: Model dağıtımları model sınıfına bölünür.
- Kota türü: Her model türü için bölge başına bir kota değeri vardır. Kota, bu modelin tüm sürümlerini kapsar.
- Kota ayırma: Kota adı için, dağıtımlar tarafından ne kadar kota kullanıldığını ve bu abonelik ve bölge için onaylanan toplam kotayı gösterir. Kullanılan bu kota miktarı çubuk grafikte de gösterilir.
- İstek Kotası: Simge, kotayı artırma isteklerinin gönderilebildiği bu forma gider.
Mevcut dağıtımları geçirme
Yeni kota sistemine ve TPM tabanlı ayırmaya geçişin bir parçası olarak, mevcut tüm Azure OpenAI modeli dağıtımları kota kullanmak üzere otomatik olarak geçirilmiştir. Önceki özel hız sınırı artışları nedeniyle mevcut TPM/RPM ayırmasının varsayılan değerleri aştığı durumlarda, etkilenen dağıtımlara eşdeğer TPM atanmıştır.
Hız sınırlarını anlama
Bir dağıtıma TPM atamak, yukarıda açıklandığı gibi dağıtım için Dakika Başına Belirteçler (TPM) ve Dakika Başına İstek (RPM) hız sınırlarını ayarlar. TPM hız sınırları, istek alındığında bir istek tarafından işlendiği tahmin edilen en fazla belirteç sayısına bağlıdır. Tüm işlemler tamamlandıktan sonra hesaplanan faturalama için kullanılan belirteç sayısıyla aynı değildir.
Her istek alındığında Azure OpenAI, aşağıdakileri içeren tahmini maksimum işlenmiş belirteç sayısını hesaplar:
- Metin ve sayı istemi
- max_tokens parametresi ayarı
- best_of parametresi ayarı
İstekler dağıtım uç noktasına geldikçe, her dakika sıfırlanan tüm isteklerin çalışan belirteç sayısına tahmini max-processed-token sayısı eklenir. Bu dakika boyunca herhangi bir zamanda TPM hız sınırı değerine ulaşılırsa, sayaç sıfırlanıncaya kadar diğer istekler 429 yanıt kodu alır.
Önemli
Hız sınırı hesaplamasında kullanılan belirteç sayısı, API isteğinin karakter sayısını temel alan bir tahmindir. Hız sınırı belirteci tahmini, faturalama/isteğin modelin giriş belirteci sınırının altında olduğunu belirlemek için kullanılan belirteç hesaplaması ile aynı değildir. Hız sınırı belirteci hesaplamasının yaklaşık yapısı nedeniyle, her istek için tam belirteç sayısı ölçümüne kıyasla beklenenden önce bir hız sınırının tetiklenebileceği beklenen bir davranıştır.
RPM hız sınırları, zaman içinde alınan istek sayısına bağlıdır. Hız sınırı, isteklerin bir dakikalık bir süre boyunca eşit bir şekilde dağıtılmalarını bekler. Bu ortalama akış korunmuyorsa, bir dakika boyunca ölçüldüğünde sınır karşılanmasa bile istekler 429 yanıtı alabilir. Azure OpenAI Hizmeti, bu davranışı uygulamak için genellikle 1 veya 10 saniye olmak üzere küçük bir süre boyunca gelen isteklerin hızını değerlendirir. Bu süre içinde alınan istek sayısı belirlenen RPM sınırında bekleneni aşarsa, yeni istekler bir sonraki değerlendirme dönemine kadar 429 yanıt kodu alır. Örneğin, Azure OpenAI istek hızını 1 saniyelik aralıklarla izliyorsa, her 1 saniyelik süre boyunca 10'dan fazla istek alınırsa (dakikada 600 istek = saniyede 10 istek) 600 RPM dağıtımı için hız sınırlaması gerçekleşir.
Hız sınırı en iyi yöntemleri
Hız sınırlarıyla ilgili sorunları en aza indirmek için aşağıdaki teknikleri kullanmak iyi bir fikirdir:
- max_tokens ve best_of senaryonuzun gereksinimlerine uygun en düşük değerlere ayarlayın. Örneğin, yanıtlarınızın küçük olmasını bekliyorsanız büyük bir max-tokens değeri ayarlamayın.
- Yüksek trafiğe sahip dağıtımlarda TPM'yi artırmak ve sınırlı ihtiyaçları olan dağıtımlarda TPM'yi azaltmak için kota yönetimini kullanın.
- Uygulamanıza yeniden deneme mantığı ekleyin.
- İş yükünde ani değişikliklerden kaçının. İş yükünü kademeli olarak artırın.
- Farklı yük artışı desenlerini test edin.
Dağıtımı otomatikleştirme
Bu bölüm, TPM hız sınırlarını ayarlamak için kota kullanan dağıtımları program aracılığıyla oluşturmaya başlamanıza yardımcı olacak kısa örnek şablonlar içerir. Kotanın kullanıma sunulmasıyla birlikte, kaynak yönetimiyle ilgili etkinlikler için API sürümünü 2023-05-01
kullanmanız gerekir. Bu API sürümü yalnızca kaynaklarınızı yönetmeye yöneliktir ve tamamlamalar, sohbet tamamlamaları, ekleme, görüntü oluşturma gibi çağrıları çıkarım için kullanılan API sürümünü etkilemez.
Dağıtım
PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-05-01
Yol parametreleri
Parametre | Türü | Gerekli mi? | Açıklama |
---|---|---|---|
accountName |
Dize | Zorunlu | Azure OpenAI Kaynağınızın adı. |
deploymentName |
Dize | Zorunlu | Mevcut bir modeli dağıtırken seçtiğiniz dağıtım adı veya yeni model dağıtımının olmasını istediğiniz ad. |
resourceGroupName |
Dize | Zorunlu | Bu model dağıtımı için ilişkili kaynak grubunun adı. |
subscriptionId |
Dize | Zorunlu | İlişkili aboneliğin abonelik kimliği. |
api-version |
Dize | Zorunlu | Bu işlem için kullanılacak API sürümü. Bu, YYYY-AA-GG biçimini izler. |
Desteklenen sürümler
-
2023-05-01
Swagger belirtimi
İstek gövdesi
Bu, kullanılabilir istek gövdesi parametrelerinin yalnızca bir alt kümesidir. Parametrelerin tam listesi için REST API başvuru belgelerine başvurabilirsiniz.
Parametre | Tür | Açıklama |
---|---|---|
sku | Sku | SKU'yu temsil eden kaynak modeli tanımı. |
capacity | integer | Bu, bu dağıtıma atadığınız kota miktarını temsil eder. 1 değeri Dakikada 1.000 Belirteç (TPM) değerine eşittir. 10 değeri Dakikada 10k Belirteç (TPM) değerine eşittir. |
Örnek istek
curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/gpt-35-turbo-test-deployment?api-version=2023-05-01 \
-H "Content-Type: application/json" \
-H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
-d '{"sku":{"name":"Standard","capacity":10},"properties": {"model": {"format": "OpenAI","name": "gpt-35-turbo","version": "0613"}}}'
Not
Yetkilendirme belirteci oluşturmanın birden çok yolu vardır. İlk test için en kolay yöntem, Cloud Shell'i Azure portalından başlatmaktır. Ardından az account get-access-token
komutunu çalıştırın. Bu belirteci API testi için geçici yetkilendirme belirteciniz olarak kullanabilirsiniz.
Daha fazla bilgi için kullanımlar ve dağıtım için REST API başvuru belgelerine bakın.
Kullanım
Belirli bir bölgede, belirli bir abonelikte kota kullanımınızı sorgulamak için
GET https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/locations/{location}/usages?api-version=2023-05-01
Yol parametreleri
Parametre | Türü | Gerekli mi? | Açıklama |
---|---|---|---|
subscriptionId |
Dize | Zorunlu | İlişkili aboneliğin abonelik kimliği. |
location |
Dize | Zorunlu | Örneğin, kullanımı görüntülemek için konum: eastus |
api-version |
Dize | Zorunlu | Bu işlem için kullanılacak API sürümü. Bu, YYYY-AA-GG biçimini izler. |
Desteklenen sürümler
-
2023-05-01
Swagger belirtimi
Örnek istek
curl -X GET https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/locations/eastus/usages?api-version=2023-05-01 \
-H "Content-Type: application/json" \
-H 'Authorization: Bearer YOUR_AUTH_TOKEN'
Kaynak silme
Azure portalından bir Azure OpenAI kaynağını silme girişiminde bulunulduğunda, herhangi bir dağıtım mevcutsa ilişkili dağıtımlar silinene kadar silme engellenir. İlk olarak dağıtımların silinmesi, kota ayırmalarının yeni dağıtımlarda kullanılabilmesi için düzgün bir şekilde boşaltılmasına olanak tanır.
Ancak REST API'yi veya başka bir program yöntemini kullanarak bir kaynağı silerseniz, bu işlem önce dağıtımları silme gereksinimini atlar. Bu durumda, kaynak temizlenene kadar 48 saat boyunca yeni bir dağıtıma atanmayan ilişkili kota ayırması kullanılamaz durumda kalır. Kotayı boşaltmak üzere silinmiş bir kaynağın hemen temizlenmesini tetikleme için silinen kaynağı temizleme yönergelerini izleyin.
Sonraki adımlar
- Azure OpenAI kota varsayılanlarını gözden geçirmek için kotalar ve sınırlar makalesine bakın