Azure OpenAI Hizmeti kotası yönetme

Makale
01/10/2025

Kota, aboneliğinizdeki dağıtımlar genelinde hız sınırlarının ayrılmasını etkin bir şekilde yönetme esnekliği sağlar. Bu makalede Azure OpenAI kotanızı yönetme işlemi adım adım açıklanmaktadır.

Önkoşullar

Önemli

Kullanılabilir kotayı görüntülemeyi gerektiren herhangi bir görev için Bilişsel Hizmetler Kullanımları Okuyucusu rolünü kullanmanızı öneririz. Bu rol, Azure aboneliği genelinde kota kullanımını görüntülemek için gereken en düşük erişimi sağlar. Bu rol ve Azure OpenAI'ye erişmeniz gereken diğer roller hakkında daha fazla bilgi edinmek için Azure rol tabanlı erişim denetimi kılavuzumuza başvurun.

Bu rol, Azure portalında Abonelikler>Erişim denetimi (IAM)>Bilişsel Hizmetler Kullanımları Okuyucusu için rol ataması> araması ekleme bölümünde bulunabilir. Bu rol abonelik düzeyinde uygulanmalıdır, kaynak düzeyinde mevcut değildir.

Bu rolü kullanmak istemiyorsanız abonelik Okuyucusu rolü eşdeğer erişim sağlar, ancak kota ve model dağıtımını görüntülemek için gerekenlerin kapsamının ötesinde okuma erişimi de verir.

Kotaya giriş

Azure OpenAI'nin kota özelliği, kotanız adı verilen genel sınıra kadar dağıtımlarınıza hız sınırları atamanızı sağlar. Kota, aboneliğinize bölge başına, model başına dakika başına belirteç (TPM) birimlerinde atanır. Azure OpenAI'ye bir abonelik eklediğinizde, kullanılabilir modellerin çoğu için varsayılan kotayı alırsınız. Ardından, oluşturulduktan sonra her dağıtıma TPM atayacaksınız ve bu model için kullanılabilir kota bu miktarda azaltılacaktır. Kota sınırınıza ulaşana kadar dağıtım oluşturmaya ve TPM atamaya devam edebilirsiniz. Bu durumda, yalnızca aynı modelin diğer dağıtımlarına atanan TPM'yi azaltarak (dolayısıyla TPM'yi kullanım için serbest kaldırarak) veya istenen bölgede model kotası artışı isteyerek ve onaylayarak bu modelin yeni dağıtımlarını oluşturabilirsiniz.

Not

Doğu ABD'de GPT-35-Turbo için 240.000 TPM kotasıyla, müşteri 240 K TPM'nin tek bir dağıtımını, her biri 120 K TPM'nin 2 dağıtımını veya TPM'sinin bu bölgede toplam 240 K'den daha az toplaması sürece bir veya birden çok Azure OpenAI kaynağında herhangi bir sayıda dağıtım oluşturabilir.

Bir dağıtım oluşturulduğunda, atanan TPM, çıkarım isteklerinde zorunlu kılınan dakika başına belirteç hız sınırına doğrudan eşlenir. Aşağıdaki oran kullanılarak değeri TPM atamasına orantılı olarak ayarlanmış olan Dakika Başına İstek (RPM) hız sınırı da uygulanır:

1000 TPM başına 6 RPM.

TPM'yi bir abonelik ve bölge içinde genel olarak dağıtma esnekliği, Azure OpenAI Hizmeti'nin diğer kısıtlamaları gevşetmesine olanak sağlamıştır:

Bölge başına en fazla kaynak sayısı 30'a çıkarılır.
Bir kaynakta aynı modelin birden fazla dağıtımını oluşturma sınırı kaldırıldı.

Kota atama

Model dağıtımı oluşturduğunuzda, bu dağıtıma Dakika Başına Belirteçler (TPM) atama seçeneğiniz vardır. TPM 1.000'lik artışlarla değiştirilebilir ve yukarıda açıklandığı gibi dağıtımınızda zorunlu kılınan TPM ve RPM hız sınırlarıyla eşlenir.

Azure AI Foundry portalından yeni bir dağıtım oluşturmak için Dağıtımlar>Modeli dağıt temel modeli>>dağıt'ı seçin Modeli>Onayla'yı seçin.

Dağıtım sonrası, Azure AI Foundry portalındaki Dağıtımlar sayfasından modelinizi seçip düzenleyerek TPM ayırmanızı ayarlayabilirsiniz. Bu ayarı Yönetim>Modeli kota sayfasından da değiştirebilirsiniz.

Önemli

Kotalar ve sınırlar değiştirilebilir, en güncel bilgiler için kotalar ve sınırlar makalemize bakın.

Daha fazla kota isteme

Kota artışı istekleri, kota artışı istek formu aracılığıyla gönderilebilir. Talebin yüksek olması nedeniyle kota artışı istekleri kabul edilir ve alındıkları sırayla doldurulur. Öncelik, mevcut kota ayırmayı kullanan trafik oluşturan müşterilere verilir ve bu koşul karşılanmazsa isteğiniz reddedilebilir.

Modele özgü ayarlar

Model sınıfları olarak da adlandırılan farklı model dağıtımları, artık denetleyebilmeniz için benzersiz maksimum TPM değerlerine sahiptir. Bu, belirli bir bölgedeki bu tür bir model dağıtımına ayrılabilecek en fazla TPM miktarını temsil eder.

Diğer tüm model sınıflarının ortak en yüksek TPM değeri vardır.

Not

Kota Belirteçleri-Dakika Başına (TPM) ayırma, bir modelin en yüksek giriş belirteci sınırıyla ilişkili değildir. Model giriş belirteci sınırları modeller tablosunda tanımlanır ve TPM'de yapılan değişikliklerden etkilenmez.

Kotayı görüntüleme ve isteme

Belirli bir bölgedeki dağıtımlar arasında kota ayırmalarınızın tüm görünümü için Azure AI Foundry portalında Yönetim>Kotası'yı seçin:

Dağıtım: Model dağıtımları model sınıfına bölünür.
Kota türü: Her model türü için bölge başına bir kota değeri vardır. Kota, bu modelin tüm sürümlerini kapsar.
Kota ayırma: Kota adı için, dağıtımlar tarafından ne kadar kota kullanıldığını ve bu abonelik ve bölge için onaylanan toplam kotayı gösterir. Kullanılan bu kota miktarı çubuk grafikte de gösterilir.
İstek Kotası: Simge, kotayı artırma isteklerinin gönderilebildiği bu forma gider.

Mevcut dağıtımları geçirme

Yeni kota sistemine ve TPM tabanlı ayırmaya geçişin bir parçası olarak, mevcut tüm Azure OpenAI modeli dağıtımları kota kullanmak üzere otomatik olarak geçirilmiştir. Önceki özel hız sınırı artışları nedeniyle mevcut TPM/RPM ayırmasının varsayılan değerleri aştığı durumlarda, etkilenen dağıtımlara eşdeğer TPM atanmıştır.

Hız sınırlarını anlama

Bir dağıtıma TPM atamak, yukarıda açıklandığı gibi dağıtım için Dakika Başına Belirteçler (TPM) ve Dakika Başına İstek (RPM) hız sınırlarını ayarlar. TPM hız sınırları, istek alındığında bir istek tarafından işlendiği tahmin edilen en fazla belirteç sayısına bağlıdır. Tüm işlemler tamamlandıktan sonra hesaplanan faturalama için kullanılan belirteç sayısıyla aynı değildir.

Her istek alındığında Azure OpenAI, aşağıdakileri içeren tahmini maksimum işlenmiş belirteç sayısını hesaplar:

Metin ve sayı istemi
max_tokens parametresi ayarı
best_of parametresi ayarı

İstekler dağıtım uç noktasına geldikçe, her dakika sıfırlanan tüm isteklerin çalışan belirteç sayısına tahmini max-processed-token sayısı eklenir. Bu dakika boyunca herhangi bir zamanda TPM hız sınırı değerine ulaşılırsa, sayaç sıfırlanıncaya kadar diğer istekler 429 yanıt kodu alır.

Önemli

Hız sınırı hesaplamasında kullanılan belirteç sayısı, API isteğinin karakter sayısını temel alan bir tahmindir. Hız sınırı belirteci tahmini, faturalama/isteğin modelin giriş belirteci sınırının altında olduğunu belirlemek için kullanılan belirteç hesaplaması ile aynı değildir. Hız sınırı belirteci hesaplamasının yaklaşık yapısı nedeniyle, her istek için tam belirteç sayısı ölçümüne kıyasla beklenenden önce bir hız sınırının tetiklenebileceği beklenen bir davranıştır.

RPM hız sınırları, zaman içinde alınan istek sayısına bağlıdır. Hız sınırı, isteklerin bir dakikalık bir süre boyunca eşit bir şekilde dağıtılmalarını bekler. Bu ortalama akış korunmuyorsa, bir dakika boyunca ölçüldüğünde sınır karşılanmasa bile istekler 429 yanıtı alabilir. Azure OpenAI Hizmeti, bu davranışı uygulamak için genellikle 1 veya 10 saniye olmak üzere küçük bir süre boyunca gelen isteklerin hızını değerlendirir. Bu süre içinde alınan istek sayısı belirlenen RPM sınırında bekleneni aşarsa, yeni istekler bir sonraki değerlendirme dönemine kadar 429 yanıt kodu alır. Örneğin, Azure OpenAI istek hızını 1 saniyelik aralıklarla izliyorsa, her 1 saniyelik süre boyunca 10'dan fazla istek alınırsa (dakikada 600 istek = saniyede 10 istek) 600 RPM dağıtımı için hız sınırlaması gerçekleşir.

Hız sınırı en iyi yöntemleri

Hız sınırlarıyla ilgili sorunları en aza indirmek için aşağıdaki teknikleri kullanmak iyi bir fikirdir:

max_tokens ve best_of senaryonuzun gereksinimlerine uygun en düşük değerlere ayarlayın. Örneğin, yanıtlarınızın küçük olmasını bekliyorsanız büyük bir max-tokens değeri ayarlamayın.
Yüksek trafiğe sahip dağıtımlarda TPM'yi artırmak ve sınırlı ihtiyaçları olan dağıtımlarda TPM'yi azaltmak için kota yönetimini kullanın.
Uygulamanıza yeniden deneme mantığı ekleyin.
İş yükünde ani değişikliklerden kaçının. İş yükünü kademeli olarak artırın.
Farklı yük artışı desenlerini test edin.

Dağıtımı otomatikleştirme

Bu bölüm, TPM hız sınırlarını ayarlamak için kota kullanan dağıtımları program aracılığıyla oluşturmaya başlamanıza yardımcı olacak kısa örnek şablonlar içerir. Kotanın kullanıma sunulmasıyla birlikte, kaynak yönetimiyle ilgili etkinlikler için API sürümünü 2023-05-01 kullanmanız gerekir. Bu API sürümü yalnızca kaynaklarınızı yönetmeye yöneliktir ve tamamlamalar, sohbet tamamlamaları, ekleme, görüntü oluşturma gibi çağrıları çıkarım için kullanılan API sürümünü etkilemez.

Dağıtım

PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-05-01

Yol parametreleri

Parametre	Türü	Gerekli mi?	Açıklama
`accountName`	Dize	Zorunlu	Azure OpenAI Kaynağınızın adı.
`deploymentName`	Dize	Zorunlu	Mevcut bir modeli dağıtırken seçtiğiniz dağıtım adı veya yeni model dağıtımının olmasını istediğiniz ad.
`resourceGroupName`	Dize	Zorunlu	Bu model dağıtımı için ilişkili kaynak grubunun adı.
`subscriptionId`	Dize	Zorunlu	İlişkili aboneliğin abonelik kimliği.
`api-version`	Dize	Zorunlu	Bu işlem için kullanılacak API sürümü. Bu, YYYY-AA-GG biçimini izler.

Desteklenen sürümler

2023-05-01 Swagger belirtimi

İstek gövdesi

Bu, kullanılabilir istek gövdesi parametrelerinin yalnızca bir alt kümesidir. Parametrelerin tam listesi için REST API başvuru belgelerine başvurabilirsiniz.

Parametre	Tür	Açıklama
sku	Sku	SKU'yu temsil eden kaynak modeli tanımı.
capacity	integer	Bu, bu dağıtıma atadığınız kota miktarını temsil eder. 1 değeri Dakikada 1.000 Belirteç (TPM) değerine eşittir. 10 değeri Dakikada 10k Belirteç (TPM) değerine eşittir.

Örnek istek

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/gpt-35-turbo-test-deployment?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"Standard","capacity":10},"properties": {"model": {"format": "OpenAI","name": "gpt-35-turbo","version": "0613"}}}'

Not

Yetkilendirme belirteci oluşturmanın birden çok yolu vardır. İlk test için en kolay yöntem, Cloud Shell'i Azure portalından başlatmaktır. Ardından az account get-access-token komutunu çalıştırın. Bu belirteci API testi için geçici yetkilendirme belirteciniz olarak kullanabilirsiniz.

Daha fazla bilgi için kullanımlar ve dağıtım için REST API başvuru belgelerine bakın.

Kullanım

Belirli bir bölgede, belirli bir abonelikte kota kullanımınızı sorgulamak için

GET https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/locations/{location}/usages?api-version=2023-05-01

Yol parametreleri

Parametre	Türü	Gerekli mi?	Açıklama
`subscriptionId`	Dize	Zorunlu	İlişkili aboneliğin abonelik kimliği.
`location`	Dize	Zorunlu	Örneğin, kullanımı görüntülemek için konum: `eastus`
`api-version`	Dize	Zorunlu	Bu işlem için kullanılacak API sürümü. Bu, YYYY-AA-GG biçimini izler.

Desteklenen sürümler

2023-05-01 Swagger belirtimi

Örnek istek

curl -X GET https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/locations/eastus/usages?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN'

Azure CLI’yi yükleyin. Kota için Azure CLI version 2.51.0gerekir. Azure CLI zaten yerel olarak yüklüyse en son sürüme güncelleştirmek için komutunu çalıştırın az upgrade .

Hangi Azure CLI sürümünü çalıştırdığınızı denetlemek için kullanın az version. Azure Cloud Shell şu anda hala 2.50.0 çalıştırıyor, bu nedenle azure CLI'nin geçici yerel yüklemesinde en son Azure OpenAI özelliklerinden yararlanmak için gereklidir.

Dağıtım

az cognitiveservices account deployment create --model-format
                                               --model-name
                                               --model-version
                                               --name
                                               --resource-group
                                               [--capacity]
                                               [--deployment-name]
                                               [--scale-capacity]
                                               [--scale-settings-scale-type {Manual, Standard}]
                                               [--sku]

YEREL CLI yüklemenizde oturum açmak için komutunu az login çalıştırın:

az login

Aşağıdaki komutta sku kapasitesini 10 olarak ayarlayarak bu dağıtım 10.000 TPM sınırıyla ayarlanır.

az cognitiveservices account deployment create -g test-resource-group -n test-resource-name --deployment-name test-deployment-name --model-name gpt-35-turbo --model-version "0613" --model-format OpenAI --sku-capacity 10 --sku-name "Standard"

Kullanım

Belirli bir bölgede, belirli bir abonelikte kota kullanımınızı sorgulamak için

az cognitiveservices usage list --location

Örnek

az cognitiveservices usage list -l eastus

Bu komut, Azure CLI için şu anda etkin olan abonelik bağlamında çalışır. Etkin aboneliği değiştirmek için kullanınaz-account-set --subscription.

Daha fazla bilgi için Bkz . Azure CLI başvuru belgeleri

Az PowerShell modülünün en son sürümünü yükleyin. Az PowerShell modülü yerel olarak zaten yüklüyse komutunu çalıştırarak Update-Module -Name Az en son sürüme güncelleştirin.

Az PowerShell modülünün hangi sürümünü çalıştırdığınızı denetlemek için kullanın Get-InstalledModule -Name Az. Azure Cloud Shell şu anda en son Azure OpenAI özelliklerinden yararlanabilen bir Azure PowerShell sürümü çalıştırıyor.

Dağıtım

New-AzCognitiveServicesAccountDeployment
   [-ResourceGroupName] <String>
   [-AccountName] <String>
   [-Name] <String>
   [-Properties] <DeploymentProperties>
   [-Sku] <Sku>
   [-DefaultProfile <IAzureContextContainer>]
   [-WhatIf]
   [-Confirm]
   [<CommonParameters>]

Yerel Azure PowerShell yüklemenizde oturum açmak için Connect-AzAccount komutunu çalıştırın:

Connect-AzAccount

Aşağıdaki komutta Sku Kapasitesi 10 olarak ayarlandığında, bu dağıtım 10K TPM sınırına ayarlanır.

$cognitiveServicesDeploymentParams = @{
    ResourceGroupName = 'test-resource-group'
    AccountName = 'test-resource-name'
    Name = 'test-deployment-name'
    Properties = @{
        Model = @{
            Name = 'gpt-35-turbo'
            Version = '0613'
            Format  = 'OpenAI'
        }
    }
    Sku = @{
        Name = 'Standard'
        Capacity = '10'
    }
}
New-AzCognitiveServicesAccountDeployment @cognitiveServicesDeploymentParams

Kullanım

Belirli bir abonelik için belirli bir bölgedeki kota kullanımınızı sorgulamak için:

Get-AzCognitiveServicesUsage -Location <location>

Örnek

Get-AzCognitiveServicesUsage -Location eastus

Bu komut, Azure PowerShell için şu anda etkin olan abonelik bağlamında çalışır. Etkin aboneliği değiştirmek için kullanınSet-AzContext.

ve hakkında daha fazla bilgi için Azure PowerShell başvuru belgelerine bakın.New-AzCognitiveServicesAccountDeploymentGet-AzCognitiveServicesUsage

//
// This Azure Resource Manager template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
{
    "type": "Microsoft.CognitiveServices/accounts/deployments",
    "apiVersion": "2023-05-01",
    "name": "arm-je-aoai-test-resource/arm-je-std-deployment",    // Update reference to parent Azure OpenAI resource
    "dependsOn": [
        "[resourceId('Microsoft.CognitiveServices/accounts', 'arm-je-aoai-test-resource')]"  // Update reference to parent Azure OpenAI resource
    ],
    "sku": {
        "name": "Standard",      
        "capacity": 10            // The deployment will be created with a 10K TPM limit
    },
    "properties": {
        "model": {
            "format": "OpenAI",
            "name": "gpt-35-turbo",
            "version": "0613"        // Version 0613 of gpt-35-turbo will be used
        }
    }
}

Daha fazla bilgi için azure resource manager başvuru belgelerinin tamamına bakın.

//
// This Bicep template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
resource arm_je_std_deployment 'Microsoft.CognitiveServices/accounts/deployments@2023-05-01' = {
  parent: arm_je_aoai_resource   // Replace this with a reference to the parent Azure OpenAI resource
  name: 'arm-je-std-deployment'
  sku: {
    name: 'Standard'            
    capacity: 10                 // The deployment will be created with a 10K TPM limit
  }
  properties: {
    model: {
      format: 'OpenAI'
      name: 'gpt-35-turbo'
      version: '0613'           // gpt-35-turbo version 0613 will be used
    }
  }
}

Daha fazla bilgi için tam Bicep başvuru belgelerine bakın.

# This Terraform template shows how to use the new schema introduced in the 2023-05-01 API version to 
# create deployments that set the model version and the TPM limits for standard deployments.
# 
# The new schema is not yet available in the AzureRM provider (target v4.0), so this template uses the AzAPI
# provider, which provides a Terraform-compatible interface to the underlying ARM structures.
# 
# For more details on these providers:
#     AzureRM: https://registry.terraform.io/providers/hashicorp/azurerm/latest/docs
#     AzAPI: https://registry.terraform.io/providers/azure/azapi/latest/docs
#

# 
terraform {
  required_providers {
    azapi   = { source  = "Azure/azapi" }
    azurerm = { source  = "hashicorp/azurerm" }
  }
}

provider "azapi" {
  # Insert auth info here as necessary
}

provider "azurerm" {
    # Insert auth info here as necessary  
    features {
    }
}

# 
# To create a complete example, AzureRM is used to create a new resource group and Azure OpenAI Resource
# 
resource "azurerm_resource_group" "TERRAFORM-AOAI-TEST-GROUP" {
  name     = "TERRAFORM-AOAI-TEST-GROUP"
  location = "canadaeast"
}

resource "azurerm_cognitive_account" "TERRAFORM-AOAI-TEST-ACCOUNT" {
  name                  = "terraform-aoai-test-account"
  location              = "canadaeast"
  resource_group_name   = azurerm_resource_group.TERRAFORM-AOAI-TEST-GROUP.name
  kind                  = "OpenAI"
  sku_name              = "S0"
  custom_subdomain_name = "terraform-test-account-"
  }


# 
# AzAPI is used to create the deployment so that the TPM limit and model versions can be set
#
resource "azapi_resource" "TERRAFORM-AOAI-STD-DEPLOYMENT" {
  type      = "Microsoft.CognitiveServices/accounts/deployments@2023-05-01"
  name      = "TERRAFORM-AOAI-STD-DEPLOYMENT"
  parent_id = azurerm_cognitive_account.TERRAFORM-AOAI-TEST-ACCOUNT.id

  body = jsonencode({
    sku = {                            # The sku object specifies the deployment type and limit in 2023-05-01
        name = "Standard",             
        capacity = 10                  # This deployment will be set with a 10K TPM limit
    },
    properties = {
        model = {
            format = "OpenAI",
            name = "gpt-35-turbo",
            version = "0613"           # Deploy gpt-35-turbo version 0613
        }
    }
  })
}

Daha fazla bilgi için terraform başvuru belgelerinin tamamına bakın.

Kaynak silme

Azure portalından bir Azure OpenAI kaynağını silme girişiminde bulunulduğunda, herhangi bir dağıtım mevcutsa ilişkili dağıtımlar silinene kadar silme engellenir. İlk olarak dağıtımların silinmesi, kota ayırmalarının yeni dağıtımlarda kullanılabilmesi için düzgün bir şekilde boşaltılmasına olanak tanır.

Ancak REST API'yi veya başka bir program yöntemini kullanarak bir kaynağı silerseniz, bu işlem önce dağıtımları silme gereksinimini atlar. Bu durumda, kaynak temizlenene kadar 48 saat boyunca yeni bir dağıtıma atanmayan ilişkili kota ayırması kullanılamaz durumda kalır. Kotayı boşaltmak üzere silinmiş bir kaynağın hemen temizlenmesini tetikleme için silinen kaynağı temizleme yönergelerini izleyin.

Sonraki adımlar

Azure OpenAI kota varsayılanlarını gözden geçirmek için kotalar ve sınırlar makalesine bakın

Aracılığıyla paylaş

Azure OpenAI Hizmeti kotası yönetme

Önkoşullar

Kotaya giriş

Kota atama

Daha fazla kota isteme

Modele özgü ayarlar

Kotayı görüntüleme ve isteme

Mevcut dağıtımları geçirme

Hız sınırlarını anlama

Hız sınırı en iyi yöntemleri

Dağıtımı otomatikleştirme

Dağıtım

Örnek istek

Kullanım

Örnek istek

Dağıtım

Kullanım

Örnek

Dağıtım

Kullanım

Örnek

Kaynak silme

Sonraki adımlar

Geri Bildirim

Ek kaynaklar