Azure yapay zeka hizmetlerinde Azure yapay zeka modeli çıkarım kotaları ve sınırları
Bu makale, Azure yapay zeka modelinin Azure yapay zeka hizmetlerindeki çıkarımına yönelik kotaların ve sınırların ayrıntılı bir açıklamasını ve hızlı başvuruyu içerir. Azure OpenAI Hizmetine özgü kotalar ve sınırlar için bkz . Azure OpenAI hizmetinde kota ve sınırlar.
Kotalar ve limitler başvurusu
Aşağıdaki bölümler, Azure yapay zeka hizmetlerinde Azure yapay zeka modelinin çıkarım hizmeti için geçerli olan varsayılan kotalar ve sınırlar için hızlı bir kılavuz sağlar:
Kaynak sınırları
Sınır adı | Sınır değeri |
---|---|
Azure aboneliği başına bölge başına Azure AI hizmetleri kaynakları | 30 |
Kaynak başına en fazla dağıtım | 32 |
Hız sınırları
Sınır adı | Sınır değeri |
---|---|
Dakika başına belirteç sayısı (Azure OpenAI modelleri) | Modele ve SKU'ya göre değişir. Bkz. Azure OpenAI sınırları. |
Dakika başına belirteç sayısı (modellerin geri kalanı) | 200.000 |
Dakika başına istek sayısı (Azure OpenAI modelleri) | Modele ve SKU'ya göre değişir. Bkz. Azure OpenAI sınırları. |
Dakika başına istek sayısı (modellerin geri kalanı) | 1.000 |
Diğer sınırlar
Sınır adı | Sınır değeri |
---|---|
API isteklerindeen fazla özel üst bilgi sayısı 1 | 10 |
1 Geçerli API'lerimiz işlem hattından geçirilen ve döndürülen en fazla 10 özel üst bilgi sağlar. Bazı müşterilerin bu üst bilgi sayısını aştığını fark ettik ve bu da HTTP 431 hatalarıyla sonuçlandı. Bu hatanın üst bilgi hacmini azaltmak dışında bir çözümü yoktur. Gelecekteki API sürümlerinde artık özel üst bilgilerden geçmeyecek. Müşterilerin gelecekteki sistem mimarilerinde özel üst bilgilere bağımlı olmamasını öneririz.
Kullanım katmanları
Genel Standart dağıtımlar Azure'ın genel altyapısını kullanır ve müşteri trafiğini dinamik olarak veri merkezine yönlendirerek müşterinin çıkarım istekleri için en iyi kullanılabilirliği sağlar. Bu, düşük ve orta düzeyde trafiğe sahip müşteriler için daha tutarlı gecikme süresi sağlar. Kullanım düzeyi yüksek olan müşteriler yanıt gecikme süresinde daha fazla değişkenlik görebilir.
Kullanım Sınırı, müşterilerin yanıt gecikme süresinde daha büyük değişkenlik görebileceği kullanım düzeyini belirler. Müşterinin kullanımı model başına tanımlanır ve belirli bir kiracı için tüm bölgelerdeki tüm aboneliklerdeki tüm dağıtımlarda kullanılan toplam belirteçtir.
Hız sınırları içinde kalmak için genel en iyi yöntemler
Hız sınırlarıyla ilgili sorunları en aza indirmek için aşağıdaki teknikleri kullanmak iyi bir fikirdir:
- Uygulamanıza yeniden deneme mantığı ekleyin.
- İş yükünde ani değişikliklerden kaçının. İş yükünü kademeli olarak artırın.
- Farklı yük artışı desenlerini test edin.
- Dağıtımınıza atanan kotayı artırın. Gerekirse kotayı başka bir dağıtımdan taşıyın.
İstek varsayılan kotalara ve sınırlara yükseltir
Kota artışı istekleri istek başına gönderilebilir ve değerlendirilebilir. Bir hizmet isteği gönderin.
Sonraki adımlar
- Azure yapay zeka modelinin çıkarım hizmetinde bulunan modeller hakkında daha fazla bilgi edinin