Kuota dan batasan inferensi model Azure AI dalam layanan Azure AI

Artikel
01/30/2025

Artikel ini berisi referensi cepat dan deskripsi terperinci tentang kuota dan batasan untuk inferensi model Azure AI dalam layanan Azure AI. Untuk kuota dan batasan khusus untuk Layanan Azure OpenAI, lihat Kuota dan batasan dalam layanan Azure OpenAI.

Referensi kuota dan batas

Bagian berikut ini memberi Anda panduan cepat untuk kuota dan batas default yang berlaku untuk layanan inferensi model Azure AI di layanan Azure AI:

Batas Sumber Daya

Nama batas	Nilai batas
Sumber daya layanan Azure AI per wilayah per langganan Azure	30
Penyebaran maks per sumber daya	32

Batas tarif

Nama batas	Nilai batas
Token per menit (model Azure OpenAI)	Bervariasi per model dan SKU. Lihat batasan untuk Azure OpenAI.
Token per menit (sisa model)	200.000
Permintaan per menit (model Azure OpenAI)	Bervariasi per model dan SKU. Lihat batasan untuk Azure OpenAI.
Permintaan per menit (sisa model)	1.000

Pembatasan lainnya

Nama batas	Nilai batas
Jumlah maksimum header kustom dalam permintaan^{API 1}	10

¹ API kami saat ini memungkinkan hingga 10 header kustom, yang diteruskan melalui alur, dan dikembalikan. Kami telah melihat beberapa pelanggan sekarang melebihi jumlah header ini yang mengakibatkan kesalahan HTTP 431. Tidak ada solusi untuk kesalahan ini, selain mengurangi volume header. Dalam versi API yang akan datang, kita tidak akan lagi melewati header kustom. Sebaiknya pelanggan tidak bergantung pada header kustom dalam arsitektur sistem di masa mendatang.

Tingkat penggunaan

Penyebaran Standar Global menggunakan infrastruktur global Azure, merutekan lalu lintas pelanggan secara dinamis ke pusat data dengan ketersediaan terbaik untuk permintaan inferensi pelanggan. Ini memungkinkan latensi yang lebih konsisten bagi pelanggan dengan tingkat lalu lintas rendah hingga menengah. Pelanggan dengan tingkat penggunaan berkelanjutan tinggi mungkin melihat lebih banyak varianbilitas dalam latensi respons.

Batas Penggunaan menentukan tingkat penggunaan di atas tempat pelanggan mungkin melihat varianbilitas yang lebih besar dalam latensi respons. Penggunaan pelanggan ditentukan per model dan merupakan total token yang digunakan di semua penyebaran di semua langganan di semua wilayah untuk penyewa tertentu.

Praktik terbaik umum untuk tetap dalam batas tarif

Untuk meminimalkan masalah yang terkait dengan batas tarif, ada baiknya menggunakan teknik berikut:

Terapkan logika coba lagi di aplikasi Anda.
Hindari perubahan ekstrem dalam beban kerja. Tingkatkan beban kerja secara bertahap.
Uji pola peningkatan beban yang berbeda.
Tingkatkan kuota yang ditetapkan ke penyebaran Anda. Pindahkan kuota dari penyebaran lain, jika perlu.

Permintaan meningkat ke kuota dan batas default

Permintaan penambahan kuota dapat dikirimkan dan dievaluasi per permintaan. Kirim permintaan layanan.

Langkah berikutnya

Pelajari selengkapnya tentang model yang tersedia di layanan inferensi model Azure AI

Bagikan melalui