Kuota dan batasan inferensi model Azure AI dalam layanan Azure AI
Artikel ini berisi referensi cepat dan deskripsi terperinci tentang kuota dan batasan untuk inferensi model Azure AI dalam layanan Azure AI. Untuk kuota dan batasan khusus untuk Layanan Azure OpenAI, lihat Kuota dan batasan dalam layanan Azure OpenAI.
Referensi kuota dan batas
Bagian berikut ini memberi Anda panduan cepat untuk kuota dan batas default yang berlaku untuk layanan inferensi model Azure AI di layanan Azure AI:
Batas Sumber Daya
Nama batas | Nilai batas |
---|---|
Sumber daya layanan Azure AI per wilayah per langganan Azure | 30 |
Penyebaran maks per sumber daya | 32 |
Batas tarif
Nama batas | Nilai batas |
---|---|
Token per menit (model Azure OpenAI) | Bervariasi per model dan SKU. Lihat batasan untuk Azure OpenAI. |
Token per menit (sisa model) | 200.000 |
Permintaan per menit (model Azure OpenAI) | Bervariasi per model dan SKU. Lihat batasan untuk Azure OpenAI. |
Permintaan per menit (sisa model) | 1.000 |
Pembatasan lainnya
Nama batas | Nilai batas |
---|---|
Jumlah maksimum header kustom dalam permintaanAPI 1 | 10 |
1 API kami saat ini memungkinkan hingga 10 header kustom, yang diteruskan melalui alur, dan dikembalikan. Kami telah melihat beberapa pelanggan sekarang melebihi jumlah header ini yang mengakibatkan kesalahan HTTP 431. Tidak ada solusi untuk kesalahan ini, selain mengurangi volume header. Dalam versi API yang akan datang, kita tidak akan lagi melewati header kustom. Sebaiknya pelanggan tidak bergantung pada header kustom dalam arsitektur sistem di masa mendatang.
Tingkat penggunaan
Penyebaran Standar Global menggunakan infrastruktur global Azure, merutekan lalu lintas pelanggan secara dinamis ke pusat data dengan ketersediaan terbaik untuk permintaan inferensi pelanggan. Ini memungkinkan latensi yang lebih konsisten bagi pelanggan dengan tingkat lalu lintas rendah hingga menengah. Pelanggan dengan tingkat penggunaan berkelanjutan tinggi mungkin melihat lebih banyak varianbilitas dalam latensi respons.
Batas Penggunaan menentukan tingkat penggunaan di atas tempat pelanggan mungkin melihat varianbilitas yang lebih besar dalam latensi respons. Penggunaan pelanggan ditentukan per model dan merupakan total token yang digunakan di semua penyebaran di semua langganan di semua wilayah untuk penyewa tertentu.
Praktik terbaik umum untuk tetap dalam batas tarif
Untuk meminimalkan masalah yang terkait dengan batas tarif, ada baiknya menggunakan teknik berikut:
- Terapkan logika coba lagi di aplikasi Anda.
- Hindari perubahan ekstrem dalam beban kerja. Tingkatkan beban kerja secara bertahap.
- Uji pola peningkatan beban yang berbeda.
- Tingkatkan kuota yang ditetapkan ke penyebaran Anda. Pindahkan kuota dari penyebaran lain, jika perlu.
Permintaan meningkat ke kuota dan batas default
Permintaan penambahan kuota dapat dikirimkan dan dievaluasi per permintaan. Kirim permintaan layanan.
Langkah berikutnya
- Pelajari selengkapnya tentang model yang tersedia di layanan inferensi model Azure AI