Kuota dan batas Azure OpenAI Service

Artikel
01/30/2025

Artikel ini berisi referensi cepat dan deskripsi terperinci tentang kuota dan batasan untuk Azure OpenAI di layanan Azure AI.

Referensi kuota dan batas

Bagian berikut ini memberi Anda panduan cepat untuk kuota dan batas default yang berlaku untuk Azure OpenAI:

Nama Batas	Nilai Batas
Sumber daya Azure OpenAI per wilayah per langganan Azure	30
Batas kuota DALL-E 2 default	2 permintaan bersamaan
Batas kuota DALL-E 3 default	2 unit kapasitas (6 permintaan per menit)
Batas kuota Bisikan Default	3 permintaan per menit
Token prompt maksimum per permintaan	Bervariasi per model. Untuk informasi selengkapnya, lihat Model Layanan Azure OpenAI
Penyebaran Standar Maks per sumber daya	32
Maks penyebaran model yang disesuaikan	5
Jumlah total pekerjaan pelatihan per sumber daya	100
Maks pekerjaan pelatihan yang berjalan secara simultan per sumber daya	1
Maks pekerjaan pelatihan yang diantrekan	20
File Maks per sumber daya (penyempurnaan)	50
Ukuran total semua file per sumber daya (penyempurnaan)	1 GB
Waktu kerja pelatihan maksimum (pekerjaan akan gagal jika terlampaui)	720 jam
Ukuran pekerjaan pelatihan maks (token dalam file pelatihan) x (# dari epoch)	2 Miliar
Ukuran maksimum semua file per unggahan (Azure OpenAI pada data Anda)	16 MB
Jumlah maksimum atau input dalam array dengan `/embeddings`	2048
Jumlah `/chat/completions` maksimum pesan	2048
Jumlah `/chat/completions` maksimum fungsi	128
Jumlah maksimum `/chat completions` alat	128
Jumlah maksimum unit throughput yang disediakan per penyebaran	100.000
File maks per Asisten/utas	10.000 saat menggunakan API atau portal Azure AI Foundry. Di Azure OpenAI Studio batasnya adalah 20.
Ukuran file maksimum untuk Asisten & penyempurnaan	512 MB 200 MB melalui portal Azure AI Foundry
Ukuran maksimum untuk semua file yang diunggah untuk Asisten	100 GB
Batas token asisten	Batas token 2.000.000
Gambar maks GPT-4o per permintaan (# gambar dalam array pesan/riwayat percakapan)	50
Token maks default GPT-4 `vision-preview` & GPT-4 `turbo-2024-04-09`	16 Tingkatkan `max_tokens` nilai parameter untuk menghindari respons terpotong. Token maks GPT-4o default ke 4096.
Jumlah maksimum header kustom dalam permintaan^{API 1}	10
Batas karakter pesan	1048576
Ukuran pesan untuk file audio	20 MB

¹ API kami saat ini memungkinkan hingga 10 header kustom, yang diteruskan melalui alur, dan dikembalikan. Beberapa pelanggan sekarang melebihi jumlah header ini yang mengakibatkan kesalahan HTTP 431. Tidak ada solusi untuk kesalahan ini, selain mengurangi volume header. Dalam versi API yang akan datang, kita tidak akan lagi melewati header kustom. Sebaiknya pelanggan tidak bergantung pada header kustom dalam arsitektur sistem di masa mendatang.

Batas kuota regional

Wilayah	o1-mini	o1	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o-mini	GPT-35-Turbo	GPT-35-Turbo-Instruct	o1-mini - GlobalStandard	o1 - GlobalStandard	gpt-4o - GlobalStandard	gpt-4o-mini - GlobalStandard	GPT-4-Turbo - GlobalStandard	GPT-4o - Global-Batch	GPT-4o-mini - Global-Batch	GPT-4 - Global-Batch	GPT-4-Turbo - Global-Batch	gpt-35-turbo - Global-Batch	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	GPT-4o - finetune	GPT-4o-mini - finetune	GPT-4 - finetune	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - finetune	GPT-35-Turbo-1106 - finetune	GPT-35-Turbo-0125 - finetune
australiaeast	-	-	40 K	80 K	80 K	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	-	-	40 K	80 K	80 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus	1 M	600 K	-	-	80 K	-	1 M	2 M	240 K	240 K	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	240 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus2	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	250 K	-	-	-	-	-	-	250 K	250 K	250 K
FranceCentral	-	-	20 K	60 K	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-	-
germanywestcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	-	-	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
koreacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	250 K	500 K	100 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norwayeast	-	-	-	-	150 K	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
polandcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
southcentralus	1 M	600 K	-	-	80 K	-	1 M	2 M	240 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	-	-	150 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
spaincentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
swedencentral	1 M	600 K	40 K	80 K	150 K	30 K	1 M	2 M	300 K	240 K	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350 K	-	350 K	250 K	500 K	100 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K
switzerlandnorth	-	-	40 K	80 K	-	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	-	-	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
westus	1 M	600 K	-	-	80 K	30 K	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350 K	-	-	-	-	-	-	-	-	-	-	-	-
westus3	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-

Batas Azure Batch

Nama Batas	Nilai Batas
File maks per sumber daya	500
Ukuran file input maks	200 MB
Permintaan maks per file	100.000

Kuota batch

Tabel memperlihatkan batas kuota batch. Nilai kuota untuk batch global diwakili dalam hal token antrean. Saat Anda mengirimkan file untuk pemrosesan batch, jumlah token yang ada dalam file dihitung. Hingga pekerjaan batch mencapai status terminal, token tersebut akan dihitung terhadap batas token antrean total Anda.

Batch global

Model	Perjanjian Enterprise	Default	Langganan berbasis kartu kredit bulanan	Langganan MSDN	Azure for Students, Uji Coba Gratis
`gpt-4o`	5 B	200 M	50 M	90 K	T/A
`gpt-4o-mini`	15 B	1 B	50 M	90 K	T/A
`gpt-4-turbo`	300 M	80 M	40 M	90 K	T/A
`gpt-4`	150 M	30 M	5 M	100 K	T/A
`gpt-35-turbo`	10 B	1 B	100 M	2 M	50 rb
`o3-mini`	15 B	1 B	50 M	90 K	T/A

B = miliar | M = juta | K = ribu

Batch zona data

Model	Perjanjian Enterprise	Default	Langganan berbasis kartu kredit bulanan	Langganan MSDN	Azure for Students, Uji Coba Gratis
`gpt-4o`	500 M	30 M	30 M	90 K	T/A
`gpt-4o-mini`	1,5 B	100 M	50 M	90 K	T/A

`o-series` batas tarif

Penting

Rasio RPM/TPM untuk kuota dengan model seri o1 bekerja secara berbeda dari model penyelesaian obrolan yang lebih lama:

Model obrolan yang lebih lama: 1 unit kapasitas = 6 RPM dan 1.000 TPM.
o1 & o1-preview: 1 unit kapasitas = 1 RPM dan 6.000 TPM.
o3-mini: 1 unit kapasitas = 1 RPM per 10.000 TPM.
o1-mini: 1 unit kapasitas = 1 RPM per 10.000 TPM.

Ini sangat penting untuk penyebaran model terprogram karena perubahan rasio RPM/TPM ini dapat mengakibatkan ketidaksengajaan di bawah alokasi kuota jika seseorang masih mengasumsikan rasio 1:1000 diikuti oleh model penyelesaian obrolan yang lebih lama.

Ada masalah yang diketahui dengan API kuota/penggunaan di mana ia mengasumsikan rasio lama berlaku untuk model seri o1 baru. API mengembalikan nomor kapasitas dasar yang benar, tetapi tidak menerapkan rasio yang benar untuk perhitungan TPM yang akurat.

`o-series` standar global

Model	Tingkat	Batas Kuota dalam token per menit (TPM)	Permintaan per menit
`o3-mini`	Perjanjian Enterprise	50 M	5 K
`o1` & `o1-preview`	Perjanjian Enterprise	30 M	5 K
`o1-mini`	Perjanjian Enterprise	50 M	5 K
`o3-mini`	Default	5 M	500
`o1` & `o1-preview`	Default	3 M	500
`o1-mini`	Default	5 M	500

pratinjau o1 & standar o1-mini

Model	Tingkat	Batas Kuota dalam token per menit (TPM)	Permintaan per menit
`o1-preview`	Perjanjian Enterprise	600 K	100
`o1-mini`	Perjanjian Enterprise	1 M	100
`o1-preview`	Default	300 K	50
`o1-mini`	Default	500 K	50

batas tarif gpt-4o & GPT-4 Turbo

gpt-4o dan gpt-4o-mini, dan gpt-4 (turbo-2024-04-09) memiliki tingkat batas tarif dengan batas yang lebih tinggi untuk jenis pelanggan tertentu.

gpt-4o & GPT-4 Turbo standar global

Model	Tingkat	Batas Kuota dalam token per menit (TPM)	Permintaan per menit
`gpt-4o`	Perjanjian Enterprise	30 M	180 K
`gpt-4o-mini`	Perjanjian Enterprise	50 M	300 K
`gpt-4` (turbo-2024-04-09)	Perjanjian Enterprise	2 M	12 K
`gpt-4o`	Default	450 K	2,7 K
`gpt-4o-mini`	Default	2 M	12 K
`gpt-4` (turbo-2024-04-09)	Default	450 K	2,7 K

M = juta | K = ribu

standar zona data gpt-4o

Model	Tingkat	Batas Kuota dalam token per menit (TPM)	Permintaan per menit
`gpt-4o`	Perjanjian Enterprise	10 M	60 K
`gpt-4o-mini`	Perjanjian Enterprise	20 M	120 K
`gpt-4o`	Default	300 K	1,8 K
`gpt-4o-mini`	Default	1 M	6 K

M = juta | K = ribu

standar gpt-4o

Model	Tingkat	Batas Kuota dalam token per menit (TPM)	Permintaan per menit
`gpt-4o`	Perjanjian Enterprise	1 M	6 K
`gpt-4o-mini`	Perjanjian Enterprise	2 M	12 K
`gpt-4o`	Default	150 K	900
`gpt-4o-mini`	Default	450 K	2,7 K

M = juta | K = ribu

audio gpt-4o

Batas tarif untuk setiap gpt-4o penyebaran model audio adalah 100K TPM dan 1K RPM. Selama pratinjau, portal dan API Azure AI Foundry mungkin secara tidak akurat menunjukkan batas laju yang berbeda. Bahkan jika Anda mencoba menetapkan batas tarif yang berbeda, batas tarif aktual adalah 100K TPM dan RPM 1K.

Model	Tingkat	Batas Kuota dalam token per menit (TPM)	Permintaan per menit
`gpt-4o-audio-preview`	Default	450 K	1 K
`gpt-4o-realtime-preview`	Default	800 K	1 K
`gpt-4o-mini-audio-preview`	Default	2 M	1 K
`gpt-4o-mini-realtime-preview`	Default	800 K	1 K

M = juta | K = ribu

Tingkat penggunaan

Penyebaran standar global menggunakan infrastruktur global Azure, merutekan lalu lintas pelanggan secara dinamis ke pusat data dengan ketersediaan terbaik untuk permintaan inferensi pelanggan. Demikian pula, Penyebaran standar zona data memungkinkan Anda memanfaatkan infrastruktur global Azure untuk merutekan lalu lintas secara dinamis ke pusat data dalam zona data yang ditentukan Microsoft dengan ketersediaan terbaik untuk setiap permintaan. Ini memungkinkan latensi yang lebih konsisten bagi pelanggan dengan tingkat lalu lintas rendah hingga menengah. Pelanggan dengan tingkat penggunaan berkelanjutan yang tinggi mungkin melihat varianbilitas yang lebih besar dalam latensi respons.

Batas Penggunaan menentukan tingkat penggunaan di atas tempat pelanggan mungkin melihat varianbilitas yang lebih besar dalam latensi respons. Penggunaan pelanggan ditentukan per model dan merupakan total token yang digunakan di semua penyebaran di semua langganan di semua wilayah untuk penyewa tertentu.

Catatan

Tingkat penggunaan hanya berlaku untuk jenis penyebaran standar, zona data, dan standar global. Tingkat penggunaan tidak berlaku untuk penyebaran throughput batch global dan yang disediakan.

Standar global GPT-4o, standar zona data, & standar

Model	Tingkat Penggunaan per bulan
`gpt-4o`	12 Miliar token
`gpt-4o-mini`	85 Miliar token

Standar GPT-4

Model	Tingkat Penggunaan per bulan
`gpt-4` + `gpt-4-32k` (semua versi)	6 Miliar

Jenis penawaran lainnya

Jika langganan Azure Anda ditautkan ke jenis penawaran tertentu, nilai kuota maks Anda lebih rendah dari nilai yang ditunjukkan dalam tabel di atas.

Tingkat	Batas Kuota dalam token per menit (TPM)
Azure for Students, Uji Coba Gratis	1 K (semua model)
Langganan MSDN	Seri GPT 3.5 Turbo: 30 K Seri GPT-4: 8 K
Langganan berbasis kartu kredit bulanan ¹	Seri GPT 3.5 Turbo: 30 K Seri GPT-4: 8 K

¹ Saat ini berlaku untuk jenis penawaran 0003P

Di portal Azure Anda bisa melihat jenis penawaran apa yang terkait dengan langganan Anda dengan menavigasi ke langganan Anda dan memeriksa panel gambaran umum langganan. Jenis penawaran sesuai dengan bidang paket dalam gambaran umum langganan.

Praktik terbaik umum untuk tetap dalam batas tarif

Untuk meminimalkan masalah yang terkait dengan batas tarif, ada baiknya menggunakan teknik berikut:

Terapkan logika coba lagi di aplikasi Anda.
Hindari perubahan ekstrem dalam beban kerja. Tingkatkan beban kerja secara bertahap.
Uji pola peningkatan beban yang berbeda.
Tingkatkan kuota yang ditetapkan ke penyebaran Anda. Pindahkan kuota dari penyebaran lain, jika perlu.

Cara meminta penambahan kuota

Permintaan penambahan kuota dapat diajukan melalui formulir permintaan penambahan kuota. Karena permintaan yang tinggi, permintaan peningkatan kuota diterima dan akan diisi dalam urutan yang diterima. Prioritas diberikan kepada pelanggan yang menghasilkan lalu lintas yang menggunakan alokasi kuota yang ada, dan permintaan Anda mungkin ditolak jika kondisi ini tidak terpenuhi.

Untuk batas tarif lainnya, kirimkan permintaan layanan.

Langkah berikutnya

Jelajahi cara mengelola kuota untuk penyebaran Azure OpenAI Anda. Pelajari selengkapnya tentang model yang mendasari yang mendukung Azure OpenAI.

Bagikan melalui

Kuota dan batas Azure OpenAI Service

Referensi kuota dan batas

Batas kuota regional

Batas Azure Batch

Kuota batch

Batch global

Batch zona data

`o-series` batas tarif

`o-series` standar global

pratinjau o1 & standar o1-mini

batas tarif gpt-4o & GPT-4 Turbo

gpt-4o & GPT-4 Turbo standar global

standar zona data gpt-4o

standar gpt-4o

audio gpt-4o

Tingkat penggunaan

Standar global GPT-4o, standar zona data, & standar

Standar GPT-4

Jenis penawaran lainnya

Praktik terbaik umum untuk tetap dalam batas tarif

Cara meminta penambahan kuota

Langkah berikutnya

Saran dan Komentar

Sumber Daya Tambahan:

Bagikan melalui

Kuota dan batas Azure OpenAI Service

Referensi kuota dan batas

Batas kuota regional

Batas Azure Batch

Kuota batch

Batch global

Batch zona data

o-series batas tarif

o-series standar global

pratinjau o1 & standar o1-mini

batas tarif gpt-4o & GPT-4 Turbo

gpt-4o & GPT-4 Turbo standar global

standar zona data gpt-4o

standar gpt-4o

audio gpt-4o

Tingkat penggunaan

Standar global GPT-4o, standar zona data, & standar

Standar GPT-4

Jenis penawaran lainnya

Praktik terbaik umum untuk tetap dalam batas tarif

Cara meminta penambahan kuota

Langkah berikutnya

Saran dan Komentar

Sumber Daya Tambahan:

`o-series` batas tarif

`o-series` standar global