Konsep model obrolan yang mendukung visi
Model obrolan berkemampuan visi adalah model multimodal besar (LMM) yang dikembangkan oleh OpenAI yang dapat menganalisis gambar dan memberikan respons tekstual terhadap pertanyaan tentang mereka. Mereka menggabungkan pemrosesan bahasa alami dan pemahaman visual. Model yang mendukung visi saat ini adalah GPT-4 Turbo dengan Vision, GPT-4o, dan GPT-4o-mini. Panduan ini memberikan detail tentang kemampuan dan batasannya.
Untuk mencoba model obrolan yang mendukung visi, lihat mulai cepat.
Obrolan yang mendukung visi
Model yang mendukung visi menjawab pertanyaan umum tentang apa yang ada dalam gambar yang Anda unggah.
Informasi harga khusus
Penting
Detail harga dapat berubah di masa mendatang.
Model berkemampuan visi mengumpulkan biaya seperti model obrolan Azure OpenAI lainnya. Anda membayar tarif per token untuk perintah dan penyelesaian, yang dirinci di halaman Harga. Biaya dasar dan fitur tambahan diuraikan di sini:
Harga Dasar untuk GPT-4 Turbo dengan Visi adalah:
- Input: $0,01 per 1000 token
- Output: $0,03 per 1000 token
Lihat bagian Token dari gambaran umum untuk informasi tentang cara teks dan gambar diterjemahkan ke token.
Contoh perhitungan harga gambar
Penting
Konten berikut adalah contoh saja, dan harga dapat berubah di masa mendatang.
Untuk kasus penggunaan umum, ambil gambar dengan objek dan teks yang terlihat dan input prompt token 100. Ketika layanan memproses permintaan, layanan menghasilkan 100 token output. Dalam gambar, teks dan objek dapat dideteksi. Harga transaksi ini adalah:
Item | Detail | Biaya |
---|---|---|
Input perintah teks | 100 token teks | $0,001 |
Contoh input gambar (lihat Token gambar) | 170 + 85 token gambar | $0,00255 |
Fitur add-on yang disempurnakan untuk OCR | Transaksi $1,50 / 1000 | $0,0015 |
Fitur add-on yang disempurnakan untuk Object Grounding | Transaksi $1,50 / 1000 | $0,0015 |
Token Output | 100 token (diasumsikan) | $0,003 |
Total | $0,00955 |
Batasan input
Bagian ini menjelaskan batasan model obrolan yang mendukung visi.
Dukungan gambar
- Ukuran gambar input maksimum: Ukuran maksimum untuk gambar input dibatasi hingga 20 MB.
- Akurasi resolusi rendah: Ketika gambar dianalisis menggunakan pengaturan "resolusi rendah", itu memungkinkan respons yang lebih cepat dan menggunakan lebih sedikit token input untuk kasus penggunaan tertentu. Namun, ini dapat berdampak pada akurasi pengenalan objek dan teks dalam gambar.
- Pembatasan obrolan gambar: Saat Anda mengunggah gambar di portal Azure AI Foundry atau API, ada batas 10 gambar per panggilan obrolan.
Langkah berikutnya
- Mulai menggunakan model yang mendukung visi dengan mengikuti mulai cepat.
- Untuk melihat API yang lebih mendalam, ikuti panduan cara penggunaan.
- Lihat referensi API penyelesaian dan penyematan