Bagikan melalui


Konsep model obrolan yang mendukung visi

Model obrolan berkemampuan visi adalah model multimodal besar (LMM) yang dikembangkan oleh OpenAI yang dapat menganalisis gambar dan memberikan respons tekstual terhadap pertanyaan tentang mereka. Mereka menggabungkan pemrosesan bahasa alami dan pemahaman visual. Model yang mendukung visi saat ini adalah GPT-4 Turbo dengan Vision, GPT-4o, dan GPT-4o-mini. Panduan ini memberikan detail tentang kemampuan dan batasannya.

Untuk mencoba model obrolan yang mendukung visi, lihat mulai cepat.

Obrolan yang mendukung visi

Model yang mendukung visi menjawab pertanyaan umum tentang apa yang ada dalam gambar yang Anda unggah.

Informasi harga khusus

Penting

Detail harga dapat berubah di masa mendatang.

Model berkemampuan visi mengumpulkan biaya seperti model obrolan Azure OpenAI lainnya. Anda membayar tarif per token untuk perintah dan penyelesaian, yang dirinci di halaman Harga. Biaya dasar dan fitur tambahan diuraikan di sini:

Harga Dasar untuk GPT-4 Turbo dengan Visi adalah:

  • Input: $0,01 per 1000 token
  • Output: $0,03 per 1000 token

Lihat bagian Token dari gambaran umum untuk informasi tentang cara teks dan gambar diterjemahkan ke token.

Contoh perhitungan harga gambar

Penting

Konten berikut adalah contoh saja, dan harga dapat berubah di masa mendatang.

Untuk kasus penggunaan umum, ambil gambar dengan objek dan teks yang terlihat dan input prompt token 100. Ketika layanan memproses permintaan, layanan menghasilkan 100 token output. Dalam gambar, teks dan objek dapat dideteksi. Harga transaksi ini adalah:

Item Detail Biaya
Input perintah teks 100 token teks $0,001
Contoh input gambar (lihat Token gambar) 170 + 85 token gambar $0,00255
Fitur add-on yang disempurnakan untuk OCR Transaksi $1,50 / 1000 $0,0015
Fitur add-on yang disempurnakan untuk Object Grounding Transaksi $1,50 / 1000 $0,0015
Token Output 100 token (diasumsikan) $0,003
Total $0,00955

Batasan input

Bagian ini menjelaskan batasan model obrolan yang mendukung visi.

Dukungan gambar

  • Ukuran gambar input maksimum: Ukuran maksimum untuk gambar input dibatasi hingga 20 MB.
  • Akurasi resolusi rendah: Ketika gambar dianalisis menggunakan pengaturan "resolusi rendah", itu memungkinkan respons yang lebih cepat dan menggunakan lebih sedikit token input untuk kasus penggunaan tertentu. Namun, ini dapat berdampak pada akurasi pengenalan objek dan teks dalam gambar.
  • Pembatasan obrolan gambar: Saat Anda mengunggah gambar di portal Azure AI Foundry atau API, ada batas 10 gambar per panggilan obrolan.

Langkah berikutnya