Condividi tramite


Concetti relativi al modello di chat abilitata per la visione artificiale

I modelli di chat abilitati per la visione sono modelli di chat di grandi dimensioni (LMM) sviluppati da OpenAI che possono analizzare le immagini e fornire risposte testuali alle domande su di esse. Incorporano sia l'elaborazione del linguaggio naturale che la comprensione visiva. I modelli attuali abilitati per la visione sono GPT-4 Turbo con Vision, GPT-4o e GPT-4o-mini. Questa guida fornisce informazioni dettagliate sulle relative funzionalità e limitazioni.

Per provare i modelli di chat abilitati per la visione artificiale, vedere la guida introduttiva.

Chat abilitate per la visione

I modelli abilitati per la visione rispondono a domande generali su ciò che è presente nelle immagini caricate.

Informazioni speciali sui prezzi

Importante

I dettagli sui prezzi sono soggetti a modifiche future.

I modelli abilitati per la visione accumulano addebiti come altri modelli di chat OpenAI di Azure. Si paga una tariffa per token per le richieste e i completamenti, descritta in dettaglio nella pagina dei prezzi. Gli addebiti di base e le funzionalità aggiuntive sono descritti di seguito:

I prezzi di base per GPT-4 Turbo con Visione sono:

  • Input: $ 0,01 per 1000 token
  • Output: $ 0,03 per 1000 token

Vedere la sezione Token della panoramica per informazioni su come il testo e le immagini si traducono in token.

Esempio di calcolo del prezzo dell'immagine

Importante

Il contenuto seguente è solo un esempio e i prezzi sono soggetti a modifiche in futuro.

Per un caso d'uso tipico, acquisire un'immagine con oggetti visibili e testo e un input di richiesta di 100 token. Quando il servizio elabora il prompt, genera 100 token di output. Nell'immagine è possibile rilevare sia testo che oggetti. Il prezzo di questa transazione sarà:

Articolo Dettagli Costo
Input della richiesta di testo 100 token di testo $0,001
Esempio di input dell'immagine (vedere Token immagine) 170 + 85 token di immagine $ 0,00255
Funzionalità avanzate dei componenti aggiuntivi per OCR $ 1,50/1000 transazioni $ 0,0015
Funzionalità avanzate dei componenti aggiuntivi per il grounding degli oggetti $ 1,50/1000 transazioni $ 0,0015
Token di output 100 token (presupposti) $ 0,003
Totali $ 0,00955

Limitazioni relative all’input

Questa sezione descrive le limitazioni dei modelli di chat abilitati per la visione.

Supporto delle immagini

  • Dimensioni massime dell'immagine di input: la dimensione massima per le immagini di input è limitata a 20 MB.
  • Accuratezza a bassa risoluzione: quando le immagini vengono analizzate usando l'impostazione "a bassa risoluzione", consente risposte più veloci e usa meno token di input per determinati casi d'uso. Tuttavia, ciò potrebbe influire sull'accuratezza del riconoscimento dell'oggetto e del testo all'interno dell'immagine.
  • Restrizione della chat di immagini: quando si caricano immagini nel portale di Azure AI Foundry o nell'API, è previsto un limite di 10 immagini per ogni chiamata di chat.

Passaggi successivi