Koncepty chatovacího modelu s podporou zpracování obrazu
Chatovací modely s podporou zpracování obrazu jsou velké multimodální modely (LMM) vyvinuté openAI, které můžou analyzovat obrázky a poskytovat textové odpovědi na otázky týkající se nich. Zahrnují zpracování přirozeného jazyka i vizuální porozumění. Aktuální modely s podporou zraku jsou GPT-4 Turbo s vision, GPT-4o a GPT-4o-mini. Tato příručka obsahuje podrobnosti o jejich možnostech a omezeních.
Pokud chcete vyzkoušet modely chatu s podporou zpracování obrazu, podívejte se na rychlý start.
Chaty s podporou zpracování obrazu
Modely s podporou zpracování obrazu odpovídají na obecné otázky týkající se toho, co je přítomné na obrázcích, které nahrajete.
Speciální informace o cenách
Důležité
Podrobnosti o cenách se můžou v budoucnu změnit.
Modely s podporou zpracování obrazu účtují poplatky, jako jsou jiné chatovací modely Azure OpenAI. Za výzvy a dokončení platíte sazbu za token, která je podrobně popsána na stránce Ceny. Základní poplatky a další funkce jsou popsané tady:
Základní ceny GPT-4 Turbo s vision jsou:
- Vstup: $0,01 za 1 000 tokenů
- Výstup: 0,03 USD za 1 000 tokenů
Informace o překladu textu a obrázků na tokeny najdete v části Tokens v přehledu.
Příklad výpočtu ceny obrázku
Důležité
Následující obsah je příkladem pouze a ceny se můžou v budoucnu změnit.
V případě typického případu použití pořídit obrázek s viditelnými objekty i textem a vstupem výzvy 100 tokenů. Když služba zpracuje výzvu, vygeneruje 100 tokenů výstupu. Na obrázku je možné rozpoznat text i objekty. Cena této transakce by byla:
Položka | Podrobnosti | Náklady |
---|---|---|
Zadání textové výzvy | 100 textových tokenů | $0,001 |
Příklad vstupu obrázku (viz tokeny image) | 170 + 85 tokenů obrázků | $0,00255 |
Vylepšené funkce doplňků pro OCR | 1,50 USD / 1000 transakcí | $0,0015 |
Vylepšené funkce doplňku pro uzemnění objektů | 1,50 USD / 1000 transakcí | $0,0015 |
Výstupní tokeny | 100 tokenů (předpokládá se) | $0,003 |
Celkem | $0,00955 |
Omezení vstupu
Tato část popisuje omezení modelů chatu s podporou zraku.
Podpora obrázků
- Maximální velikost vstupního obrázku: Maximální velikost vstupních obrázků je omezena na 20 MB.
- Nízká přesnost rozlišení: Při analýze obrázků pomocí nastavení nízkého rozlišení umožňuje rychlejší odezvy a pro určité případy použití používá méně vstupních tokenů. To ale může mít vliv na přesnost rozpoznávání objektu a textu v rámci obrázku.
- Omezení chatu s obrázky: Když nahráváte obrázky na portálu Azure AI Foundry nebo rozhraní API, platí limit 10 obrázků na hovor chatu.
Další kroky
- Začněte používat modely s podporou zpracování obrazu pomocí tohoto rychlého startu.
- Podrobnější informace o rozhraních API najdete v průvodci postupy.
- Zobrazení referenčních informací k rozhraní API pro dokončování a vkládání