Pojęcia dotyczące modelu czatów z obsługą przetwarzania obrazów

Artykuł
02/25/2025

Modele czatów z obsługą przetwarzania obrazów to duże modele wielomodalne (LMM) opracowane przez platformę OpenAI, które umożliwiają analizowanie obrazów i dostarczanie odpowiedzi tekstowych na pytania dotyczące nich. Obejmują one zarówno przetwarzanie języka naturalnego, jak i zrozumienie wizualne. Obecne modele z obsługą obrazów to GPT-4 Turbo z usługą Vision, GPT-4o i GPT-4o-mini. Ten przewodnik zawiera szczegółowe informacje na temat ich możliwości i ograniczeń.

Aby wypróbować modele czatów z obsługą przetwarzania obrazów, zobacz przewodnik Szybki start.

Czaty z obsługą przetwarzania obrazów

Modele obsługujące wizję odpowiadają na ogólne pytania dotyczące tego, co jest obecne na przekazanych obrazach.

Specjalne informacje o cenach

Ważne

Szczegóły cennika mogą ulec zmianie w przyszłości.

Modele obsługujące przetwarzanie obrazów naliczają opłaty, takie jak inne modele czatów usługi Azure OpenAI. Płacisz stawkę za token dla monitów i uzupełnień, szczegółowo na stronie Cennik. Podstawowe opłaty i dodatkowe funkcje zostały opisane tutaj:

Podstawowe ceny dla GPT-4 Turbo z wizją są:

Dane wejściowe: 0,01 USD na 1000 tokenów
Dane wyjściowe: 0,03 USD za 1000 tokenów

Zobacz sekcję Tokeny w przeglądzie , aby uzyskać informacje na temat sposobu tłumaczenia tekstu i obrazów na tokeny.

Przykładowe obliczenie ceny obrazu

Ważne

Poniższa zawartość jest tylko przykładem, a ceny mogą ulec zmianie w przyszłości.

W przypadku typowego przypadku użycia utwórz obraz z widocznymi obiektami i tekstem oraz 100-tokenem wejściowym monitu. Gdy usługa przetwarza monit, generuje 100 tokenów danych wyjściowych. Na obrazie można wykryć zarówno tekst, jak i obiekty. Cena tej transakcji będzie następująca:

Towar	Szczegół	Koszt
Wprowadzanie monitu tekstowego	100 tokenów tekstowych	0,001 USD
Przykładowe dane wejściowe obrazu (zobacz Tokeny obrazów)	170 + 85 tokenów obrazów	0,00255 USD
Ulepszone funkcje dodatku dla OCR	1,50 USD / 1000 transakcji	0,0015 USD
Ulepszone funkcje dodatku dla uziemienia obiektów	1,50 USD / 1000 transakcji	0,0015 USD
Tokeny wyjściowe	100 tokenów (zakładane)	0,003 USD
Łącznie		0,00955 USD

Ograniczenia danych wejściowych

W tej sekcji opisano ograniczenia modeli czatów z obsługą obrazów.

Obsługa obrazów

Maksymalny rozmiar obrazu wejściowego: maksymalny rozmiar obrazów wejściowych jest ograniczony do 20 MB.
Dokładność niskiej rozdzielczości: gdy obrazy są analizowane przy użyciu ustawienia "niskiej rozdzielczości", umożliwia szybsze reagowanie i używa mniejszej liczby tokenów wejściowych w niektórych przypadkach użycia. Może to jednak mieć wpływ na dokładność rozpoznawania obiektu i tekstu na obrazie.
Ograniczenie czatu obrazów: w przypadku przekazywania obrazów w portalu usługi Azure AI Foundry lub interfejsu API istnieje limit 10 obrazów na rozmowę.

Następne kroki

Rozpocznij korzystanie z modeli z obsługą obrazów, postępując zgodnie z przewodnikiem Szybki start.
Aby uzyskać bardziej szczegółowe informacje na temat interfejsów API, postępuj zgodnie z przewodnikiem z instrukcjami.
Zobacz dokumentację interfejsu API uzupełniania i osadzania

Udostępnij za pośrednictwem