Vision-fähige Chatmodellkonzepte

Artikel
03/03/2025

Vision-fähige Chat-Modelle sind große multimodale Modelle (LMM), die von OpenAI entwickelt wurden. Sie können Bilder analysieren und textuelle Antworten auf Fragen zu diesen Bildern geben. Es umfasst sowohl die Verarbeitung natürlicher Sprache als auch das visuelle Verständnis. Die aktuellen Vision-fähigen Modelle sind GPT-4 Turbo mit Vision, GPT-4o und GPT-4o-mini. Dieser Leitfaden enthält Details zu ihren Funktionen und Einschränkungen.

Um Vision-fähige Chatmodelle auszuprobieren, lesen Sie den Schnellstart.

Vision-fähige Chats

Die Vision-fähigen Modelle beantworten allgemeine Fragen zu den Inhalten der hochgeladenen Bilder.

Spezielle Preisinformationen

Wichtig

Diese Preisdetails können sich in Zukunft ändern.

Für Vision-fähige Modelle entstehen genau wie durch andere Azure OpenAI-Chatmodelle Gebühren. Sie zahlen einen tokenbasierten Preis für die Prompts und Vervollständigungen, was auf der Preisseite beschrieben wird. Die Grundgebühren und zusätzlichen Features sind hier aufgeführt:

Basispreise für GPT-4 Turbo mit Vision sind:

Eingabe: 0,01 $ pro 1000 Token
Ausgabe: 0,03 $ pro 1000 Token

Im Abschnitt Token der Übersicht finden Sie Informationen dazu, wie Text und Bilder in Token übersetzt werden.

Beispielbild für eine Preisberechnung

Wichtig

Der folgende Inhalt ist nur ein Beispiel, und die Preise können sich in Zukunft ändern.

Erstellen Sie für einen typischen Anwendungsfall ein Bild mit sichtbaren Objekten und Text und einer Eingabe mit 100 Token-Eingabeaufforderungen. Wenn der Dienst die Aufforderung verarbeitet, generiert er 100 Token der Ausgabe. In dem Bild können sowohl Text als auch Objekte erkannt werden. Der Preis für diese Transaktion wäre:

Element	Detail	Kosten
Eingabe der Texteingabeaufforderung	100 Texttoken	$0.001
Beispiel für Bildeingabe (siehe Bildtoken)	170 + 85 Bildtoken	0,00255 USD
Erweiterte Add-On-Features für OCR	1,50 $/1000 Transaktionen	0,0015 $
Erweiterte Add-On-Features für Objektgrounding	1,50 $/1000 Transaktionen	0,0015 $
256 Ausgabetoken	100 Token (angenommen)	0,003 $
Gesamt		0,00955 USD

Eingabebeschränkungen

In diesem Abschnitt werden die Einschränkungen von Vision-fähigen Chatmodellen beschrieben.

Bildunterstützung

Maximale Eingabebildgröße: Die maximale Größe der Eingabebilder ist auf 20 MB beschränkt.
Niedrige Auflösungsgenauigkeit: Wenn Bilder mithilfe der Einstellung „Niedrige Auflösung“ analysiert werden, sind schnellere Antworten möglich, und es werden weniger Eingabetoken für bestimmte Anwendungsfälle verwendet. Dies kann sich jedoch auf die Genauigkeit der Objekt- und Texterkennung innerhalb des Bilds auswirken.
Einschränkung des Bildchats: Wenn Sie Bilder im Azure KI Foundry-Portal oder der API hochladen, gibt es eine Beschränkung von 10 Bildern pro Chataufruf.

Nächste Schritte

Legen Sie mit Vision-fähigen Modellen los, indem Sie den Schnellstart befolgen.
Wenn Sie sich genauer mit den APIs befassen möchten, folgen Sie der Schrittanleitung.
Weitere Informationen finden Sie unter API-Referenz zu Vervollständigungen und Einbettungen.

Teilen über