Teilen über


Vision-fähige Chatmodellkonzepte

Vision-fähige Chat-Modelle sind große multimodale Modelle (LMM), die von OpenAI entwickelt wurden. Sie können Bilder analysieren und textuelle Antworten auf Fragen zu diesen Bildern geben. Es umfasst sowohl die Verarbeitung natürlicher Sprache als auch das visuelle Verständnis. Die aktuellen Vision-fähigen Modelle sind GPT-4 Turbo mit Vision, GPT-4o und GPT-4o-mini. Dieser Leitfaden enthält Details zu ihren Funktionen und Einschränkungen.

Um Vision-fähige Chatmodelle auszuprobieren, lesen Sie den Schnellstart.

Vision-fähige Chats

Die Vision-fähigen Modelle beantworten allgemeine Fragen zu den Inhalten der hochgeladenen Bilder.

Spezielle Preisinformationen

Wichtig

Diese Preisdetails können sich in Zukunft ändern.

Für Vision-fähige Modelle entstehen genau wie durch andere Azure OpenAI-Chatmodelle Gebühren. Sie zahlen einen tokenbasierten Preis für die Prompts und Vervollständigungen, was auf der Preisseite beschrieben wird. Die Grundgebühren und zusätzlichen Features sind hier aufgeführt:

Basispreise für GPT-4 Turbo mit Vision sind:

  • Eingabe: 0,01 $ pro 1000 Token
  • Ausgabe: 0,03 $ pro 1000 Token

Im Abschnitt Token der Übersicht finden Sie Informationen dazu, wie Text und Bilder in Token übersetzt werden.

Beispielbild für eine Preisberechnung

Wichtig

Der folgende Inhalt ist nur ein Beispiel, und die Preise können sich in Zukunft ändern.

Erstellen Sie für einen typischen Anwendungsfall ein Bild mit sichtbaren Objekten und Text und einer Eingabe mit 100 Token-Eingabeaufforderungen. Wenn der Dienst die Aufforderung verarbeitet, generiert er 100 Token der Ausgabe. In dem Bild können sowohl Text als auch Objekte erkannt werden. Der Preis für diese Transaktion wäre:

Element Detail Kosten
Eingabe der Texteingabeaufforderung 100 Texttoken $0.001
Beispiel für Bildeingabe (siehe Bildtoken) 170 + 85 Bildtoken 0,00255 USD
Erweiterte Add-On-Features für OCR 1,50 $/1000 Transaktionen 0,0015 $
Erweiterte Add-On-Features für Objektgrounding 1,50 $/1000 Transaktionen 0,0015 $
256 Ausgabetoken 100 Token (angenommen) 0,003 $
Gesamt 0,00955 USD

Eingabebeschränkungen

In diesem Abschnitt werden die Einschränkungen von Vision-fähigen Chatmodellen beschrieben.

Bildunterstützung

  • Maximale Eingabebildgröße: Die maximale Größe der Eingabebilder ist auf 20 MB beschränkt.
  • Niedrige Auflösungsgenauigkeit: Wenn Bilder mithilfe der Einstellung „Niedrige Auflösung“ analysiert werden, sind schnellere Antworten möglich, und es werden weniger Eingabetoken für bestimmte Anwendungsfälle verwendet. Dies kann sich jedoch auf die Genauigkeit der Objekt- und Texterkennung innerhalb des Bilds auswirken.
  • Einschränkung des Bildchats: Wenn Sie Bilder im Azure KI Foundry-Portal oder der API hochladen, gibt es eine Beschränkung von 10 Bildern pro Chataufruf.

Nächste Schritte