Vision-kompatibilis csevegőmodellek használata
A vision-kompatibilis csevegőmodellek az OpenAI által kifejlesztett nagyméretű multimodális modellek (LMM), amelyek képeket elemezhetnek, és szöveges válaszokat adhatnak a velük kapcsolatos kérdésekre. A természetes nyelvi feldolgozást és a vizuális megértést is magukban foglalják. A jelenlegi vision-kompatibilis modellek o1, GPT-4o, GPT-4o-mini és GPT-4 Turbo with Vision.
A látásra képes modellek általános kérdésekre is választ kaphatnak a feltöltött képeken található adatokról.
Tipp.
A vision-kompatibilis modellek használatához meghívja a Chat Completion API-t egy támogatott modellen, amelyet üzembe helyezett. Ha nem ismeri a Csevegés befejezése API-t, tekintse meg a Vision-kompatibilis csevegés útmutatóját.
A csevegés befejezésére vonatkozó API-k meghívása
Az alábbi parancs bemutatja a látásalapú csevegőmodellek kóddal való használatának legalapvetőbb módját. Ha ez az első alkalom, hogy programozott módon használja ezeket a modelleket, javasoljuk, hogy kezdje a Csevegés képekkel rövid útmutatót.
POST-kérés küldése oda, https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/chat/completions?api-version=2024-02-15-preview
ahol
- RESOURCE_NAME az Azure OpenAI-erőforrás neve
- DEPLOYMENT_NAME a modell üzembe helyezésének neve
Szükséges fejlécek:
-
Content-Type
: application/json -
api-key
: {API_KEY}
Törzs: A következő egy mintakérés törzse. A formátum megegyezik a GPT-4 csevegővégzítési API-jának formátumával, azzal a különbségpel, hogy az üzenet tartalma lehet szövegeket és képeket tartalmazó tömb (egy kép érvényes HTTP- vagy HTTPS-URL-címe, vagy egy 64-es alapkódú kép).
Fontos
Ne felejtsen el beállítani egy "max_tokens"
értéket, vagy a visszatérési kimenet ki lesz vágva.
Fontos
Képek feltöltése esetén a csevegési kérésenként legfeljebb 10 kép lehet.
{
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "Describe this picture:"
},
{
"type": "image_url",
"image_url": {
"url": "<image URL>"
}
}
]
}
],
"max_tokens": 100,
"stream": false
}
Tipp.
Helyi rendszerkép használata
Ha helyi rendszerképet szeretne használni, a következő Python-kóddal konvertálhatja base64-re, hogy át lehessen adni az API-nak. Alternatív fájlkonvertálási eszközök érhetők el online.
import base64
from mimetypes import guess_type
# Function to encode a local image into data URL
def local_image_to_data_url(image_path):
# Guess the MIME type of the image based on the file extension
mime_type, _ = guess_type(image_path)
if mime_type is None:
mime_type = 'application/octet-stream' # Default MIME type if none is found
# Read and encode the image file
with open(image_path, "rb") as image_file:
base64_encoded_data = base64.b64encode(image_file.read()).decode('utf-8')
# Construct the data URL
return f"data:{mime_type};base64,{base64_encoded_data}"
# Example usage
image_path = '<path_to_image>'
data_url = local_image_to_data_url(image_path)
print("Data URL:", data_url)
Ha a base64-es rendszerkép adatai készen állnak, a következő módon továbbíthatja az API-nak a kérelem törzsében:
...
"type": "image_url",
"image_url": {
"url": "data:image/jpeg;base64,<your_image_data>"
}
...
Hozam
Az API-válasznak az alábbihoz hasonlóan kell kinéznie.
{
"id": "chatcmpl-8VAVx58veW9RCm5K1ttmxU6Cm4XDX",
"object": "chat.completion",
"created": 1702439277,
"model": "gpt-4",
"prompt_filter_results": [
{
"prompt_index": 0,
"content_filter_results": {
"hate": {
"filtered": false,
"severity": "safe"
},
"self_harm": {
"filtered": false,
"severity": "safe"
},
"sexual": {
"filtered": false,
"severity": "safe"
},
"violence": {
"filtered": false,
"severity": "safe"
}
}
}
],
"choices": [
{
"finish_reason":"stop",
"index": 0,
"message": {
"role": "assistant",
"content": "The picture shows an individual dressed in formal attire, which includes a black tuxedo with a black bow tie. There is an American flag on the left lapel of the individual's jacket. The background is predominantly blue with white text that reads \"THE KENNEDY PROFILE IN COURAGE AWARD\" and there are also visible elements of the flag of the United States placed behind the individual."
},
"content_filter_results": {
"hate": {
"filtered": false,
"severity": "safe"
},
"self_harm": {
"filtered": false,
"severity": "safe"
},
"sexual": {
"filtered": false,
"severity": "safe"
},
"violence": {
"filtered": false,
"severity": "safe"
}
}
}
],
"usage": {
"prompt_tokens": 1156,
"completion_tokens": 80,
"total_tokens": 1236
}
}
Minden válasz tartalmaz egy "finish_reason"
mezőt. A következő lehetséges értékekkel rendelkezik:
-
stop
: Az API teljes modellkimenetet adott vissza. -
length
: Hiányos modellkimenet a bemeneti paraméter vagy amax_tokens
modell jogkivonatkorlátja miatt. -
content_filter
: A tartalomszűrők jelölője miatt kihagyott tartalmat.
Részletes paraméterbeállítások a képfeldolgozásban: Alacsony, Magas, Automatikus
A modell részletparamétere három lehetőséget kínál: low
high
auto
a rendszerképek értelmezésének és folyamatának módosítására. Az alapértelmezett beállítás az automatikus, ahol a modell a képbemenet méretétől függően alacsony vagy magas között dönt.
-
low
beállítás: a modell nem aktiválja a "magas res" módot, hanem egy alacsonyabb felbontású, 512x512-es verziót dolgoz fel, ami gyorsabb válaszokat és kevesebb jogkivonat-használatot eredményez olyan helyzetekben, ahol a részletesség nem fontos. -
high
beállítás: a modell aktiválja a "magas res" módot. Itt a modell először az alacsony felbontású képet tekinti meg, majd részletes 512x512 szegmenst hoz létre a bemeneti képből. Minden szegmens a jogkivonat költségvetésének kétszeresét használja, lehetővé téve a kép részletesebb értelmezését.""
A képparaméterek a használt jogkivonatokra és a díjszabásra gyakorolt hatásáról a – Mi az Azure OpenAI? Kép jogkivonatai
Hozam
A modelltől kapott csevegési válaszoknak mostantól továbbfejlesztett információkat kell tartalmazniuk a képről, például az objektumfeliratokat és a határolókereteket, valamint az OCR-eredményeket. Az API-válasznak az alábbihoz hasonlóan kell kinéznie.
{
"id": "chatcmpl-8UyuhLfzwTj34zpevT3tWlVIgCpPg",
"object": "chat.completion",
"created": 1702394683,
"model": "gpt-4",
"choices":
[
{
"finish_reason": {
"type": "stop",
"stop": "<|fim_suffix|>"
},
"index": 0,
"message":
{
"role": "assistant",
"content": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair."
}
}
],
"usage":
{
"prompt_tokens": 816,
"completion_tokens": 49,
"total_tokens": 865
}
}
Minden válasz tartalmaz egy "finish_reason"
mezőt. A következő lehetséges értékekkel rendelkezik:
-
stop
: Az API teljes modellkimenetet adott vissza. -
length
: Hiányos modellkimenet a bemeneti paraméter vagy amax_tokens
modell jogkivonatkorlátja miatt. -
content_filter
: A tartalomszűrők jelölője miatt kihagyott tartalmat.
GPT-4 Turbo modell frissítése
A GPT-4 Turbo legújabb GA kiadása a következő:
-
gpt-4
Verzió:turbo-2024-04-09
Ez a következő előzetes modellek lecserélése:
-
gpt-4
Verzió:1106-Preview
-
gpt-4
Verzió:0125-Preview
-
gpt-4
Verzió:vision-preview
Az OpenAI és az Azure OpenAI GPT-4 Turbo GA modellek közötti különbségek
- Az OpenAI legújabb
0409
turbómodell verziója támogatja a JSON módot és a függvényeket, amelyek minden következtetési kérést meghívnak. - Az Azure OpenAI legújabb
turbo-2024-04-09
verziója jelenleg nem támogatja a JSON mód és a függvényhívás használatát, amikor következtetési kérelmeket készít képi (vision) bemenettel. A szövegalapú bemeneti kérések (képek nélküliimage_url
és beágyazott kérések) támogatják a JSON-módot és a függvényhívást.
Különbségek a gpt-4 vision-preview-tól
- Az Azure AI-specifikus Vision fejlesztései a GPT-4 Turbo és a Vision együttműködésével nem támogatottak a verzióhoz
gpt-4
:turbo-2024-04-09
. Ez magában foglalja az optikai karakterfelismerést (OCR), az objektumok földelését, a videoüzeneteket és az adatok képekkel való jobb kezelését.
Fontos
Vision fejlesztések előzetes funkciók, beleértve az optikai karakterfelismerés (OCR), objektum földelés, video parancssorok lesznek kivonva, és már nem érhető el, ha gpt-4
verzió: vision-preview
frissítve turbo-2024-04-09
van. Ha jelenleg ezen előzetes verziójú funkciók bármelyikére támaszkodik, ez az automatikus modellfrissítés kompatibilitástörő változás lesz.
GPT-4 Turbo kiosztott felügyelt rendelkezésre állás
-
gpt-4
Verzió:turbo-2024-04-09
standard és kiépített üzemelő példányokhoz is elérhető. A modell kiépített verziója jelenleg nem támogatja a kép-/látásbeli következtetési kérelmeket. A modell kiépített üzembe helyezései csak szöveges bemeneteket fogadnak el. A standard modelltelepítések szöveges és képi/látási következtetési kéréseket is elfogadnak.
A GPT-4 Turbo üzembe helyezése a Vision GA-val
A GA-modell üzembe helyezéséhez az Azure AI Foundry portálon válassza ki GPT-4
, majd válassza ki a turbo-2024-04-09
verziót a legördülő menüből. A modell alapértelmezett kvótája megegyezik a gpt-4-turbo-2024-04-09
GPT-4-Turbo jelenlegi kvótával. Tekintse meg a regionális kvótakorlátokat.