Vision-kompatibilis csevegőmodellek használata

Cikk
02/25/2025

A vision-kompatibilis csevegőmodellek az OpenAI által kifejlesztett nagyméretű multimodális modellek (LMM), amelyek képeket elemezhetnek, és szöveges válaszokat adhatnak a velük kapcsolatos kérdésekre. A természetes nyelvi feldolgozást és a vizuális megértést is magukban foglalják. A jelenlegi vision-kompatibilis modellek o1, GPT-4o, GPT-4o-mini és GPT-4 Turbo with Vision.

A látásra képes modellek általános kérdésekre is választ kaphatnak a feltöltött képeken található adatokról.

Tipp.

A vision-kompatibilis modellek használatához meghívja a Chat Completion API-t egy támogatott modellen, amelyet üzembe helyezett. Ha nem ismeri a Csevegés befejezése API-t, tekintse meg a Vision-kompatibilis csevegés útmutatóját.

A csevegés befejezésére vonatkozó API-k meghívása

Az alábbi parancs bemutatja a látásalapú csevegőmodellek kóddal való használatának legalapvetőbb módját. Ha ez az első alkalom, hogy programozott módon használja ezeket a modelleket, javasoljuk, hogy kezdje a Csevegés képekkel rövid útmutatót.

REST
Python

POST-kérés küldése oda, https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/chat/completions?api-version=2024-02-15-preview ahol

RESOURCE_NAME az Azure OpenAI-erőforrás neve
DEPLOYMENT_NAME a modell üzembe helyezésének neve

Szükséges fejlécek:

Content-Type: application/json
api-key: {API_KEY}

Törzs: A következő egy mintakérés törzse. A formátum megegyezik a GPT-4 csevegővégzítési API-jának formátumával, azzal a különbségpel, hogy az üzenet tartalma lehet szövegeket és képeket tartalmazó tömb (egy kép érvényes HTTP- vagy HTTPS-URL-címe, vagy egy 64-es alapkódú kép).

Fontos

Ne felejtsen el beállítani egy "max_tokens" értéket, vagy a visszatérési kimenet ki lesz vágva.

Fontos

Képek feltöltése esetén a csevegési kérésenként legfeljebb 10 kép lehet.

{
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user", 
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url": "<image URL>"
                    }
                } 
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
}

Határozza meg az Azure OpenAI-erőforrásvégpontot és -kulcsot.
Adja meg a modell üzembe helyezésének nevét.

Hozzon létre egy ügyfélobjektumot ezekkel az értékekkel.

api_base = '<your_azure_openai_endpoint>' # your endpoint should look like the following https://YOUR_RESOURCE_NAME.openai.azure.com/
api_key="<your_azure_openai_key>"
deployment_name = '<your_deployment_name>'
api_version = '2024-02-15-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}openai/deployments/{deployment_name}",
)

Ezután hívja meg az ügyfél létrehozási metódusát. Az alábbi kód egy mintakérés törzsét mutatja be. A formátum megegyezik a GPT-4 csevegővégzítési API-jának formátumával, azzal a különbségpel, hogy az üzenet tartalma lehet szövegeket és képeket tartalmazó tömb (egy kép érvényes HTTP- vagy HTTPS-URL-címe, vagy egy 64-es alapkódú kép).

Fontos

Ne felejtsen el beállítani egy "max_tokens" értéket, vagy a visszatérési kimenet ki lesz vágva.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    max_tokens=2000 
)
print(response)

Tipp.

Helyi rendszerkép használata

Ha helyi rendszerképet szeretne használni, a következő Python-kóddal konvertálhatja base64-re, hogy át lehessen adni az API-nak. Alternatív fájlkonvertálási eszközök érhetők el online.

import base64
from mimetypes import guess_type

# Function to encode a local image into data URL 
def local_image_to_data_url(image_path):
    # Guess the MIME type of the image based on the file extension
    mime_type, _ = guess_type(image_path)
    if mime_type is None:
        mime_type = 'application/octet-stream'  # Default MIME type if none is found

    # Read and encode the image file
    with open(image_path, "rb") as image_file:
        base64_encoded_data = base64.b64encode(image_file.read()).decode('utf-8')

    # Construct the data URL
    return f"data:{mime_type};base64,{base64_encoded_data}"

# Example usage
image_path = '<path_to_image>'
data_url = local_image_to_data_url(image_path)
print("Data URL:", data_url)

Ha a base64-es rendszerkép adatai készen állnak, a következő módon továbbíthatja az API-nak a kérelem törzsében:

...
"type": "image_url",
"image_url": {
   "url": "data:image/jpeg;base64,<your_image_data>"
}
...

Hozam

Az API-válasznak az alábbihoz hasonlóan kell kinéznie.

{
    "id": "chatcmpl-8VAVx58veW9RCm5K1ttmxU6Cm4XDX",
    "object": "chat.completion",
    "created": 1702439277,
    "model": "gpt-4",
    "prompt_filter_results": [
        {
            "prompt_index": 0,
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "choices": [
        {
            "finish_reason":"stop",
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "The picture shows an individual dressed in formal attire, which includes a black tuxedo with a black bow tie. There is an American flag on the left lapel of the individual's jacket. The background is predominantly blue with white text that reads \"THE KENNEDY PROFILE IN COURAGE AWARD\" and there are also visible elements of the flag of the United States placed behind the individual."
            },
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "usage": {
        "prompt_tokens": 1156,
        "completion_tokens": 80,
        "total_tokens": 1236
    }
}

Minden válasz tartalmaz egy "finish_reason" mezőt. A következő lehetséges értékekkel rendelkezik:

stop: Az API teljes modellkimenetet adott vissza.
length: Hiányos modellkimenet a bemeneti paraméter vagy a max_tokens modell jogkivonatkorlátja miatt.
content_filter: A tartalomszűrők jelölője miatt kihagyott tartalmat.

Részletes paraméterbeállítások a képfeldolgozásban: Alacsony, Magas, Automatikus

A modell részletparamétere három lehetőséget kínál: lowhighautoa rendszerképek értelmezésének és folyamatának módosítására. Az alapértelmezett beállítás az automatikus, ahol a modell a képbemenet méretétől függően alacsony vagy magas között dönt.

low beállítás: a modell nem aktiválja a "magas res" módot, hanem egy alacsonyabb felbontású, 512x512-es verziót dolgoz fel, ami gyorsabb válaszokat és kevesebb jogkivonat-használatot eredményez olyan helyzetekben, ahol a részletesség nem fontos.
high beállítás: a modell aktiválja a "magas res" módot. Itt a modell először az alacsony felbontású képet tekinti meg, majd részletes 512x512 szegmenst hoz létre a bemeneti képből. Minden szegmens a jogkivonat költségvetésének kétszeresét használja, lehetővé téve a kép részletesebb értelmezését.""

A képparaméterek a használt jogkivonatokra és a díjszabásra gyakorolt hatásáról a – Mi az Azure OpenAI? Kép jogkivonatai

Hozam

A modelltől kapott csevegési válaszoknak mostantól továbbfejlesztett információkat kell tartalmazniuk a képről, például az objektumfeliratokat és a határolókereteket, valamint az OCR-eredményeket. Az API-válasznak az alábbihoz hasonlóan kell kinéznie.

{
    "id": "chatcmpl-8UyuhLfzwTj34zpevT3tWlVIgCpPg",
    "object": "chat.completion",
    "created": 1702394683,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_reason": {
                "type": "stop",
                "stop": "<|fim_suffix|>"
            },
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair."
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 816,
        "completion_tokens": 49,
        "total_tokens": 865
    }
}

Minden válasz tartalmaz egy "finish_reason" mezőt. A következő lehetséges értékekkel rendelkezik:

stop: Az API teljes modellkimenetet adott vissza.
length: Hiányos modellkimenet a bemeneti paraméter vagy a max_tokens modell jogkivonatkorlátja miatt.
content_filter: A tartalomszűrők jelölője miatt kihagyott tartalmat.

GPT-4 Turbo modell frissítése

A GPT-4 Turbo legújabb GA kiadása a következő:

gpt-4 Verzió:turbo-2024-04-09

Ez a következő előzetes modellek lecserélése:

gpt-4 Verzió:1106-Preview
gpt-4 Verzió:0125-Preview
gpt-4 Verzió:vision-preview

Az OpenAI és az Azure OpenAI GPT-4 Turbo GA modellek közötti különbségek

Az OpenAI legújabb 0409 turbómodell verziója támogatja a JSON módot és a függvényeket, amelyek minden következtetési kérést meghívnak.
Az Azure OpenAI legújabb turbo-2024-04-09 verziója jelenleg nem támogatja a JSON mód és a függvényhívás használatát, amikor következtetési kérelmeket készít képi (vision) bemenettel. A szövegalapú bemeneti kérések (képek nélküli image_url és beágyazott kérések) támogatják a JSON-módot és a függvényhívást.

Különbségek a gpt-4 vision-preview-tól

Az Azure AI-specifikus Vision fejlesztései a GPT-4 Turbo és a Vision együttműködésével nem támogatottak a verzióhoz gpt-4:turbo-2024-04-09. Ez magában foglalja az optikai karakterfelismerést (OCR), az objektumok földelését, a videoüzeneteket és az adatok képekkel való jobb kezelését.

Fontos

Vision fejlesztések előzetes funkciók, beleértve az optikai karakterfelismerés (OCR), objektum földelés, video parancssorok lesznek kivonva, és már nem érhető el, ha gpt-4 verzió: vision-preview frissítve turbo-2024-04-09van. Ha jelenleg ezen előzetes verziójú funkciók bármelyikére támaszkodik, ez az automatikus modellfrissítés kompatibilitástörő változás lesz.

GPT-4 Turbo kiosztott felügyelt rendelkezésre állás

gpt-4 Verzió:turbo-2024-04-09 standard és kiépített üzemelő példányokhoz is elérhető. A modell kiépített verziója jelenleg nem támogatja a kép-/látásbeli következtetési kérelmeket. A modell kiépített üzembe helyezései csak szöveges bemeneteket fogadnak el. A standard modelltelepítések szöveges és képi/látási következtetési kéréseket is elfogadnak.

A GPT-4 Turbo üzembe helyezése a Vision GA-val

A GA-modell üzembe helyezéséhez az Azure AI Foundry portálon válassza ki GPT-4 , majd válassza ki a turbo-2024-04-09 verziót a legördülő menüből. A modell alapértelmezett kvótája megegyezik a gpt-4-turbo-2024-04-09 GPT-4-Turbo jelenlegi kvótával. Tekintse meg a regionális kvótakorlátokat.

Megosztás a következőn keresztül:

Vision-kompatibilis csevegőmodellek használata

A csevegés befejezésére vonatkozó API-k meghívása

Helyi rendszerkép használata

Hozam

Részletes paraméterbeállítások a képfeldolgozásban: Alacsony, Magas, Automatikus

Hozam

GPT-4 Turbo modell frissítése

Az OpenAI és az Azure OpenAI GPT-4 Turbo GA modellek közötti különbségek

Különbségek a gpt-4 vision-preview-tól

GPT-4 Turbo kiosztott felügyelt rendelkezésre állás

A GPT-4 Turbo üzembe helyezése a Vision GA-val

Következő lépések

Visszajelzés

További források