Dela via


Vektorbäddningar i Azure Cosmos DB

Vektorer, även kallade inbäddningar eller vektorbäddningar, är matematiska representationer av data i ett högdimensionellt utrymme. De representerar olika typer av information – text, bilder, ljud – ett format som maskininlärningsmodeller kan bearbeta. När en AI-modell tar emot textindata tokeniserar den först texten till token. Varje token konverteras sedan till motsvarande inbäddning. Den här konverteringsprocessen kan göras med hjälp av en inbäddningsgenereringsmodell, till exempel Azure OpenAI-inbäddningar eller Hugging Face på Azure. Modellen bearbetar dessa inbäddningar genom flera lager och samlar in komplexa mönster och relationer i texten. Inbäddning av utdata kan sedan konverteras tillbaka till token om det behövs, vilket genererar läsbar text.

Vektorer

Varje inbäddning är en vektor med flyttalsnummer, så att avståndet mellan två inbäddningar i vektorutrymmet korreleras med semantisk likhet mellan två indata i det ursprungliga formatet. Om två texter till exempel är liknande bör deras vektorrepresentationer också vara liknande. Dessa högdimensionella representationer fångar semantisk betydelse, vilket gör det enklare att utföra uppgifter som sökning, klustring och klassificering.

Här är två exempel på texter som representeras som vektorer:

Skärmbild av vektorexempel i Azure Cosmos DB.

Bildkälla: OpenAI

Dimensioner och närhet

Varje ruta som innehåller flyttalsnummer motsvarar en dimension, och varje dimension motsvarar en funktion eller ett attribut som kan vara begripligt för människor. Textinbäddningar för stora språkmodeller har vanligtvis några tusen dimensioner, medan mer komplexa datamodeller kan ha tiotusentals dimensioner.

Mellan de två vektorerna i exemplet ovan är vissa dimensioner liknande medan andra dimensioner är olika, vilket beror på likheterna och skillnaderna i betydelsen av de två fraserna.

Den här bilden visar rumslig närhet för vektorer som är liknande, kontrasterande vektorer som skiljer sig drastiskt:

Skärmbild av vektornära i Azure Cosmos DB.

Bildkälla: OpenAI

Exempel

Du kan se fler exempel i den här interaktiva visualiseringen som omvandlar data till ett tredimensionellt utrymme.