Azure Cosmos DB 中的向量內嵌
向量也稱為內嵌或向量內嵌,是高維度空間中資料的數學表示法。 這些代表不同類型的資訊 (文字、影像、音訊等),是機器學習模型可以處理的格式。 AI 模型收到文字輸入時,會先將文字標記化為 Token。 然後,每個 Token 都會轉換成其對應的內嵌。 此轉換程序可以使用內嵌產生模型來完成,例如 Azure OpenAI 內嵌 或 Hugging Face on Azure。 模型會透過多層級來處理這些內嵌,擷取文字中的複雜模式和關聯性。 然後,您可以視需要將輸出內嵌轉換成 Token,產生可讀取的文字。
向量
每個內嵌都是浮點數的向量,因此向量空間中兩個內嵌之間的距離會與原始格式兩個輸入之間的語意相似性相互關聯。 舉例來說,兩段類似文字的向量表示法也應該會相似。 這些高維度表示法會擷取語意意義,讓您更輕鬆地執行搜尋、叢集和分類等工作。
以下是兩個以向量表示的文字範例:
影像來源: OpenAI
維度和接近度
每個包含浮點數的方塊都會對應至維度,而每個維度都會對應至可能或無法理解為人類的特徵或屬性。 大型語言模型文字內嵌通常有幾千個維度,而更複雜的資料模型可能會有數萬個維度。
在上述範例中的兩個向量之間,有些維度是相似的,而其他維度則不同,這是因為這兩個語詞的意義有相似和差異之處。
下圖顯示相似向量的空間接近度,以及截然不同的對比向量:
影像來源: OpenAI
範例
您可以在此互動式視覺效果中看到更多範例,其將資料轉換成三維空間。