共用方式為


將檔案檔案載入 Azure Cosmos DB 以進行搜尋

注意

Azure Cosmos DB 的文件擷取處於私人預覽狀態。 如果您要加入預覽版,建議您透過簽署此表單來加入等候清單: https://aka.ms/Doc2CDBSignup

我們推出了 Doc2CDB for Azure Cosmos DB,這是一個功能強大的加速器,旨在簡化大量文字資料的擷取、前置處理和管理,以進行向量相似性搜尋。 此解決方案使用 Azure Cosmos DB 的進階向量索引功能,並由 Azure AI 服務提供技術支援,以強固且有效率的管線,輕鬆設定及完善眾多使用案例,包括:

  • 文字資料的向量相似性搜尋。 從文件資料擷取和向量化文字,以儲存在 Azure Cosmos DB 中,讓您能夠輕鬆地執行語意搜尋,以尋找與查詢內容相關的文件。 這可讓他們探索透過傳統關鍵字搜尋可能無法找到的相關資訊,以輔助更全面的資料擷取。

  • 文件的擷取增強產生 (RAG)。 使用 RAG 在資料中個人化運用小型和大型語言模型。 從文件檔案中擷取文字、區塊化和向量化資料,然後將其儲存在 Azure Cosmos DB 中,然後進行設定,讓聊天機器人產生更準確且內容相關的案例回應。 您提出問題時,聊天機器人會透過向量搜尋來擷取最相關的文字區塊,並將其用於產生以文件資料為依據的答案。

Cosmos AI Graph 基礎結構、元件和流程的圖表。

端對端管線

Doc2CDB 在其管線中包含若干關鍵階段:

  1. 將檔案上傳至 Azure Blob 儲存體
    • 此程序從將文件上傳至 Azure Blob 儲存體開始。 此階段可確保您的檔案會安全儲存且易於存取,以便進一步處理。 這與 PDF、Microsoft Office 文件 (DOCX、XLSX、PPTX、HTML) 和影像 (JPEG、PNG、BMP、TIFF、HEIF) 相容。
  2. 文字擷取
    • 上傳檔案之後,下一個步驟是文字擷取。 這涉及使用 Azure 文件智慧服務來剖析文字資料,以及在文件上執行 OCR,以擷取可在 Azure Cosmos DB 中處理和編製索引的文字。 此階段對於準備資料供後續處理至關重要。
  3. 文字區塊化
    • 擷取之後,原始文字會細分為可管理的區塊。 此區塊化程序對於在 Azure AI 中啟用小型和大型語言模型 (SLM/LLM),以有效地處理文字至關重要。 藉由將文字分割為較小的片段,我們可確保資料更便於存取且更容易處理。
  4. 文字內嵌
    • 在次階段中,Azure OpenAI 服務的 text-3-embedding-large 模型可用於產生文字區塊的向量內嵌。 這些內嵌會擷取文字的語意意義,以允許更複雜且準確的搜尋。 內嵌是啟用進階搜尋功能的重要元件。
  5. 文字儲存
    • 最後,每個文字區塊及其對應的向量內嵌,都會作為唯一文件儲存在 Azure Cosmos DB for NoSQL 容器中。 此容器已設定為執行有效的向量搜尋,最後為全文檢索搜尋。 藉由使用 Azure Cosmos DB 強大的向量編製索引和搜尋功能,使用者可快速且輕鬆地從其文字資料擷取相關資訊。

Doc2CDB 解決方案加速器的優勢

  • 可擴縮性:得益於 Azure AI 服務和 Azure Cosmos DB 的可調整本質,輕鬆處理大量的文字資料
  • 高效率:簡化文字處理管線,減少管理和搜尋文字資料所需的時間和精力。 這會為您預先設定
  • 進階搜尋功能:在 Azure Cosmos DB 中使用超快速且有效的向量編製索引來執行向量搜尋,以從您的文件中尋找最語意相關的資料

開始使用

Doc2CDB 加速器旨在協助您更輕鬆地剖析、處理及儲存文件資料,以利用 Azure Cosmos DB 豐富的查詢語言和強大的向量相似性搜尋。 請造訪 https://aka.ms/Doc2CDB 並立即試試看!

後續步驟