將檔案檔案載入 Azure Cosmos DB 以進行搜尋

發行項
12/18/2024
適用於:

✅ NoSQL

注意

Azure Cosmos DB 的文件擷取處於私人預覽狀態。如果您要加入預覽版，建議您透過簽署此表單來加入等候清單： https://aka.ms/Doc2CDBSignup

我們推出了 Doc2CDB for Azure Cosmos DB，這是一個功能強大的加速器，旨在簡化大量文字資料的擷取、前置處理和管理，以進行向量相似性搜尋。此解決方案使用 Azure Cosmos DB 的進階向量索引功能，並由 Azure AI 服務提供技術支援，以強固且有效率的管線，輕鬆設定及完善眾多使用案例，包括：

文字資料的向量相似性搜尋。從文件資料擷取和向量化文字，以儲存在 Azure Cosmos DB 中，讓您能夠輕鬆地執行語意搜尋，以尋找與查詢內容相關的文件。這可讓他們探索透過傳統關鍵字搜尋可能無法找到的相關資訊，以輔助更全面的資料擷取。
文件的擷取增強產生 (RAG)。使用 RAG 在資料中個人化運用小型和大型語言模型。從文件檔案中擷取文字、區塊化和向量化資料，然後將其儲存在 Azure Cosmos DB 中，然後進行設定，讓聊天機器人產生更準確且內容相關的案例回應。您提出問題時，聊天機器人會透過向量搜尋來擷取最相關的文字區塊，並將其用於產生以文件資料為依據的答案。

Cosmos AI Graph 基礎結構、元件和流程的圖表。

端對端管線

Doc2CDB 在其管線中包含若干關鍵階段：

將檔案上傳至 Azure Blob 儲存體
- 此程序從將文件上傳至 Azure Blob 儲存體開始。此階段可確保您的檔案會安全儲存且易於存取，以便進一步處理。這與 PDF、Microsoft Office 文件 (DOCX、XLSX、PPTX、HTML) 和影像 (JPEG、PNG、BMP、TIFF、HEIF) 相容。
文字擷取
- 上傳檔案之後，下一個步驟是文字擷取。這涉及使用 Azure 文件智慧服務來剖析文字資料，以及在文件上執行 OCR，以擷取可在 Azure Cosmos DB 中處理和編製索引的文字。此階段對於準備資料供後續處理至關重要。
文字區塊化
- 擷取之後，原始文字會細分為可管理的區塊。此區塊化程序對於在 Azure AI 中啟用小型和大型語言模型 (SLM/LLM)，以有效地處理文字至關重要。藉由將文字分割為較小的片段，我們可確保資料更便於存取且更容易處理。
文字內嵌
- 在次階段中，Azure OpenAI 服務的 text-3-embedding-large 模型可用於產生文字區塊的向量內嵌。這些內嵌會擷取文字的語意意義，以允許更複雜且準確的搜尋。內嵌是啟用進階搜尋功能的重要元件。
文字儲存
- 最後，每個文字區塊及其對應的向量內嵌，都會作為唯一文件儲存在 Azure Cosmos DB for NoSQL 容器中。此容器已設定為執行有效的向量搜尋，最後為全文檢索搜尋。藉由使用 Azure Cosmos DB 強大的向量編製索引和搜尋功能，使用者可快速且輕鬆地從其文字資料擷取相關資訊。

Doc2CDB 解決方案加速器的優勢

可擴縮性：得益於 Azure AI 服務和 Azure Cosmos DB 的可調整本質，輕鬆處理大量的文字資料
高效率：簡化文字處理管線，減少管理和搜尋文字資料所需的時間和精力。這會為您預先設定
進階搜尋功能：在 Azure Cosmos DB 中使用超快速且有效的向量編製索引來執行向量搜尋，以從您的文件中尋找最語意相關的資料

開始使用

Doc2CDB 加速器旨在協助您更輕鬆地剖析、處理及儲存文件資料，以利用 Azure Cosmos DB 豐富的查詢語言和強大的向量相似性搜尋。請造訪 https://aka.ms/Doc2CDB 並立即試試看！

後續步驟

使用 Azure Cosmos DB 存留期免費層

共用方式為

將檔案檔案載入 Azure Cosmos DB 以進行搜尋

端對端管線

Doc2CDB 解決方案加速器的優勢

開始使用

後續步驟

意見反應

其他資源

共用方式為

將檔案檔案載入 Azure Cosmos DB 以進行搜尋

端對端管線

Doc2CDB 解決方案加速器的優勢

開始使用

相關內容

後續步驟

意見反應

其他資源