你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
将文档文件加载到 Azure Cosmos DB 并进行处理以便进行搜索
注意
Azure Cosmos DB 的文档引入功能目前为个人预览版。 如果有兴趣参与试用该预览版,建议通过签署以下表单加入等待列表:https://aka.ms/Doc2CDBSignup
我们推出了适用于 Azure Cosmos DB 的 Doc2CDB,这是一款强大的加速器,旨在简化大规模文本数据的提取、预处理和管理,以进行矢量相似性搜索。 此解决方案使用 Azure Cosmos DB 的高级矢量索引功能,由 Azure AI 服务提供支持,提供一个可靠高效的管道,可轻松设置和非常适用于许多应用场景,包括:
通过文本数据的矢量相似性搜索。 从文档数据中提取文本并将其矢量化以存储在 Azure Cosmos DB 中,使你可以轻松地执行语义搜索以查找与查询上下文相关的文档。 这使他们能够发现传统关键词搜索可能无法找到的相关信息,从而促进更全面的数据检索。
通过文档的检索增强生成 (RAG)。 使用 RAG 根据数据对小型和大型语言模型进行个性化设置。 通过从文档文件中提取文本、对数据进行分块和向矢量化,然后将其存储在 Azure Cosmos DB 中,然后设置它,使聊天机器人能够针对你的场景生成更准确且上下文相关的响应。 提出问题时,聊天机器人通过矢量搜索检索最相关的文本片段,并使用它们生成基于你的文档数据的回答。
端到端管道
Doc2CDB 在其管道中包含几个关键阶段:
- 将文件上传到 Azure Blob 存储
- 此过程首先将文档上传到 Azure Blob 存储。 此阶段可确保文件可安全地存储,并易于访问,以便进一步处理。 这与 PDF、Microsoft Office 文档(DOCX、XLSX、PPTX、HTML)和图像(JPEG、PNG、BMP、TIFF、HEIF)兼容。
- 文本提取
- 上传文件后,下一步是文本提取。 这涉及到使用 Azure 文档智能分析文本数据和对文档执行 OCR,以提取可在 Azure Cosmos DB 中处理和编制索引的文本。 此阶段对于准备数据以供后续处理至关重要。
- 文本区块
- 提取后,原始文本将分解为可管理的区块。 此分块过程对于在 Azure AI 中启用小型和大型语言模型 (SLM/LLM) 以高效处理文本至关重要。 通过将文本划分为较小的部分,我们可确保数据更易于访问,更易于处理。
- 文本嵌入
- 在此阶段,Azure OpenAI 服务的 text-3-embedding-large 模型用于生成文本区块的矢量嵌入。 这些嵌入内容捕获文本的语义含义,从而允许更复杂且准确的搜索。 嵌入是启用高级搜索功能的关键组件。
- 文本存储
- 最后,每个文本区块及其相应的矢量嵌入作为唯一文档存储在 Azure Cosmos DB for NoSQL 容器中。 此容器配置为执行高效的矢量搜索,并最终执行全文搜索。 通过使用 Azure Cosmos DB 强大的矢量索引和搜索功能,用户可以快速轻松地从其文本数据中检索相关信息。
Doc2CDB 解决方案加速器的益处
- 可伸缩性:由于 Azure AI 服务和 Azure Cosmos DB 的可伸缩性,可以轻松处理大量文本数据
- 效率:简化文本处理管道,减少管理和搜索文本数据所需的时间和工作量。 这是为你预配置的
- 高级搜索功能:在 Azure Cosmos DB 中利用超快速高效的矢量索引执行矢量搜索,从文档中查找最语义上相关的数据
开始使用
Doc2CDB 加速器旨在帮助你更轻松地解析、处理和存储文档数据,以利用 Azure Cosmos DB 丰富的查询语言和强大的矢量相似性搜索功能。 立即访问 https://aka.ms/Doc2CDB 并试一试吧!
相关内容
- 使用 Azure Cosmos DB for NoSQL 的矢量搜索
- 标记
- 矢量嵌入
- 检索增强生成 (RAG)
- 无 Azure 订阅的 30 天免费试用版
- 通过 Azure AI Advantage 获得 90 天免费试用和高达 6,000 美元的吞吐量额度