ドキュメント ファイルを Azure Cosmos DB に読み込んで処理して検索する
Note
Azure Cosmos DB のドキュメント インジェストはプライベート プレビュー段階です。 プレビューに参加したい場合は、次のフォームに署名して待機リストに参加することをお勧めします: https://aka.ms/Doc2CDBSignup
ベクトルの類似性検索のために大量のテキスト データの抽出、前処理、管理を効率化するように設計された強力なアクセラレータである、Doc2CDB for Azure Cosmos DB を紹介します。 このソリューションは、Azure Cosmos DB の高度なベクトル インデックス作成機能を使用し、Azure AI Services を利用して、次のような多くのユース ケースに最適な、簡単に設定できる信頼性の高い効率的なパイプラインを提供します。
テキスト データに対するベクトル類似性検索。 ドキュメント データからテキストを抽出してベクター化し、Azure Cosmos DB に格納すると、セマンティック検索を簡単に実行して、クエリに関連するコンテキストのドキュメントを検索できます。 これにより、従来のキーワード検索では見つからない可能性のある関連情報を検出できるため、より包括的なデータ取得が容易になります。
ドキュメントに対する検索拡張生成 (RAG) RAG を使用して、小規模および大規模言語モデルをデータに合わせてパーソナライズします。 ドキュメント ファイルからテキストを抽出し、データをチャンクしてベクター化し、Azure Cosmos DB に格納することで、シナリオに対してより正確で、コンテキストに関連する応答を生成できるようにチャットボットを設定できます。 質問すると、チャットボットはベクトル検索によって最も関連性の高いテキスト チャンクを取得し、それらを使用して、ドキュメント データに基づいた回答を生成します。
エンド ツー エンド パイプライン
Doc2CDB のパイプラインには、いくつかの重要なステージが含まれています。
- ファイルを Azure Blob Storage にアップロード
- このプロセスは、Azure Blob Storage へのドキュメントのアップロードから始まります。 このステージにより、ファイルが安全に保存され、さらなる処理のために簡単にアクセスできるようになります。 Azure Blob Storage は、PDF、Microsoft Office ドキュメント (DOCX、XLSX、PPTX、HTML)、画像 (JPEG、PNG、BMP、TIFF、HEIF) と互換性があります。
- テキスト抽出
- ファイルをアップロードしたら、次の手順はテキスト抽出です。 この手順では、Azure Document Intelligence を使用してテキスト データを解析し、ドキュメントに対して OCR を実行して、Azure Cosmos DB で処理およびインデックス作成できるテキストを抽出する必要があります。 このステージは、後続処理用のデータを準備するために重要です。
- テキストチャンク
- 抽出後、生のテキストは管理可能なチャンクに分割されます。 このチャンク プロセスは、Azure AI で小規模および大規模言語モデル (SLB/LLM) がテキストを効率的に処理できるようにするために不可欠です。 テキストをより細かく分割することで、データのアクセシビリティが高まり、処理が容易になります。
- テキスト埋め込み
- このステージでは、Azure OpenAI Service の text-3-embedding-large モデルを使用して、テキスト チャンクのベクトル埋め込みを生成します。 これらの埋め込みでは、テキストのセマンティックな意味がキャプチャされ、より高度で正確な検索が可能になります。 埋め込み機能は、高度な検索機能を有効にするための重要なコンポーネントです。
- テキスト ストレージ
- 最後に、各テキスト チャンクとそれに対応するベクトル埋め込みは、一意のドキュメントとして Azure Cosmos DB for NoSQL コンテナーに格納されます。 このコンテナーは、効率的なベクトル検索と、最終的にはフルテキスト検索を実行するように構成されています。 Azure Cosmos DB の強力なベクトル インデックス作成と検索機能を使用することで、ユーザーはテキスト データから関連情報をすばやく簡単に取得できます。
Doc2CDB ソリューション アクセラレータの利点
- スケーラビリティ: Azure AI サービスと Azure Cosmos DB のスケーラブルな性質により、大量のテキスト データを簡単に処理できます
- 効率性: テキスト処理パイプラインを合理化し、テキスト データの管理と検索に必要な時間と労力を削減します。 これは事前構成済みです
- 高度な検索機能: Azure Cosmos DB の超高速かつ効率的なベクトル インデックス作成を利用してベクトル検索を実行し、ドキュメントから最もセマンティックな関連性の高いデータを検索します
作業の開始
Doc2CDB アクセラレータは、Azure Cosmos DB の豊富なクエリ言語と強力なベクトル類似性検索を活用して、ドキュメント データをより簡単に解析、処理、格納するように設計されています。 https://aka.ms/Doc2CDB にアクセスして、今すぐ試してみてください。
関連するコンテンツ
- Azure Cosmos DB for NoSQL によるベクトル検索
- トークン
- ベクトル埋め込み
- 検索拡張生成 (RAG)
- Azure サブスクリプションなしの 30 日間無料試用版
- Azure AI Advantage の 90 日間の無料試用版と最大 6,000 ドルのスループット クレジット