مخزن المتجهات في Azure Cosmos DB ل MongoDB vCore

مقالة
12/03/2024
ينطبق على:

✅ MongoDB vCore

استخدم قاعدة بيانات المتجهات المتكاملة في Azure Cosmos DB ل MongoDB (vCore) لتوصيل التطبيقات المستندة إلى الذكاء الاصطناعي بسلاسة بالبيانات المخزنة في Azure Cosmos DB. يمكن أن يتضمن هذا التكامل التطبيقات التي أنشأتها باستخدام تضمينات Azure OpenAI. تمكنك قاعدة بيانات المتجهات المتكاملة أصلا من تخزين بيانات المتجهات عالية الأبعاد التي يتم تخزينها مباشرة في Azure Cosmos DB ل MongoDB (vCore) وفهرستها والاستعلام عنها بكفاءة، بالإضافة إلى البيانات الأصلية التي يتم إنشاء بيانات المتجه منها. فهو يلغي الحاجة إلى نقل بياناتك إلى مخازن ناقلات بديلة ويتحمل تكاليف إضافية.

ما هو مخزن المتجهات؟

مخزن المتجهات أو قاعدة بيانات المتجهات هي قاعدة بيانات مصممة لتخزين وإدارة تضمينات المتجهات، وهي تمثيلات رياضية للبيانات في مساحة عالية الأبعاد. في هذه المساحة، يتوافق كل بعد مع ميزة من البيانات، ويمكن استخدام عشرات الآلاف من الأبعاد لتمثيل البيانات المعقدة. يمثل موضع المتجه في هذه المساحة خصائصه. يمكن تحويل الكلمات والعبارات أو المستندات الكاملة والصور والصوت وأنواع أخرى من البيانات.

كيف يعمل مخزن المتجهات؟

في مخزن المتجهات، يتم استخدام خوارزميات بحث المتجهات للفهرسة والاستعلام عن تضمينات. تتضمن بعض خوارزميات البحث عن المتجهات المعروفة «Hierarchical Navigable Small World ( HNSW) و Inverted File (IVF) و DiskANN وما إلى ذلك. البحث عن المتجهات هو أسلوب يساعدك على العثور على عناصر مماثلة استنادا إلى خصائص البيانات الخاصة بها بدلا من التطابقات الدقيقة في حقل الخاصية. هذه التقنية مفيدة في التطبيقات مثل البحث عن نص مشابه أو العثور على الصور ذات الصلة أو تقديم التوصيات أو حتى اكتشاف الحالات الشاذة. يتم استخدامه للاستعلام عن تضمينات المتجهات (قوائم الأرقام) للبيانات التي قمت بإنشائها باستخدام نموذج التعلم الآلي باستخدام واجهة برمجة تطبيقات التضمينات. أمثلة على تضمين واجهات برمجة التطبيقات هي تضمينات Azure OpenAI أو عناق الوجه على Azure. يقيس بحث المتجه المسافة بين متجهات البيانات ومتجه الاستعلام. متجهات البيانات الأقرب إلى متجه الاستعلام هي تلك التي تم العثور عليها على أنها متشابهة دلاليا.

في قاعدة بيانات الخطوط المتجهة المتكاملة في Azure Cosmos DB ل MongoDB (vCore)، يمكن تخزين عمليات التضمين وفهرستها والاستفسار إليها جنبا إلى جنب مع البيانات الأصلية. يلغي هذا النهج التكلفة الإضافية لنسخ البيانات في قاعدة بيانات متجهات خالصة منفصلة. علاوة على ذلك، تحافظ هذه البنية على تضمينات المتجهات والبيانات الأصلية معا، ما يسهل عمليات البيانات متعددة الوسائط بشكل أفضل، ويتيح المزيد من تناسق البيانات وحجمها وأدائها.

إجراء بحث عن تشابه المتجهات

يوفر Azure Cosmos DB ل MongoDB (vCore) قدرات بحث متجهات قوية، ما يسمح لك بإجراء عمليات بحث تشابه عالية السرعة عبر مجموعات البيانات المعقدة. لإجراء بحث متجه في Azure Cosmos DB ل MongoDB، تحتاج أولا إلى إنشاء فهرس متجه. يدعم Cosmos DB حاليا ثلاثة أنواع من فهارس المتجهات:

DiskANN (مستحسن): مثالي لمجموعات البيانات واسعة النطاق، والاستفادة من محركات الأقراص ذات الحالة الثابتة لاستخدام الذاكرة بكفاءة مع الحفاظ على الاستدعاء العالي في عمليات البحث التقريبية الأقرب إلى الجوار (ANN).
HNSW: مناسب لمجموعات البيانات متوسطة الحجم التي تحتاج إلى استدعاء عال، مع بنية قائمة على الرسم البياني توازن بين الدقة وكفاءة الموارد.
IVF: يستخدم التجميع لتحسين سرعة البحث في مجموعات البيانات الموسعة، مع التركيز على عمليات البحث داخل المجموعات المستهدفة لتسريع الأداء.

تتوفر فهارس DiskANN على مستويات M40 وما فوق. لإنشاء فهرس DiskANN، قم بتعيين المعلمة "kind" إلى "vector-diskann" اتباع القالب أدناه:

{ 
    "createIndexes": "<collection_name>",
    "indexes": [
        {
            "name": "<index_name>",
            "key": {
                "<path_to_property>": "cosmosSearch"
            },
            "cosmosSearchOptions": { 
                "kind": "vector-diskann", 
                "dimensions": <integer_value>,
                "similarity": <string_value>,
                "maxDegree" : <integer_value>, 
                "lBuild" : <integer_value>, 
            } 
        } 
    ] 
}

الحقل	نوع	الوصف
`index_name`	سلسلة	اسم فريد للفهرس.
`path_to_property`	سلسلة	المسار إلى الخاصية التي تحتوي على المتجه. يمكن أن يكون هذا المسار خاصية من المستوى الأعلى أو مسار تدوين نقطة إلى الخاصية . يجب أن تكون المتجهات فهرسة `number[]` واستخدامها في نتائج البحث عن المتجهات. يؤدي استخدام نوع آخر، مثل `double[]`، إلى منع فهرسة المستند. لن يتم إرجاع المستندات غير المفهرسة في نتيجة بحث متجه.
`kind`	سلسلة	نوع فهرس المتجهات المراد إنشاؤه. الخيارات هي `vector-ivf`و `vector-hnsw`و.`vector-diskann`
`dimensions`	integer	عدد الأبعاد لتشابه المتجهات. يدعم DiskANN ما يصل إلى 2000 بعد، مع دعم مستقبلي مخطط له ل 40000+.
`similarity`	سلسلة	مقياس التشابه لاستخدامه مع الفهرس. الخيارات المحتملة هي `COS` (مسافة جيب التمام)، `L2` (مسافة الإقليديين)، و `IP` (المنتج الداخلي).
`maxDegree`	integer	الحد الأقصى لعدد الحواف لكل عقدة في الرسم البياني. تتراوح هذه المعلمة من 20 إلى 2048 (الافتراضي هو 32). `maxDegree` الأعلى مناسب لمجموعات البيانات ذات الأبعاد العالية و/أو متطلبات الدقة العالية.
`lBuild`	integer	تعيين عدد الجيران المرشحين الذين تم تقييمهم أثناء إنشاء فهرس DiskANN. هذه المعلمة، التي تتراوح من 10 إلى 500 (الافتراضي هو 50)، توازن الدقة والنفقات الحسابية: تعمل القيم الأعلى على تحسين جودة الفهرس ودقته ولكن زيادة وقت الإنشاء

إجراء بحث متجه باستخدام DiskANN

لإجراء بحث متجه، استخدم $search مرحلة البنية الأساسية لبرنامج ربط العمليات التجارية للتجميع، والاستعلام مع cosmosSearch عامل التشغيل. يسمح DiskANN بعمليات البحث عالية الأداء عبر مجموعات البيانات الضخمة مع التصفية الاختيارية مثل عوامل التصفية الجغرافية المكانية أو القائمة على النص.

{
  "$search": {
    "cosmosSearch": {
      "path": "<path_to_property>",
      "query": "<query_vector>",  
      "k": <num_results_to_return>,  
      "filter": {"$and": [
        { "<attribute_1>": { "$eq": <value> } },
        {"<location_attribute>": {"$geoWithin": {"$centerSphere":[[<longitude_integer_value>, <latitude_integer_value>], <radius>]}}}
      ]}
    }
  }
},

الحقل	نوع	‏‏الوصف
`lSearch`	integer	تحديد حجم قائمة المرشحين الديناميكية للبحث. القيمة الافتراضية هي `40`، مع نطاق قابل للتكوين من `10` إلى `1000`. تؤدي زيادة القيمة إلى تحسين الاسترجاع ولكنها قد تقلل من سرعة البحث.
`k`	integer	يحدد عدد نتائج البحث التي سيتم إرجاعها. `k` يجب أن تكون القيمة أقل من أو مساوية ل `lSearch`.

تمكين DiskANN على نظام مجموعة جديد

لتمكين DiskANN Vector Index على نظام مجموعة Azure Cosmos DB ل MongoDB (vCore) الذي تم توفيره حديثا، اتبع هذه الخطوات لإجراء تسجيل على مستوى نظام المجموعة عبر Azure CLI:

تسجيل الدخول إلى Azure CLI

az login

استرداد الإعدادات الحالية لعلامات الميزات على نظام المجموعة. يضمن ذلك الاحتفاظ بأي علامات موجودة أثناء إضافة الميزة الجديدة.

az resource show --ids "/subscriptions/<sub id>/resourceGroups/<resource group name>/providers/Microsoft.DocumentDB/mongoClusters/<resource name of your Cosmos DB for MongoDB cluster>" --api-version <cluster's api version>

أضف العلامة DiskANNIndex إلى قائمة ميزات المعاينة دون إزالة أي ميزات موجودة.

az resource patch --ids "/subscriptions/<sub id>/resourceGroups/<resource group name>/providers/Microsoft.DocumentDB/mongoClusters/<resource name of your Cosmos DB for MongoDB cluster>" --api-version <cluster's api version> --properties "{\"previewFeatures\": [\"GeoReplicas\", \"DiskANNIndex\"]}"

مثال على استخدام فهرس DiskANN مع التصفية

إضافة متجهات إلى قاعدة البيانات

لاستخدام البحث المتجه مع عوامل التصفية الجغرافية المكانية، أضف المستندات التي تتضمن تضمينات المتجهات وإحداثيات الموقع. يمكنك إنشاء التضمينات باستخدام النموذج الخاص بك، أو Azure OpenAI Embeddings، أو واجهة برمجة تطبيقات أخرى (مثل Hugging Face على Azure).

from pymongo import MongoClient

client = MongoClient("<your_connection_string>")
db = client["test"]
collection = db["testCollection"]

documents = [
    {"name": "Eugenia Lopez", "bio": "CEO of AdventureWorks", "is_open": 1, "location": [-118.9865, 34.0145], "contentVector": [0.52, 0.20, 0.23]},
    {"name": "Cameron Baker", "bio": "CFO of AdventureWorks", "is_open": 1, "location": [-0.1278, 51.5074], "contentVector": [0.55, 0.89, 0.44]},
    {"name": "Jessie Irwin", "bio": "Director of Our Planet initiative", "is_open": 0, "location": [-118.9865, 33.9855], "contentVector": [0.13, 0.92, 0.85]},
    {"name": "Rory Nguyen", "bio": "President of Our Planet initiative", "is_open": 1, "location": [-119.0000, 33.9855], "contentVector": [0.91, 0.76, 0.83]}
]

collection.insert_many(documents)

إنشاء فهرس متجه DiskANN

يوضح المثال التالي كيفية إعداد فهرس متجه DiskANN مع إمكانات التصفية. يتضمن ذلك إنشاء فهرس المتجه للبحث عن التشابه، وإضافة مستندات ذات خصائص متجهة وجيوفضائية، وحقول الفهرسة لتصفية إضافية.

db.command({
    "createIndexes": "testCollection",
    "indexes": [
        {
            "name": "DiskANNVectorIndex",
            "key": {
                "contentVector": "cosmosSearch"
            },
            "cosmosSearchOptions": {
                "kind": "vector-diskann",
                "dimensions": 3,
                "similarity": "COS",
                "maxDegree": 32,
                "lBuild": 64
            }
        },
        { 
            "name": "is_open",
            "key": { 
                "is_open": 1 
            }      
        },
        {
            "name": "locationIndex",
            "key": {
                "location": 1
            }
        }
    ]
})

ينشئ هذا الأمر فهرس متجه DiskANN في contentVector الحقل في exampleCollection، مما يتيح عمليات البحث عن التشابه. كما يضيف:

فهرس في is_open الحقل، مما يسمح لك بتصفية النتائج استنادا إلى ما إذا كانت الشركات مفتوحة.
فهرس جغرافي مكاني في location الحقل للتصفية حسب التقارب الجغرافي.

إجراء بحث متجه

للعثور على مستندات ذات خطوط متجهة مماثلة ضمن نصف قطر جغرافي معين، حدد للبحث عن queryVector التشابه وقم بتضمين عامل تصفية جيوفضائي.

query_vector = [0.52, 0.28, 0.12]
pipeline = [
    {
        "$search": {
            "cosmosSearch": {
                "path": "contentVector",
                "vector": query_vector,
                "k": 5,
                "filter": {
                    "$and": [
                        {"is_open": {"$eq": 1}},
                        {"location": {"$geoWithin": {"$centerSphere": [[-119.7192861804, 34.4102485028], 100 / 3963.2]}}}
                    ]
                }
            }
        }
    }
]

results = list(collection.aggregate(pipeline))
for result in results:
    print(result)

في هذا المثال، يرجع البحث عن تشابه المتجهات أعلى k أقرب المتجهات استنادا إلى مقياس التشابه المحدد COS ، مع تصفية النتائج لتضمين الأعمال المفتوحة فقط ضمن نصف قطر 100 ميل.

[
  {
    similarityScore: 0.9745354109084544,
    document: {
      _id: ObjectId("645acb54413be5502badff94"),
      name: 'Eugenia Lopez',
      bio: 'CEO of AdventureWorks',
      is_open: 1,
      location: [-118.9865, 34.0145],
      contentVector: [0.52, 0.20, 0.23]
    }
  },
  {
    similarityScore: 0.9006955671333992,
    document: {
      _id: ObjectId("645acb54413be5502badff97"),
      name: 'Rory Nguyen',
      bio: 'President of Our Planet initiative',
      is_open: 1,
      location: [-119.7302, 34.4005],
      contentVector: [0.91, 0.76, 0.83]
    }
  }
]

تظهر هذه النتيجة أهم المستندات المشابهة ل queryVector، المقيدة لنصف قطر 100 ميل والأعمال المفتوحة. تتضمن كل نتيجة درجة التشابه وبيانات التعريف، ما يوضح كيف يدعم DiskANN في Cosmos DB ل MongoDB الاستعلامات المتجهة والجيوفضائية المجمعة لتجارب البحث المحسنة والحساسة للموقع.

يمكنك إنشاء فهارس HNSW (Hierarchical Navigable Small World) على مستويات نظام مجموعة M40 وأعلى. لإنشاء فهرس HSNW، تحتاج إلى إنشاء فهرس متجه مع تعيين المعلمة "kind" إلى "vector-hnsw" اتباع القالب أدناه:

{ 
    "createIndexes": "<collection_name>",
    "indexes": [
        {
            "name": "<index_name>",
            "key": {
                "<path_to_property>": "cosmosSearch"
            },
            "cosmosSearchOptions": { 
                "kind": "vector-hnsw", 
                "m": <integer_value>, 
                "efConstruction": <integer_value>, 
                "similarity": "<string_value>", 
                "dimensions": <integer_value> 
            } 
        } 
    ] 
}

الحقل	نوع	‏‏الوصف
`m`	integer	الحد الأقصى لعدد الاتصالات لكل طبقة (`16` بشكل افتراضي، الحد الأدنى للقيمة هو `2`، الحد الأقصى للقيمة هو `100`). أعلى m مناسبة لمجموعات البيانات ذات الأبعاد العالية و/أو متطلبات الدقة العالية.
`efConstruction`	integer	حجم قائمة المرشحين الديناميكية لإنشاء الرسم البياني (`64` بشكل افتراضي، الحد الأدنى للقيمة هو `4`، الحد الأقصى للقيمة هو `1000`). سيؤدي ارتفاع `efConstruction` إلى تحسين جودة الفهرس ودقة أعلى، ولكنه سيزيد أيضا من الوقت المطلوب لإنشاء الفهرس. `efConstruction` يجب أن يكون على الأقل `2 * m`

إجراء بحث متجه باستخدام HNSW

لإجراء بحث متجه، استخدم $search مرحلة مسار التجميع الاستعلام مع cosmosSearch عامل التشغيل.

{
    "$search": {
        "cosmosSearch": {
            "vector": <query_vector>,
            "path": "<path_to_property>",
            "k": <num_results_to_return>,
            "efSearch": <integer_value>
        },
    }
}

الحقل	نوع	‏‏الوصف
`efSearch`	integer	حجم قائمة المرشحين الديناميكية للبحث (`40` بشكل افتراضي). توفر القيمة الأعلى تذكرا أفضل على حساب السرعة.

إشعار

يمكن أن يؤدي إنشاء فهرس HSNW مع مجموعات بيانات كبيرة إلى نفاد الذاكرة في Azure Cosmos DB لمورد MongoDB vCore، أو يمكن أن يحد من أداء العمليات الأخرى التي تعمل على قاعدة البيانات الخاصة بك. إذا واجهت مثل هذه المشكلات، يمكن التخفيف من حدتها عن طريق تحجيم المورد الخاص بك إلى مستوى نظام مجموعة أعلى، أو إنشاء فهرس متجه DiskANN جديد.

مثال باستخدام فهرس HNSW

توضح لك الأمثلة التالية كيفية فهرسة المتجهات وإضافة المستندات التي تحتوي على خصائص متجهات وإجراء بحث متجه واسترداد تكوين الفهرس.

use test;

db.createCollection("exampleCollection");

db.runCommand({ 
    "createIndexes": "exampleCollection",
    "indexes": [
        {
            "name": "VectorSearchIndex",
            "key": {
                "contentVector": "cosmosSearch"
            },
            "cosmosSearchOptions": { 
                "kind": "vector-hnsw", 
                "m": 16, 
                "efConstruction": 64, 
                "similarity": "COS", 
                "dimensions": 3
            } 
        } 
    ] 
});

ينشئ هذا الأمر فهرس HNSW مقابل الخاصية contentVector في المستندات المخزنة في المجموعة المحددة، exampleCollection. cosmosSearchOptions تحدد الخاصية معلمات فهرس متجه HNSW. إذا كان المستند يحتوي على المتجه المخزن في خاصية متداخلة، يمكنك تعيين هذه الخاصية باستخدام مسار تدوين نقطة. على سبيل المثال، قد تستخدم text.contentVector ما إذا كان contentVector هو نوع فرعي من text.

إضافة متجهات إلى قاعدة البيانات

لإضافة متجهات إلى مجموعة قاعدة البيانات الخاصة بك، تحتاج أولا إلى إنشاء عمليات التضمين باستخدام النموذج الخاص بك، أو تضمينات Azure OpenAI، أو واجهة برمجة تطبيقات أخرى (مثل Hugging Face على Azure). في هذا المثال، تتم إضافة مستندات جديدة من خلال تضمينات العينة:

db.exampleCollection.insertMany([
  {name: "Eugenia Lopez", bio: "Eugenia is the CEO of AdvenureWorks.", vectorContent: [0.51, 0.12, 0.23]},
  {name: "Cameron Baker", bio: "Cameron Baker CFO of AdvenureWorks.", vectorContent: [0.55, 0.89, 0.44]},
  {name: "Jessie Irwin", bio: "Jessie Irwin is the former CEO of AdventureWorks and now the director of the Our Planet initiative.", vectorContent: [0.13, 0.92, 0.85]},
  {name: "Rory Nguyen", bio: "Rory Nguyen is the founder of AdventureWorks and the president of the Our Planet initiative.", vectorContent: [0.91, 0.76, 0.83]},
]);

إجراء بحث متجه

متابعة للمثال الأخير، قم بإنشاء متجه آخر، queryVector. يقيس البحث المتجه المسافة بين queryVector المتجهات والمتجهة في contentVector مسار المستندات. يمكنك تعيين عدد النتائج التي يرجعها البحث عن طريق تعيين المعلمة k، التي تم تعيينها إلى 2 هنا. يمكنك أيضا تعيين efSearch، وهو عدد صحيح يتحكم في حجم قائمة المتجهات المرشحة. قد تحسن القيمة الأعلى الدقة، ولكن البحث سيكون أبطأ نتيجة لذلك. هذه معلمة اختيارية بقيمة افتراضية 40.

const queryVector = [0.52, 0.28, 0.12];
db.exampleCollection.aggregate([
  {
    "$search": {
        "cosmosSearch": {
            "vector": "queryVector",
            "path": "contentVector",
            "k": 2,
            "efSearch": 40
        },
    }
  }
}
]);

في هذا المثال، يتم إجراء بحث متجه باستخدام queryVector كمدخل عبر Mongo shell. نتيجة البحث هي قائمة من عنصرين أكثر تشابها مع متجه الاستعلام، تم فرزهما حسب درجات التشابه الخاصة بهم.

[
  {
    similarityScore: 0.9465376,
    document: {
      _id: ObjectId("645acb54413be5502badff94"),
      name: 'Eugenia Lopez',
      bio: 'Eugenia is the CEO of AdvenureWorks.',
      vectorContent: [ 0.51, 0.12, 0.23 ]
    }
  },
  {
    similarityScore: 0.9006955,
    document: {
      _id: ObjectId("645acb54413be5502badff97"),
      name: 'Rory Nguyen',
      bio: 'Rory Nguyen is the founder of AdventureWorks and the president of the Our Planet initiative.',
      vectorContent: [ 0.91, 0.76, 0.83 ]
    }
  }
]

لإنشاء فهرس متجه باستخدام خوارزمية IVF (ملف معكوس)، استخدم القالب التالي createIndexes وقم بتعيين المعلمة "kind" إلى "vector-ivf":

{
  "createIndexes": "<collection_name>",
  "indexes": [
    {
      "name": "<index_name>",
      "key": {
        "<path_to_property>": "cosmosSearch"
      },
      "cosmosSearchOptions": {
        "kind": "vector-ivf",
        "numLists": <integer_value>,
        "similarity": "<string_value>",
        "dimensions": <integer_value>
      }
    }
  ]
}

الحقل	نوع	‏‏الوصف
`numLists`	integer	هذا العدد الصحيح هو عدد المجموعات التي يستخدمها فهرس الملف المعكوس (IVF) لتجميع بيانات المتجه. ونوصي بإعداد `numLists` `documentCount/1000` ما يصل إلى مليون مستند وإلى `sqrt(documentCount)` أكثر من مليون مستند. `numLists` استخدام قيمة `1` هو أقرب إلى إجراء بحث القوة الغاشمة، والتي لديها أداء محدود.

هام

يعد تعيين المعلمة numLists بشكل صحيح أمرا مهما لتحقيق دقة وأداء جيدين. نوصي بتعيين numLists إلى documentCount/1000 ما يصل إلى مليون مستند. بالنسبة لأكثر من مليون مستند، نوصي باستخدام فهرس متجه DiskANN للحصول على أفضل النتائج.

مع زيادة عدد العناصر في قاعدة البيانات الخاصة بك، يجب ضبط numLists لتكون أكبر من أجل تحقيق أداء زمن انتقال جيد للبحث في المتجهات.

إذا كنت تقوم بتجربة سيناريو جديد أو إنشاء عرض توضيحي صغير، يمكنك البدء بتعيين numLists إلى 1 لإجراء بحث بقوة غاشمة عبر جميع المتجهات. يجب أن يوفر لك هذا النتائج الأكثر دقة من البحث المتجه، ولكن يجب أن تدرك أن سرعة البحث وزمن الانتقال ستكون بطيئة. بعد الإعداد الأولي، يجب عليك المضي قدما وضبط المعلمة numLists باستخدام الإرشادات المذكورة أعلاه.

إجراء بحث متجه باستخدام IVF

لإجراء بحث متجه، استخدم $search مرحلة مسار التجميع في استعلام MongoDB. لاستخدام الفهرس cosmosSearch ، استخدم عامل التشغيل الجديد cosmosSearch .

{
  {
  "$search": {
    "cosmosSearch": {
        "vector": <query_vector>,
        "path": "<path_to_property>",
        "k": <num_results_to_return>,
      },
      "returnStoredSource": True }},
  {
    "$project": { "<custom_name_for_similarity_score>": {
           "$meta": "searchScore" },
            "document" : "$$ROOT"
        }
  }
}

لاسترداد درجة التشابه (searchScore) مع المستندات التي تم العثور عليها بواسطة البحث المتجه، استخدم $project عامل التشغيل لتضمينها searchScore وإعادة تسميتها كما <custom_name_for_similarity_score> في النتائج. ثم يتم عرض المستند أيضا ككائن متداخل. لاحظ أن درجة التشابه يتم حسابها باستخدام المقياس المحدد في فهرس المتجه.

هام

يجب أن تكون المتجهات لتكون number[] مفهرسة. يؤدي استخدام نوع آخر، مثل double[]، إلى منع فهرسة المستند. لن يتم إرجاع المستندات غير المفهرسة في نتيجة بحث متجه.

مثال على استخدام فهرس IVF

فهرسة الملف المقلوب (IVF) هي طريقة تنظم المتجهات في مجموعات. أثناء البحث عن متجه، تتم مقارنة متجه الاستعلام أولا بمراكز هذه المجموعات. ثم يتم إجراء البحث داخل نظام المجموعة الذي يكون مركزه الأقرب إلى متجه الاستعلام.

numListتحدد المعلمة s عدد المجموعات التي سيتم إنشاؤها. يشير نظام مجموعة واحد إلى إجراء البحث ضد جميع المتجهات في قاعدة البيانات، مثل القوة الغاشمة أو البحث kNN. يوفر هذا الإعداد أعلى دقة ولكن أيضا أعلى زمن انتقال.

تؤدي زيادة القيمة إلى numLists المزيد من المجموعات، كل منها يحتوي على عدد أقل من المتجهات. على سبيل المثال، إذا ، numLists=2تحتوي كل مجموعة على خطوط متجهة أكثر من إذا numLists=3، وهكذا. عدد أقل من المتجهات لكل مجموعة يسرع البحث (زمن انتقال أقل، استعلامات أعلى في الثانية). ومع ذلك، يزيد هذا من احتمال فقدان المتجه الأكثر تشابها في قاعدة البيانات الخاصة بك إلى متجه الاستعلام. ويرجع ذلك إلى الطبيعة غير كاملة للمجموعات، حيث قد يركز البحث على مجموعة واحدة بينما يوجد المتجه "الأقرب" الفعلي في مجموعة مختلفة.

nProbes تتحكم المعلمة في عدد المجموعات التي سيتم البحث فيها. بشكل افتراضي، يتم تعيينه إلى 1، ما يعني أنه يبحث فقط في نظام المجموعة مع المركز الأقرب إلى متجه الاستعلام. تسمح زيادة هذه القيمة للبحث بتغطية المزيد من المجموعات، وتحسين الدقة ولكن أيضا زيادة زمن الانتقال (وبالتالي تقليل الاستعلامات في الثانية) حيث يتم البحث في المزيد من المجموعات والخطوط المتجهة.

إنشاء فهرس متجه

use test;

db.createCollection("exampleCollection");

db.runCommand({
  createIndexes: 'exampleCollection',
  indexes: [
    {
      name: 'vectorSearchIndex',
      key: {
        "vectorContent": "cosmosSearch"
      },
      cosmosSearchOptions: {
        kind: 'vector-ivf',
        numLists: 3,
        similarity: 'COS',
        dimensions: 3
      }
    }
  ]
});

ينشئ هذا الأمر فهرسا vector-ivf مقابل الخاصية vectorContent في المستندات المخزنة في المجموعة المحددة، exampleCollection. cosmosSearchOptions تحدد الخاصية معلمات فهرس متجه IVF. إذا كان المستند يحتوي على المتجه المخزن في خاصية متداخلة، يمكنك تعيين هذه الخاصية باستخدام مسار تدوين نقطة. على سبيل المثال، قد تستخدم text.vectorContent ما إذا كان vectorContent هو نوع فرعي من text.

إضافة متجهات إلى قاعدة البيانات

db.exampleCollection.insertMany([
  {name: "Eugenia Lopez", bio: "Eugenia is the CEO of AdvenureWorks.", vectorContent: [0.51, 0.12, 0.23]},
  {name: "Cameron Baker", bio: "Cameron Baker CFO of AdvenureWorks.", vectorContent: [0.55, 0.89, 0.44]},
  {name: "Jessie Irwin", bio: "Jessie Irwin is the former CEO of AdventureWorks and now the director of the Our Planet initiative.", vectorContent: [0.13, 0.92, 0.85]},
  {name: "Rory Nguyen", bio: "Rory Nguyen is the founder of AdventureWorks and the president of the Our Planet initiative.", vectorContent: [0.91, 0.76, 0.83]},
]);

إجراء بحث متجه

{
  {
  "$search": {
    "cosmosSearch": {
        "vector": <vector_to_search>,
        "path": "<path_to_property>",
        "k": <num_results_to_return>,
      },
      "returnStoredSource": True }},
  {
    "$project": { "<custom_name_for_similarity_score>": {
           "$meta": "searchScore" },
            "document" : "$$ROOT"
        }
  }
}

ناقلات الاستعلام ومسافات المتجهات (المعروفة أيضا بدرجات التشابه) باستخدام $search"

متابعة للمثال الأخير، قم بإنشاء متجه آخر، queryVector. يقيس البحث المتجه المسافة بين queryVector المتجهات والمتجهة في vectorContent مسار المستندات. يمكنك تعيين عدد النتائج التي يرجعها البحث عن طريق تعيين المعلمة k، التي تم تعيينها إلى 2 هنا. يمكنك أيضا تعيين nProbes، وهو عدد صحيح يتحكم في عدد المجموعات القريبة التي يتم فحصها في كل بحث. قد تحسن القيمة الأعلى الدقة، ولكن البحث سيكون أبطأ نتيجة لذلك. هذه معلمة اختيارية بقيمة افتراضية 1 ولا يمكن أن تكون أكبر من numLists القيمة المحددة في فهرس المتجه.

const queryVector = [0.52, 0.28, 0.12];
db.exampleCollection.aggregate([
  {
    $search: {
      "cosmosSearch": {
        "vector": queryVector,
        "path": "vectorContent",
        "k": 2
      },
    "returnStoredSource": true }},
  {
    "$project": { "similarityScore": {
           "$meta": "searchScore" },
            "document" : "$$ROOT"
        }
  }
]);

[
  {
    similarityScore: 0.9465376,
    document: {
      _id: ObjectId("645acb54413be5502badff94"),
      name: 'Eugenia Lopez',
      bio: 'Eugenia is the CEO of AdvenureWorks.',
      vectorContent: [ 0.51, 0.12, 0.23 ]
    }
  },
  {
    similarityScore: 0.9006955,
    document: {
      _id: ObjectId("645acb54413be5502badff97"),
      name: 'Rory Nguyen',
      bio: 'Rory Nguyen is the founder of AdventureWorks and the president of the Our Planet initiative.',
      vectorContent: [ 0.91, 0.76, 0.83 ]
    }
  }
]

الحصول على تعريفات فهرس المتجهات

لاسترداد تعريف فهرس المتجهات من المجموعة، استخدم listIndexes الأمر :

db.exampleCollection.getIndexes();

في هذا المثال، vectorIndex يتم إرجاع مع كافة cosmosSearch المعلمات التي تم استخدامها لإنشاء الفهرس:

[
  { v: 2, key: { _id: 1 }, name: '_id_', ns: 'test.exampleCollection' },
  {
    v: 2,
    key: { vectorContent: 'cosmosSearch' },
    name: 'vectorSearchIndex',
    cosmosSearch: {
      kind: <index_type>, // options are `vector-ivf`, `vector-hnsw`, and `vector-diskann`
      numLists: 3,
      similarity: 'COS',
      dimensions: 3
    },
    ns: 'test.exampleCollection'
  }
]

بحث متجه تمت تصفيته (معاينة)

يمكنك الآن تنفيذ عمليات البحث الموجهة باستخدام أي عامل تصفية استعلام معتمد مثل $ltو$eq$lte$nin$gte$neq$gt$in.$regex قم بتمكين ميزة "تصفية البحث عن المتجهات" في علامة التبويب "ميزات المعاينة" في اشتراك Azure الخاص بك. تعرف على المزيد حول ميزات المعاينة هنا.

أولا، ستحتاج إلى تعريف فهرس لعامل التصفية بالإضافة إلى فهرس متجه. على سبيل المثال، يمكنك تعريف فهرس التصفية على خاصية

db.runCommand({ 
     "createIndexes": "<collection_name",
    "indexes": [ {
        "key": { 
            "<property_to_filter>": 1 
               }, 
        "name": "<name_of_filter_index>" 
    }
    ] 
});

بعد ذلك، يمكنك إضافة "filter" المصطلح إلى بحث المتجه كما هو موضح أدناه. في هذا المثال، يبحث عامل التصفية عن مستندات حيث لا تكون الخاصية "title" ["not in this text", "or this text"]في قائمة .


db.exampleCollection.aggregate([
  {
      '$search': {
          "cosmosSearch": {
              "vector": "<query_vector>",
              "path": <path_to_vector>,
              "k": num_results,
              "filter": {<property_to_filter>: {"$nin": ["not in this text", "or this text"]}}
          },
          "returnStoredSource": True }},
      {'$project': { 'similarityScore': { '$meta': 'searchScore' }, 'document' : '$$ROOT' }
}
]);

هام

أثناء المعاينة، قد يتطلب منك البحث في المتجهات المصفاة ضبط معلمات فهرس المتجهات لتحقيق دقة أعلى. على سبيل المثال، قد تؤدي زيادة mأو أو عند efSearch استخدام HNSW أو numListsأو nProbes عند استخدام IVF efConstructionإلى نتائج أفضل. يجب اختبار التكوين قبل الاستخدام للتأكد من أن النتائج مرضية.

استخدام أدوات تنسيق LLM

استخدم كقاعدة بيانات متجهة مع Kernel الدلالي

استخدم Kernel الدلالي لتنسيق استرداد المعلومات من Azure Cosmos DB ل MongoDB vCore و LLM الخاص بك. تعرف على المزيد من هنا.

https://github.com/microsoft/semantic-kernel/tree/main/python/semantic_kernel/connectors/memory/azure_cosmosdb

استخدم كقاعدة بيانات متجهة مع LangChain

استخدم LangChain لتنسيق استرداد المعلومات من Azure Cosmos DB ل MongoDB vCore و LLM الخاص بك. تعرف على المزيد من هنا.

استخدم كذاكرة تخزين مؤقت دلالية مع LangChain

استخدم LangChain وAzure Cosmos DB ل MongoDB (vCore) لتنسيق التخزين المؤقت الدلالي، باستخدام استجابات LLM المسجلة مسبقا التي يمكن أن توفر لك تكاليف واجهة برمجة تطبيقات LLM وتقليل زمن الانتقال للاستجابات. تعرَّف على المزيد من هنا

الميزات والقيود

مقاييس المسافة المدعومة: L2 (إقليديان)، والمنتج الداخلي، والجيب المشترك.
أساليب الفهرسة المدعومة: IVFFLAT وHNSW و DiskANN (معاينة)
فهرسة المتجهات حتى 2000 بعد في الحجم.
تنطبق الفهرسة على متجه واحد فقط لكل مسار.
يمكن إنشاء فهرس واحد فقط لكل مسار متجه.

الملخص

يوضح هذا الدليل كيفية إنشاء فهرس متجه وإضافة مستندات تحتوي على بيانات متجهات وإجراء بحث عن التشابه واسترداد تعريف الفهرس. باستخدام قاعدة بيانات المتجهات المتكاملة، يمكنك تخزين وفهرسة والاستعلام عن بيانات المتجهات عالية الأبعاد بكفاءة مباشرة في Azure Cosmos DB ل MongoDB vCore. تمكنك من فتح الإمكانات الكاملة لبياناتك عبر تضمينات المتجهات، وتمكنك من إنشاء تطبيقات أكثر دقة وكفاءة وقوة.

الخطوة التالية

إنشاء مجموعة vCore من الطبقة الحرة مدى الحياة ل Azure Cosmos DB ل MongoDB

مشاركة عبر

مخزن المتجهات في Azure Cosmos DB ل MongoDB vCore

ما هو مخزن المتجهات؟

كيف يعمل مخزن المتجهات؟

إجراء بحث عن تشابه المتجهات

إجراء بحث متجه باستخدام DiskANN

تمكين DiskANN على نظام مجموعة جديد

مثال على استخدام فهرس DiskANN مع التصفية

إضافة متجهات إلى قاعدة البيانات

إنشاء فهرس متجه DiskANN

إجراء بحث متجه

إجراء بحث متجه باستخدام HNSW

مثال باستخدام فهرس HNSW

إضافة متجهات إلى قاعدة البيانات

إجراء بحث متجه

إجراء بحث متجه باستخدام IVF

مثال على استخدام فهرس IVF

إنشاء فهرس متجه

إضافة متجهات إلى قاعدة البيانات

إجراء بحث متجه

ناقلات الاستعلام ومسافات المتجهات (المعروفة أيضا بدرجات التشابه) باستخدام $search"

الحصول على تعريفات فهرس المتجهات

بحث متجه تمت تصفيته (معاينة)

استخدام أدوات تنسيق LLM

استخدم كقاعدة بيانات متجهة مع Kernel الدلالي

استخدم كقاعدة بيانات متجهة مع LangChain

استخدم كذاكرة تخزين مؤقت دلالية مع LangChain

الميزات والقيود

الملخص

الخطوة التالية

الملاحظات

الموارد الإضافية

مشاركة عبر

مخزن المتجهات في Azure Cosmos DB ل MongoDB vCore

ما هو مخزن المتجهات؟

كيف يعمل مخزن المتجهات؟

إجراء بحث عن تشابه المتجهات

إجراء بحث متجه باستخدام DiskANN

تمكين DiskANN على نظام مجموعة جديد

مثال على استخدام فهرس DiskANN مع التصفية

إضافة متجهات إلى قاعدة البيانات

إنشاء فهرس متجه DiskANN

إجراء بحث متجه

الحصول على تعريفات فهرس المتجهات

بحث متجه تمت تصفيته (معاينة)

استخدام أدوات تنسيق LLM

استخدم كقاعدة بيانات متجهة مع Kernel الدلالي

استخدم كقاعدة بيانات متجهة مع LangChain

استخدم كذاكرة تخزين مؤقت دلالية مع LangChain

الميزات والقيود

الملخص

المحتوى ذو الصلة

الخطوة التالية

الملاحظات

الموارد الإضافية