الوصول إلى Azure Cosmos DB لبيانات Apache Cassandra من Azure Databricks
ينطبق على: كاساندرا
توضح هذه المقالة بالتفصيل كيفية العمل مع Azure Cosmos DB ل Apache Cassandra من Spark على Azure Databricks.
المتطلبات الأساسية
راجع نماذج التعليمات البرمجية للعمل مع واجهة برمجة التطبيقات ل Cassandra
واجهة برمجة التطبيقات لتكوين مثيل Cassandra لموصل Cassandra:
يتطلب موصل واجهة برمجة التطبيقات ل Cassandra تهيئة تفاصيل اتصال Cassandra كجزء من سياق Spark. عند تشغيل دفتر ملاحظات Databricks، يبدأ سياق spark بالفعل، ولا ينصح بإيقافه وإعادة تشغيله. أحد الحلول هو إضافة واجهة برمجة التطبيقات لتكوين مثيل Cassandra على مستوى نظام المجموعة، في تكوين spark لنظام المجموعة. هذا نشاط يُنفذ مرة واحدة لكل نظام مجموعة. إضافة التعليمة البرمجية التالية إلى تكوين Spark كمساحة فصلت زوج قيمة المفتاح:
spark.cassandra.connection.host YOUR_COSMOSDB_ACCOUNT_NAME.cassandra.cosmosdb.azure.com spark.cassandra.connection.port 10350 spark.cassandra.connection.ssl.enabled true spark.cassandra.auth.username YOUR_COSMOSDB_ACCOUNT_NAME spark.cassandra.auth.password YOUR_COSMOSDB_KEY
تثبيت التبعيات المطلوبة
موصل Cassandra Spark: - لدمج Azure Cosmos DB ل Apache Cassandra مع Spark، يجب إرفاق موصل Cassandra بمجموعة Azure Databricks. لإرفاق وحدة التحكم:
- مراجعة إصدار وقت تشغيل Databricks وإصدار Spark. ثم ابحث عن إحداثيات maven المتوافقة مع موصل Cassandra Spark، ثم قم بإرفاقها بالمجموعة. راجع مقالة «تحميل حزمة Maven أو حزمة Spark» لإرفاق مكتبة الموصل بالمُجمع. نوصي باختيار وقت تشغيل Databricks الإصدار 10.4 LTS، والذي يدعم Spark 3.2.1. لإضافة موصل Apache Spark Cassandra ومجموعة أجهزة الكمبيوتر الخاصة بك، حدد Libraries>Install new>Maven، ثم أضف
com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0
في إحداثيات Maven. إذا كنت تستخدم Spark 2.x، نوصي باستخدام بيئة مع إصدار Spark 2.4.5، تستخدم موصل على إحداثيات mavencom.datastax.spark:spark-cassandra-connector_2.11:2.4.3
.
- مراجعة إصدار وقت تشغيل Databricks وإصدار Spark. ثم ابحث عن إحداثيات maven المتوافقة مع موصل Cassandra Spark، ثم قم بإرفاقها بالمجموعة. راجع مقالة «تحميل حزمة Maven أو حزمة Spark» لإرفاق مكتبة الموصل بالمُجمع. نوصي باختيار وقت تشغيل Databricks الإصدار 10.4 LTS، والذي يدعم Spark 3.2.1. لإضافة موصل Apache Spark Cassandra ومجموعة أجهزة الكمبيوتر الخاصة بك، حدد Libraries>Install new>Maven، ثم أضف
Azure Cosmos DB لمكتبة Apache Cassandra الخاصة: - إذا كنت تستخدم Spark 2.x، مطلوب مصنع اتصال مخصص لتكوين نهج إعادة المحاولة من موصل Cassandra Spark إلى Azure Cosmos DB ل Apache Cassandra. أضف
com.microsoft.azure.cosmosdb:azure-cosmos-cassandra-spark-helper:1.2.0
إحداثيات maven لإرفاق المكتبة بمجموعة أجهزة الكمبيوتر.
إشعار
إذا كنت تستخدم Spark 3.x، فلن تحتاج إلى تثبيت Azure Cosmos DB لمكتبة Apache Cassandra الخاصة المذكورة أعلاه.
تحذير
جرى اختبار عينات Spark 3 الموضحة في هذه المقالة باستخدام الإصدار 3.2.1 من Spark، وموصل Cassandra Spark المُكافئ com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0. قد لا تعمل الإصدارات اللاحقة من Spark و/ أو موصل Cassandra كما هو متوقع.
دفاتر ملاحظات العينة
تتوفر قائمة بـ عينات دفاتر ملاحظات Azure Databricks في مستودع GitHub لتنزيلها. تتضمن هذه العينات كيفية الاتصال ب Azure Cosmos DB ل Apache Cassandra من Spark وتنفيذ عمليات CRUD مختلفة على البيانات. يمكنك أيضًا استيراد كافة دفاتر الملاحظات إلى مساحة عمل مجموعة Databricks وتشغيلها.
الوصول إلى Azure Cosmos DB ل Apache Cassandra من برامج Spark Scala
يتم إرسال برامج Spark ليتم تشغيلها كعمليات تلقائية على Azure Databricks إلى مجموعة أجهزة الكمبيوتر باستخدام spark-submit) ومن المقرر تشغيلها خلال مهام Azure Databricks.
فيما يلي ارتباطات لمساعدتك على البدء في إنشاء برامج Spark Scala للتفاعل مع Azure Cosmos DB ل Apache Cassandra.
- كيفية الاتصال ب Azure Cosmos DB ل Apache Cassandra من برنامج Spark Scala
- كيفية تشغيل برنامج Spark Scala كمهمة تلقائية على Azure Databricks
- قائمة كاملة من نماذج التعليمات البرمجية للعمل مع واجهة برمجة التطبيقات ل Cassandra
الخطوات التالية
ابدأ بإنشاء واجهة برمجة تطبيقات لحساب Cassandra وقاعدة بيانات وجدول باستخدام تطبيق Java.