الاتصال ب StreamSets

مقالة
03/01/2024

هام

هذه الميزة في المعاينة العامة.

تساعدك StreamSets على إدارة ومراقبة تدفق البيانات طوال دورة حياتها. يسمح لك تكامل StreamSets الأصلي مع Azure Databricks و Delta Lake بسحب البيانات من مصادر مختلفة وإدارة المسارات الخاصة بك بسهولة.

للحصول على عرض توضيحي عام ل StreamSets، شاهد فيديو YouTube التالي (10 دقائق).

فيما يلي خطوات استخدام StreamSets مع Azure Databricks.

الخطوة 1: إنشاء رمز مميز للوصول الشخصي ل Databricks

يصادق StreamSets مع Azure Databricks باستخدام رمز مميز للوصول الشخصي ل Azure Databricks.

إشعار

كأفضل ممارسة أمان، عند المصادقة باستخدام الأدوات والأنظمة والبرامج النصية والتطبيقات التلقائية، توصي Databricks باستخدام رموز الوصول الشخصية التي تنتمي إلى كيانات الخدمة بدلا من مستخدمي مساحة العمل. لإنشاء رموز مميزة لكيانات الخدمة، راجع إدارة الرموز المميزة لكيان الخدمة.

الخطوة 2: إعداد نظام مجموعة لدعم احتياجات التكامل

ستكتب StreamSets البيانات إلى مسار Azure Data Lake Storage وستقرأ مجموعة تكامل Azure Databricks البيانات من هذا الموقع. لذلك يتطلب نظام مجموعة التكامل وصولا آمنا إلى مسار Azure Data Lake Storage.

الوصول الآمن إلى مسار Azure Data Lake Storage

لتأمين الوصول إلى البيانات في Azure Data Lake Storage (ADLS)، يمكنك استخدام مفتاح الوصول إلى حساب تخزين Azure (مستحسن) أو أساس خدمة معرف Microsoft Entra.

استخدام مفتاح الوصول إلى حساب تخزين Azure

يمكنك تكوين مفتاح الوصول إلى حساب التخزين على مجموعة التكامل كجزء من تكوين Spark. تأكد من أن حساب التخزين لديه حق الوصول إلى حاوية ADLS ونظام الملفات المستخدم للبيانات المرحلية وحاوية ADLS ونظام الملفات حيث تريد كتابة جداول Delta Lake. لتكوين مجموعة التكامل لاستخدام المفتاح، اتبع الخطوات الواردة في الاتصال ب Azure Data Lake Storage Gen2 وBlob Storage.

استخدام كيان خدمة معرف Microsoft Entra

يمكنك تكوين كيان خدمة على مجموعة تكامل Azure Databricks كجزء من تكوين Spark. تأكد من أن كيان الخدمة لديه حق الوصول إلى حاوية ADLS المستخدمة للبيانات المرحلية وحاوية ADLS حيث تريد كتابة جداول Delta. لتكوين نظام مجموعة التكامل لاستخدام كيان الخدمة، اتبع الخطوات الواردة في Access ADLS Gen2 مع كيان الخدمة.

تحديد تكوين نظام المجموعة

تعيين وضع نظام المجموعة إلى قياسي.
تعيين إصدار وقت تشغيل Databricks إلى وقت التشغيل: 6.3 أو أعلى.
تمكين عمليات الكتابة المحسنة والضغط التلقائي عن طريق إضافة الخصائص التالية إلى تكوين Spark الخاص بك:
```
spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true
```
كون مجموعتك التخزينية بناء على احتياجاتك للتكامل والتحجيم.

للحصول على تفاصيل تكوين نظام المجموعة، راجع مرجع تكوين الحساب.

راجع الحصول على تفاصيل الاتصال لمورد حساب Azure Databricks للحصول على خطوات الحصول على عنوان URL JDBC ومسار HTTP.

الخطوة 3: الحصول على تفاصيل اتصال JDBC و ODBC للاتصال بنظام مجموعة

لتوصيل نظام مجموعة Azure Databricks ب StreamSets، تحتاج إلى خصائص اتصال JDBC/ODBC التالية:

JDBC URL
مسار HTTP

الخطوة 4: الحصول على StreamSets ل Azure Databricks

قم بالتسجيل في StreamSets ل Databricks، إذا لم يكن لديك حساب StreamSets بالفعل. يمكنك البدء مجانا والترقية عندما تكون مستعدا؛ راجع تسعير النظام الأساسي StreamSets DataOps.

الخطوة 5: تعرف على كيفية استخدام StreamSets لتحميل البيانات في Delta Lake

ابدأ بنموذج البنية الأساسية لبرنامج ربط العمليات التجارية أو تحقق من حلول StreamSets لمعرفة كيفية إنشاء مسار يدمج البيانات في Delta Lake.

الموارد الإضافية

الدعم

مشاركة عبر

الاتصال ب StreamSets

الخطوة 1: إنشاء رمز مميز للوصول الشخصي ل Databricks

الخطوة 2: إعداد نظام مجموعة لدعم احتياجات التكامل

الوصول الآمن إلى مسار Azure Data Lake Storage

استخدام مفتاح الوصول إلى حساب تخزين Azure

استخدام كيان خدمة معرف Microsoft Entra

تحديد تكوين نظام المجموعة

الخطوة 3: الحصول على تفاصيل اتصال JDBC و ODBC للاتصال بنظام مجموعة

الخطوة 4: الحصول على StreamSets ل Azure Databricks

الخطوة 5: تعرف على كيفية استخدام StreamSets لتحميل البيانات في Delta Lake

الموارد الإضافية

الملاحظات

الموارد الإضافية