قراءة البيانات المشتركة باستخدام مشاركة دلتا المفتوحة (للمستلمين)

مقالة
08/21/2024

توضح هذه المقالة كيفية قراءة البيانات التي تمت مشاركتها معك باستخدام بروتوكول مشاركة دلتا المفتوح. ويتضمن إرشادات لقراءة البيانات المشتركة باستخدام Databricks وApache Spark وpandas وPower BI وTableau.

في المشاركة المفتوحة، يمكنك استخدام ملف بيانات اعتماد تمت مشاركته مع أحد أعضاء فريقك من قبل موفر البيانات للحصول على وصول آمن للقراءة إلى البيانات المشتركة. يستمر الوصول طالما أن بيانات الاعتماد صالحة ويستمر الموفر في مشاركة البيانات. يدير الموفرون انتهاء صلاحية بيانات الاعتماد وتدارتها. تتوفر لك تحديثات البيانات في الوقت الفعلي تقريبا. يمكنك قراءة البيانات المشتركة وإنشاء نسخ منها، ولكن لا يمكنك تعديل البيانات المصدر.

إشعار

إذا تمت مشاركة البيانات معك باستخدام Databricks-to-Databricks Delta Sharing، فلن تحتاج إلى ملف بيانات اعتماد للوصول إلى البيانات، ولا تنطبق هذه المقالة عليك. للحصول على الإرشادات، راجع قراءة البيانات المشتركة باستخدام Databricks-to-Databricks Delta Sharing (للمستلمين).

تصف الأقسام التالية كيفية استخدام Azure Databricks وApache Spark وpandas وPower BI للوصول إلى البيانات المشتركة وقراءتها باستخدام ملف بيانات الاعتماد. للحصول على قائمة كاملة بموصلات Delta Sharing ومعلومات حول كيفية استخدامها، راجع وثائق مصدر مفتوح مشاركة دلتا. إذا واجهت مشكلة في الوصول إلى البيانات المشتركة، فاتصل بموفر البيانات.

إشعار

يتم توفير عمليات تكامل الشركاء، ما لم يتم ذكر خلاف ذلك، من قبل الجهات الخارجية ويجب أن يكون لديك حساب مع الموفر المناسب لاستخدام منتجاتها وخدماتها. في حين أن Databricks بذل قصارى جهده للحفاظ على هذا المحتوى محدثا، فإننا لا نقدم أي تمثيل فيما يتعلق بالتكاملات أو دقة المحتوى على صفحات تكامل الشريك. تواصل مع الموفرين المناسبين فيما يتعلق بالتكاملات.

قبل البدء

يجب على عضو في فريقك تنزيل ملف بيانات الاعتماد المشتركة من قبل موفر البيانات. راجع الحصول على حق الوصول في نموذج المشاركة المفتوح.

يجب أن يستخدموا قناة آمنة لمشاركة هذا الملف أو موقع الملف معك.

يصف هذا القسم كيفية استخدام موصل مشاركة مفتوح للوصول إلى البيانات المشتركة باستخدام دفتر ملاحظات في مساحة عمل Azure Databricks. تقوم أنت أو عضو آخر في فريقك بتخزين ملف بيانات الاعتماد في DBFS، ثم تستخدمه للمصادقة على حساب Azure Databricks الخاص بموفر البيانات وقراءة البيانات التي شاركها موفر البيانات معك.

إشعار

إذا كان موفر البيانات يستخدم مشاركة Databricks-to-Databricks ولم يشارك ملف بيانات اعتماد معك، فيجب عليك الوصول إلى البيانات باستخدام كتالوج Unity. للحصول على الإرشادات، راجع قراءة البيانات المشتركة باستخدام Databricks-to-Databricks Delta Sharing (للمستلمين).

في هذا المثال، يمكنك إنشاء دفتر ملاحظات بخلايا متعددة يمكنك تشغيلها بشكل مستقل. يمكنك بدلا من ذلك إضافة أوامر دفتر الملاحظات إلى الخلية نفسها وتشغيلها بالتسلسل.

الخطوة 1: تخزين ملف بيانات الاعتماد في DBFS (إرشادات Python)

في هذه الخطوة، يمكنك استخدام دفتر ملاحظات Python في Azure Databricks لتخزين ملف بيانات الاعتماد بحيث يمكن للمستخدمين في فريقك الوصول إلى البيانات المشتركة.

انتقل إلى الخطوة التالية إذا قمت أنت أو شخص ما في فريقك بتخزين ملف بيانات الاعتماد بالفعل في DBFS.

في محرر نص، افتح ملف بيانات الاعتماد.
في مساحة عمل Azure Databricks، انقر فوق دفتر ملاحظات جديد>.
- أدخل اسمًا.
- تعيين اللغة الافتراضية لدفتر الملاحظات إلى Python.
- حدد مجموعة لإرفاقها بدفتر الملاحظات.
- انقر فوق Create.
يتم فتح دفتر الملاحظات في محرر دفتر الملاحظات.
لاستخدام Python أو pandas للوصول إلى البيانات المشتركة، قم بتثبيت موصل Python لمشاركة دلتا. في محرر دفتر الملاحظات، الصق الأمر التالي:
```
%sh pip install delta-sharing
```
قم بتشغيل الخلية.

delta-sharing يتم تثبيت مكتبة Python في نظام المجموعة إذا لم تكن مثبتة بالفعل.
في خلية جديدة، الصق الأمر التالي الذي يقوم بتحميل محتويات ملف بيانات الاعتماد إلى مجلد في DBFS. استبدل المتغيرات كما يلي:
- <dbfs-path>: المسار إلى المجلد حيث تريد حفظ ملف بيانات الاعتماد
- <credential-file-contents>: محتويات ملف بيانات الاعتماد. هذا ليس مسارا إلى الملف، ولكن محتويات الملف المنسخة.
  
  يحتوي ملف بيانات الاعتماد على JSON الذي يعرف ثلاثة حقول: shareCredentialsVersionو endpointو.bearerToken
```
%scala
dbutils.fs.put("<dbfs-path>/config.share","""
<credential-file-contents>
""")
```
قم بتشغيل الخلية.

بعد تحميل ملف بيانات الاعتماد، يمكنك حذف هذه الخلية. يمكن لجميع مستخدمي مساحة العمل قراءة ملف بيانات الاعتماد من DBFS، وملف بيانات الاعتماد متوفر في DBFS على جميع المجموعات ومستودعات SQL في مساحة العمل الخاصة بك. لحذف الخلية، انقر فوق x في قائمة إجراءات الخلية في أقصى اليمين.

الخطوة 2: استخدام دفتر ملاحظات لسرد الجداول المشتركة وقراءتها

في هذه الخطوة، يمكنك سرد الجداول في المشاركة، أو مجموعة من الجداول والأقسام المشتركة، والاستعلام عن جدول.

باستخدام Python، قم بإدراج الجداول في المشاركة.

في خلية جديدة، الصق الأمر التالي. استبدل <dbfs-path> بالمسار الذي تم إنشاؤه في الخطوة 1: تخزين ملف بيانات الاعتماد في DBFS (إرشادات Python).

عند تشغيل التعليمات البرمجية، يقرأ Python ملف بيانات الاعتماد من DBFS على نظام المجموعة. الوصول إلى البيانات المخزنة في DBFS في المسار /dbfs/.
```
import delta_sharing

client = delta_sharing.SharingClient(f"/dbfs/<dbfs-path>/config.share")

client.list_all_tables()
```
قم بتشغيل الخلية.

والنتيجة هي صفيف من الجداول، جنبا إلى جنب مع بيانات التعريف لكل جدول. يظهر الإخراج التالي جدولين:
```
Out[10]: [Table(name='example_table', share='example_share_0', schema='default'), Table(name='other_example_table', share='example_share_0', schema='default')]
```
إذا كان الإخراج فارغا أو لا يحتوي على الجداول التي تتوقعها، فاتصل بموفر البيانات.
الاستعلام عن جدول مشترك.
- استخدام Scala:
  
  في خلية جديدة، الصق الأمر التالي. عند تشغيل التعليمات البرمجية، تتم قراءة ملف بيانات الاعتماد من DBFS من خلال JVM.
  
  استبدل المتغيرات كما يلي:
  - <profile-path>: مسار DBFS لملف بيانات الاعتماد. على سبيل المثال، /<dbfs-path>/config.share
  - <share-name>: قيمة share= للجدول.
  - <schema-name>: قيمة schema= للجدول.
  - <table-name>: قيمة name= للجدول.
```
%scala
    spark.read.format("deltaSharing")
    .load("<profile-path>#<share-name>.<schema-name>.<table-name>").limit(10);
```
  قم بتشغيل الخلية. في كل مرة تقوم فيها بتحميل الجدول المشترك، سترى بيانات جديدة من المصدر.
- استخدام SQL:
  
  للاستعلام عن البيانات باستخدام SQL، يمكنك إنشاء جدول محلي في مساحة العمل من الجدول المشترك، ثم الاستعلام عن الجدول المحلي. لا يتم تخزين البيانات المشتركة أو تخزينها مؤقتا في الجدول المحلي. في كل مرة تقوم فيها بالاستعلام عن الجدول المحلي، سترى الحالة الحالية للبيانات المشتركة.
  
  في خلية جديدة، الصق الأمر التالي.
  
  استبدل المتغيرات كما يلي:
  - <local-table-name>: اسم الجدول المحلي.
  - <profile-path>: موقع ملف بيانات الاعتماد.
  - <share-name>: قيمة share= للجدول.
  - <schema-name>: قيمة schema= للجدول.
  - <table-name>: قيمة name= للجدول.
```
%sql
DROP TABLE IF EXISTS table_name;

CREATE TABLE <local-table-name> USING deltaSharing LOCATION "<profile-path>#<share-name>.<schema-name>.<table-name>";

SELECT * FROM <local-table-name> LIMIT 10;
```
  عند تشغيل الأمر، يتم الاستعلام عن البيانات المشتركة مباشرة. كاختبار، يتم الاستعلام عن الجدول ويتم إرجاع أول 10 نتائج.
إذا كان الإخراج فارغا أو لا يحتوي على البيانات التي تتوقعها، فاتصل بموفر البيانات.

Apache Spark: قراءة البيانات المشتركة

اتبع هذه الخطوات للوصول إلى البيانات المشتركة باستخدام Spark 3.x أو أعلى.

تفترض هذه الإرشادات أن لديك حق الوصول إلى ملف بيانات الاعتماد الذي شاركه موفر البيانات. راجع الحصول على حق الوصول في نموذج المشاركة المفتوح.

للوصول إلى بيانات التعريف المتعلقة بالبيانات المشتركة، مثل قائمة الجداول المشتركة معك، قم بما يلي. يستخدم هذا المثال Python.

تثبيت موصل Python لمشاركة دلتا:
```
pip install delta-sharing
```
تثبيت موصل Apache Spark.

سرد الجداول المشتركة باستخدام Spark

سرد الجداول في المشاركة. في المثال التالي، استبدل <profile-path> بموقع ملف بيانات الاعتماد.

import delta_sharing

client = delta_sharing.SharingClient(f"<profile-path>/config.share")

client.list_all_tables()

والنتيجة هي صفيف من الجداول، جنبا إلى جنب مع بيانات التعريف لكل جدول. يظهر الإخراج التالي جدولين:

Out[10]: [Table(name='example_table', share='example_share_0', schema='default'), Table(name='other_example_table', share='example_share_0', schema='default')]

إذا كان الإخراج فارغا أو لا يحتوي على الجداول التي تتوقعها، فاتصل بموفر البيانات.

الوصول إلى البيانات المشتركة باستخدام Spark

قم بتشغيل ما يلي، مع استبدال هذه المتغيرات:

<profile-path>: موقع ملف بيانات الاعتماد.
<share-name>: قيمة share= للجدول.
<schema-name>: قيمة schema= للجدول.
<table-name>: قيمة name= للجدول.
<version-as-of>:اختياري. إصدار الجدول لتحميل البيانات. يعمل فقط إذا كان موفر البيانات يشارك محفوظات الجدول. delta-sharing-spark يتطلب 0.5.0 أو أعلى.
<timestamp-as-of>:اختياري. قم بتحميل البيانات في الإصدار قبل الطابع الزمني المحدد أو في وقت معين. يعمل فقط إذا كان موفر البيانات يشارك محفوظات الجدول. delta-sharing-spark يتطلب 0.6.0 أو أعلى.

Python

delta_sharing.load_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>", version=<version-as-of>)

spark.read.format("deltaSharing")\
.option("versionAsOf", <version-as-of>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")\
.limit(10))

delta_sharing.load_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>", timestamp=<timestamp-as-of>)

spark.read.format("deltaSharing")\
.option("timestampAsOf", <timestamp-as-of>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")\
.limit(10))

Scala

قم بتشغيل ما يلي، مع استبدال هذه المتغيرات:

<profile-path>: موقع ملف بيانات الاعتماد.
<share-name>: قيمة share= للجدول.
<schema-name>: قيمة schema= للجدول.
<table-name>: قيمة name= للجدول.
<version-as-of>:اختياري. إصدار الجدول لتحميل البيانات. يعمل فقط إذا كان موفر البيانات يشارك محفوظات الجدول. delta-sharing-spark يتطلب 0.5.0 أو أعلى.
<timestamp-as-of>:اختياري. قم بتحميل البيانات في الإصدار قبل الطابع الزمني المحدد أو في وقت معين. يعمل فقط إذا كان موفر البيانات يشارك محفوظات الجدول. delta-sharing-spark يتطلب 0.6.0 أو أعلى.

spark.read.format("deltaSharing")
.option("versionAsOf", <version-as-of>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
.limit(10)

spark.read.format("deltaSharing")
.option("timestampAsOf", <version-as-of>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
.limit(10)

الوصول إلى موجز بيانات التغيير المشترك باستخدام Spark

إذا تمت مشاركة محفوظات الجدول معك وتم تمكين موجز البيانات (CDF) على الجدول المصدر، يمكنك الوصول إلى موجز بيانات التغيير عن طريق تشغيل ما يلي، واستبدال هذه المتغيرات. delta-sharing-spark يتطلب 0.5.0 أو أعلى.

يجب توفير معلمة بدء واحدة فقط.

<profile-path>: موقع ملف بيانات الاعتماد.
<share-name>: قيمة share= للجدول.
<schema-name>: قيمة schema= للجدول.
<table-name>: قيمة name= للجدول.
<starting-version>:اختياري. إصدار البداية للاستعلام، ضمنا. حدد ك طويل.
<ending-version>:اختياري. الإصدار الأخير من الاستعلام، ضمنا. إذا لم يتم توفير الإصدار الأخير، فإن واجهة برمجة التطبيقات تستخدم أحدث إصدار من الجدول.
<starting-timestamp>:اختياري. الطابع الزمني لبدء الاستعلام، يتم تحويل هذا إلى إصدار تم إنشاؤه أكبر أو يساوي هذا الطابع الزمني. حدد كسلسلة بالتنسيق yyyy-mm-dd hh:mm:ss[.fffffffff].
<ending-timestamp>:اختياري. الطابع الزمني لنهاية الاستعلام، يتم تحويل هذا إلى إصدار تم إنشاؤه مسبقا أو يساوي هذا الطابع الزمني. تحديد كسلسلة بالتنسيق yyyy-mm-dd hh:mm:ss[.fffffffff]

Python

delta_sharing.load_table_changes_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_version=<starting-version>,
  ending_version=<ending-version>)

delta_sharing.load_table_changes_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_timestamp=<starting-timestamp>,
  ending_timestamp=<ending-timestamp>)

spark.read.format("deltaSharing").option("readChangeFeed", "true")\
.option("statingVersion", <starting-version>)\
.option("endingVersion", <ending-version>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

spark.read.format("deltaSharing").option("readChangeFeed", "true")\
.option("startingTimestamp", <starting-timestamp>)\
.option("endingTimestamp", <ending-timestamp>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Scala

spark.read.format("deltaSharing").option("readChangeFeed", "true")
.option("statingVersion", <starting-version>)
.option("endingVersion", <ending-version>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

spark.read.format("deltaSharing").option("readChangeFeed", "true")
.option("startingTimestamp", <starting-timestamp>)
.option("endingTimestamp", <ending-timestamp>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

إذا كان الإخراج فارغا أو لا يحتوي على البيانات التي تتوقعها، فاتصل بموفر البيانات.

الوصول إلى جدول مشترك باستخدام Spark Structured Streaming

إذا تمت مشاركة محفوظات الجدول معك، يمكنك دفق قراءة البيانات المشتركة. delta-sharing-spark يتطلب 0.6.0 أو أعلى.

الخيارات المدعومة:

ignoreDeletes: تجاهل المعاملات التي تحذف البيانات.
ignoreChanges: إعادة معالجة التحديثات إذا تمت إعادة كتابة الملفات في الجدول المصدر بسبب عملية تغيير البيانات مثل UPDATEأو MERGE INTOأو DELETE (داخل الأقسام) أو OVERWRITE. لا يزال من الممكن إصدار الصفوف التي لم يتم تغييرها. لذلك يجب أن يكون مستهلكو انتقال البيانات من الخادم قادرين على التعامل مع التكرارات. لا يتم نشر عمليات الحذف في المراحل النهائية. ignoreChanges مجلدات فرعية ignoreDeletes. لذلك إذا كنت تستخدم ignoreChanges، فلن يتم تعطيل الدفق الخاص بك إما عن طريق عمليات الحذف أو التحديثات إلى الجدول المصدر.
startingVersion: إصدار الجدول المشترك للبدء منه. ستتم قراءة جميع تغييرات الجدول بدءا من هذا الإصدار (شاملة) من قبل مصدر البث.
startingTimestamp: الطابع الزمني للبدء منه. ستتم قراءة جميع تغييرات الجدول التي تم إجراؤها في الطابع الزمني أو بعده (شاملة) من قبل مصدر البث. مثال:"2023-01-01 00:00:00.0".
maxFilesPerTrigger: عدد الملفات الجديدة التي سيتم النظر فيها في كل دفعة صغيرة.
maxBytesPerTrigger: كمية البيانات التي تتم معالجتها في كل دفعة صغيرة. يعين هذا الخيار "الحد الأقصى الناعم"، ما يعني أن الدفعة تعالج هذا القدر من البيانات تقريبا وقد تعالج أكثر من الحد لجعل استعلام الدفق يتحرك للأمام في الحالات التي تكون فيها أصغر وحدة إدخال أكبر من هذا الحد.
readChangeFeed: قراءة الدفق لموجز بيانات التغيير للجدول المشترك.

خيارات غير معتمدة:

Trigger.availableNow

نموذج استعلامات الدفق المنظم

Scala

spark.readStream.format("deltaSharing")
.option("startingVersion", 0)
.option("ignoreChanges", true)
.option("maxFilesPerTrigger", 10)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Python

spark.readStream.format("deltaSharing")\
.option("startingVersion", 0)\
.option("ignoreDeletes", true)\
.option("maxBytesPerTrigger", 10000)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

راجع أيضا البث على Azure Databricks.

قراءة الجداول مع تمكين متجهات الحذف أو تعيين العمود

هام

هذه الميزة في المعاينة العامة.

متجهات الحذف هي ميزة تحسين التخزين التي يمكن للموفر تمكينها على جداول دلتا المشتركة. راجع ما هي متجهات الحذف؟.

يدعم Azure Databricks أيضا تعيين الأعمدة لجداول Delta. راجع إعادة تسمية الأعمدة وإفلاتها باستخدام تعيين عمود Delta Lake.

إذا شارك الموفر جدولا مع تمكين متجهات الحذف أو تعيين العمود، يمكنك قراءة الجدول باستخدام الحساب الذي يعمل ب delta-sharing-spark 3.1 أو أعلى. إذا كنت تستخدم مجموعات Databricks، يمكنك إجراء قراءات دفعية باستخدام نظام مجموعة يقوم بتشغيل Databricks Runtime 14.1 أو أعلى. تتطلب استعلامات CDF والتدفق Databricks Runtime 14.2 أو أعلى.

يمكنك تنفيذ استعلامات الدفعات كما هي، لأنها يمكن حلها responseFormat تلقائيا استنادا إلى ميزات الجدول للجدول المشترك.

لقراءة موجز بيانات التغيير (CDF) أو لتنفيذ استعلامات الدفق على الجداول المشتركة مع تمكين متجهات الحذف أو تعيين العمود، يجب تعيين الخيار responseFormat=deltaالإضافي .

توضح الأمثلة التالية استعلامات الدفعة وCDF والتدفق:

import org.apache.spark.sql.SparkSession

val spark = SparkSession
        .builder()
        .appName("...")
        .master("...")
        .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
        .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
        .getOrCreate()

val tablePath = "<profile-file-path>#<share-name>.<schema-name>.<table-name>"

// Batch query
spark.read.format("deltaSharing").load(tablePath)

// CDF query
spark.read.format("deltaSharing")
  .option("readChangeFeed", "true")
  .option("responseFormat", "delta")
  .option("startingVersion", 1)
  .load(tablePath)

// Streaming query
spark.readStream.format("deltaSharing").option("responseFormat", "delta").load(tablePath)

Pandas: قراءة البيانات المشتركة

اتبع هذه الخطوات للوصول إلى البيانات المشتركة في pandas 0.25.3 أو أعلى.

للوصول إلى بيانات التعريف المتعلقة بالبيانات المشتركة، مثل قائمة الجداول المشتركة معك، يجب تثبيت موصل Python لمشاركة دلتا.

pip install delta-sharing

سرد الجداول المشتركة باستخدام pandas

لسرد الجداول في المشاركة، قم بتشغيل ما يلي، مع <profile-path>/config.share استبدال بموقع ملف بيانات الاعتماد.

import delta_sharing

client = delta_sharing.SharingClient(f"<profile-path>/config.share")

client.list_all_tables()

إذا كان الإخراج فارغا أو لا يحتوي على الجداول التي تتوقعها، فاتصل بموفر البيانات.

الوصول إلى البيانات المشتركة باستخدام pandas

للوصول إلى البيانات المشتركة في pandas باستخدام Python، قم بتشغيل ما يلي، واستبدل المتغيرات كما يلي:

<profile-path>: موقع ملف بيانات الاعتماد.
<share-name>: قيمة share= للجدول.
<schema-name>: قيمة schema= للجدول.
<table-name>: قيمة name= للجدول.

import delta_sharing
delta_sharing.load_as_pandas(f"<profile-path>#<share-name>.<schema-name>.<table-name>")

الوصول إلى موجز بيانات التغيير المشترك باستخدام pandas

للوصول إلى موجز بيانات التغيير لجدول مشترك في pandas باستخدام Python، قم بتشغيل ما يلي، واستبدل المتغيرات كما يلي. قد لا يتوفر موجز بيانات التغيير، اعتمادا على ما إذا كان موفر البيانات قد شارك موجز بيانات التغيير للجدول أم لا.

<starting-version>:اختياري. إصدار البداية للاستعلام، ضمنا.
<ending-version>:اختياري. الإصدار الأخير من الاستعلام، ضمنا.
<starting-timestamp>:اختياري. الطابع الزمني لبدء الاستعلام. يتم تحويل هذا إلى إصدار تم إنشاؤه أكبر أو يساوي هذا الطابع الزمني.
<ending-timestamp>:اختياري. الطابع الزمني للانتهاء للاستعلام. يتم تحويل هذا إلى إصدار تم إنشاؤه مسبقا أو يساوي هذا الطابع الزمني.

import delta_sharing
delta_sharing.load_table_changes_as_pandas(
  f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_version=<starting-version>,
  ending_version=<starting-version>)

delta_sharing.load_table_changes_as_pandas(
  f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_timestamp=<starting-timestamp>,
  ending_timestamp=<ending-timestamp>)

إذا كان الإخراج فارغا أو لا يحتوي على البيانات التي تتوقعها، فاتصل بموفر البيانات.

Power BI: قراءة البيانات المشتركة

يسمح لك موصل Power BI Delta Sharing باكتشاف مجموعات البيانات المشتركة معك وتحليلها وتصورها من خلال بروتوكول مشاركة دلتا المفتوح.

المتطلبات

Power BI Desktop 2.99.621.0 أو أعلى.
الوصول إلى ملف بيانات الاعتماد الذي تمت مشاركته من قبل موفر البيانات. راجع الحصول على حق الوصول في نموذج المشاركة المفتوح.

الاتصال ب Databricks

للاتصال ب Azure Databricks باستخدام موصل Delta Sharing، قم بما يلي:

افتح ملف بيانات الاعتماد المشتركة باستخدام محرر نص لاسترداد عنوان URL لنقطة النهاية والرمز المميز.
افتح Power BI Desktop.
في قائمة الحصول على البيانات ، ابحث عن Delta Sharing.
حدد الموصل وانقر فوق اتصال.
أدخل عنوان URL لنقطة النهاية الذي نسخته من ملف بيانات الاعتماد في حقل عنوان URL لخادم مشاركة دلتا.
بشكل اختياري، في علامة التبويب خيارات متقدمة، قم بتعيين حد الصفوف للحد الأقصى لعدد الصفوف التي يمكنك تنزيلها. يتم تعيين هذا إلى 1 مليون صف بشكل افتراضي.
وانقر فوق موافق.
للمصادقة، انسخ الرمز المميز الذي قمت باسترداده من ملف بيانات الاعتماد إلى الرمز المميز للحامل.
انقر على اتصال.

يحتوي موصل مشاركة Power BI Delta على القيود التالية:

يجب أن تتلاءم البيانات التي يقوم الموصل بتحميلها مع ذاكرة جهازك. لإدارة هذا المطلب، يحد الموصل من عدد الصفوف المستوردة إلى حد الصفوف الذي قمت بتعيينه ضمن علامة التبويب خيارات متقدمة في Power BI Desktop.

Tableau: قراءة البيانات المشتركة

يسمح لك موصل Tableau Delta Sharing باكتشاف مجموعات البيانات التي تتم مشاركتها معك وتحليلها وتصورها من خلال بروتوكول فتح Delta Sharing.

المتطلبات

Tableau Desktop وTableau Server 2024.1 أو أعلى
الوصول إلى ملف بيانات الاعتماد الذي تمت مشاركته من قبل موفر البيانات. راجع الحصول على حق الوصول في نموذج المشاركة المفتوح.

الاتصال ب Azure Databricks

للاتصال ب Azure Databricks باستخدام موصل Delta Sharing، قم بما يلي:

انتقل إلى Tableau Exchange، واتبع الإرشادات لتنزيل Delta Sharing Connector، وضعه في مجلد سطح مكتب مناسب.
افتح Tableau Desktop.
في صفحة الموصلات ، ابحث عن "Delta Sharing by Databricks".
حدد تحميل ملف مشاركة، واختر ملف بيانات الاعتماد الذي شاركه الموفر.
انقر فوق Get Data.
في مستكشف البيانات، حدد الجدول.
إضافة عوامل تصفية SQL أو حدود الصفوف اختياريا.
انقر فوق الحصول على بيانات الجدول.

يحتوي Tableau Delta Sharing Connector على القيود التالية:

يجب أن تتلاءم البيانات التي يقوم الموصل بتحميلها مع ذاكرة جهازك. لإدارة هذا المطلب، يحد الموصل من عدد الصفوف المستوردة إلى حد الصفوف الذي قمت بتعيينه في Tableau.
يتم إرجاع كافة الأعمدة كنوع String.
يعمل عامل تصفية SQL فقط إذا كان خادم Delta Sharing يدعم predicateHint.

طلب بيانات اعتماد جديدة

إذا تم فقدان عنوان URL لتنشيط بيانات الاعتماد أو بيانات الاعتماد التي تم تنزيلها أو تلفها أو اختراقها، أو انتهت صلاحية بيانات الاعتماد الخاصة بك دون أن يرسل لك الموفر بيانات اعتماد جديدة، فاتصل بموفر الخدمة لطلب بيانات اعتماد جديدة.

مشاركة عبر

قبل البدء

الخطوة 1: تخزين ملف بيانات الاعتماد في DBFS (إرشادات Python)

الخطوة 2: استخدام دفتر ملاحظات لسرد الجداول المشتركة وقراءتها

Apache Spark: قراءة البيانات المشتركة

سرد الجداول المشتركة باستخدام Spark

الوصول إلى البيانات المشتركة باستخدام Spark

Python

Scala

الوصول إلى موجز بيانات التغيير المشترك باستخدام Spark

Python

Scala

الوصول إلى جدول مشترك باستخدام Spark Structured Streaming

نموذج استعلامات الدفق المنظم

Scala

Python

قراءة الجداول مع تمكين متجهات الحذف أو تعيين العمود

Pandas: قراءة البيانات المشتركة

سرد الجداول المشتركة باستخدام pandas

الوصول إلى البيانات المشتركة باستخدام pandas

الوصول إلى موجز بيانات التغيير المشترك باستخدام pandas

Power BI: قراءة البيانات المشتركة

المتطلبات

الاتصال ب Databricks

Tableau: قراءة البيانات المشتركة

المتطلبات

الاتصال ب Azure Databricks

طلب بيانات اعتماد جديدة

الملاحظات

الموارد الإضافية

مشاركة عبر

قبل البدء

Azure Databricks: قراءة البيانات المشتركة باستخدام موصلات المشاركة المفتوحة

الخطوة 1: تخزين ملف بيانات الاعتماد في DBFS (إرشادات Python)

الخطوة 2: استخدام دفتر ملاحظات لسرد الجداول المشتركة وقراءتها

Apache Spark: قراءة البيانات المشتركة

تثبيت موصلات Delta Sharing Python وSpark

سرد الجداول المشتركة باستخدام Spark

الوصول إلى البيانات المشتركة باستخدام Spark

Python

Scala

الوصول إلى موجز بيانات التغيير المشترك باستخدام Spark

Python

Scala

الوصول إلى جدول مشترك باستخدام Spark Structured Streaming

نموذج استعلامات الدفق المنظم

Scala

Python

قراءة الجداول مع تمكين متجهات الحذف أو تعيين العمود

Pandas: قراءة البيانات المشتركة

تثبيت موصل Delta Sharing Python

سرد الجداول المشتركة باستخدام pandas

الوصول إلى البيانات المشتركة باستخدام pandas

الوصول إلى موجز بيانات التغيير المشترك باستخدام pandas

Power BI: قراءة البيانات المشتركة

المتطلبات

الاتصال ب Databricks

قيود موصل Power BI Delta Sharing

Tableau: قراءة البيانات المشتركة

المتطلبات

الاتصال ب Azure Databricks

قيود موصل Tableau Delta Sharing

طلب بيانات اعتماد جديدة

الملاحظات

الموارد الإضافية