قراءة جداول مشاركة دلتا المشتركة باستخدام Apache Spark DataFrames

مقالة
08/06/2024

توفر هذه المقالة أمثلة بناء الجملة لاستخدام Apache Spark للاستعلام عن البيانات المشتركة باستخدام Delta Sharing. deltasharing استخدم الكلمة الأساسية كخيار تنسيق لعمليات DataFrame.

خيارات أخرى للاستعلام عن البيانات المشتركة

يمكنك أيضا إنشاء استعلامات تستخدم أسماء الجداول المشتركة في كتالوجات Delta Sharing المسجلة في metastore، مثل تلك الموجودة في الأمثلة التالية:

SQL

SELECT * FROM shared_table_name

Python

spark.read.table("shared_table_name")

لمزيد من المعلومات حول تكوين Delta Sharing في Azure Databricks والاستعلام عن البيانات باستخدام أسماء الجداول المشتركة، راجع قراءة البيانات المشتركة باستخدام Databricks-to-Databricks Delta Sharing (للمستلمين).

يمكنك استخدام Structured Streaming لمعالجة السجلات في الجداول المشتركة بشكل متزايد. لاستخدام Structured Streaming، يجب تمكين مشاركة المحفوظات للجدول. راجع ALTER SHARE. تتطلب مشاركة المحفوظات Databricks Runtime 12.2 LTS أو أعلى.

إذا تم تمكين موجز البيانات لتغيير الجدول المشترك على جدول Delta المصدر والمحفوظات الممكنة على المشاركة، يمكنك استخدام موجز بيانات التغيير أثناء قراءة مشاركة Delta مع عمليات Structured Streaming أو batch. راجع استخدام موجز بيانات تغيير Delta Lake على Azure Databricks.

deltasharing يتم دعم الكلمة الأساسية لعمليات قراءة Apache Spark DataFrame، كما هو موضح في المثال التالي:

df = (spark.read
  .format("deltasharing")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

بالنسبة للجداول التي تم فيها مشاركة المحفوظات وتمكين موجز البيانات للتغيير، يمكنك قراءة سجلات موجز البيانات المتغيرة باستخدام Apache Spark DataFrames. تتطلب مشاركة المحفوظات Databricks Runtime 12.2 LTS أو أعلى.

df = (spark.read
  .format("deltasharing")
  .option("readChangeFeed", "true")
  .option("startingTimestamp", "2021-04-21 05:45:46")
  .option("endingTimestamp", "2021-05-21 12:00:00")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

بالنسبة للجداول التي تمت مشاركة المحفوظات فيها، يمكنك استخدام الجدول المشترك كمصدر للبث المنظم. تتطلب مشاركة المحفوظات Databricks Runtime 12.2 LTS أو أعلى.

streaming_df = (spark.readStream
  .format("deltasharing")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

# If CDF is enabled on the source table
streaming_cdf_df = (spark.readStream
  .format("deltasharing")
  .option("readChangeFeed", "true")
  .option("startingTimestamp", "2021-04-21 05:45:46")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

مشاركة عبر

خيارات أخرى للاستعلام عن البيانات المشتركة

SQL

Python

الملاحظات

الموارد الإضافية

مشاركة عبر

خيارات أخرى للاستعلام عن البيانات المشتركة

SQL

Python

القراءة باستخدام الكلمة الأساسية لتنسيق Delta Sharing

قراءة موجز بيانات التغيير للجداول المشتركة لمشاركة دلتا

قراءة الجداول المشتركة ل Delta Sharing باستخدام Structured Streaming

الملاحظات

الموارد الإضافية