sparklyr

مقالة
03/01/2024

يدعم Azure Databricks sparklyr في دفاتر الملاحظات والوظائف وRStudio Desktop. توضح هذه المقالة كيفية استخدام sparklyr وتوفر أمثلة على البرامج النصية التي يمكنك تشغيلها. راجع واجهة R إلى Apache Spark لمزيد من المعلومات.

المتطلبات

يوزع Azure Databricks أحدث إصدار مستقر من sparklyr مع كل إصدار من إصدارات وقت تشغيل Databricks. يمكنك استخدام sparklyr في دفاتر ملاحظات Azure Databricks R أو داخل RStudio Server المستضاف على Azure Databricks عن طريق استيراد الإصدار المثبت من sparklyr.

في RStudio Desktop، يسمح لك Databricks Connect بتوصيل sparklyr من جهازك المحلي إلى مجموعات Azure Databricks وتشغيل التعليمات البرمجية ل Apache Spark. راجع استخدام sparklyr وRStudio Desktop مع Databricks Connect.

توصيل sparklyr إلى مجموعات Azure Databricks

لإنشاء اتصال sparklyr، يمكنك استخدام "databricks" كأسلوب اتصال في spark_connect(). لا توجد معلمات spark_connect() إضافية مطلوبة، ولا يلزم استدعاء spark_install() لأن Spark مثبت بالفعل على نظام مجموعة Azure Databricks.

# Calling spark_connect() requires the sparklyr package to be loaded first.
library(sparklyr)

# Create a sparklyr connection.
sc <- spark_connect(method = "databricks")

أشرطة التقدم وواجهة مستخدم Spark مع sparklyr

إذا قمت بتعيين كائن اتصال sparklyr إلى متغير يسمى sc كما في المثال أعلاه، فسترى أشرطة تقدم Spark في دفتر الملاحظات بعد كل أمر يقوم بتشغيل مهام Spark. بالإضافة إلى ذلك، يمكنك النقر فوق الارتباط الموجود بجانب شريط التقدم لعرض واجهة مستخدم Spark المقترنة بمهمة Spark المحددة.

تقدم Sparklyr

استخدام sparklyr

بعد تثبيت sparklyr وإنشاء الاتصال، تعمل جميع sparklyr API الأخرى كما تفعل عادة. راجع مثال دفتر الملاحظات لبعض الأمثلة.

عادة ما يتم استخدام sparklyr جنبا إلى جنب مع حزم tidyverse الأخرى مثل dplyr. يتم تثبيت معظم هذه الحزم مسبقا على Databricks لراحتك. يمكنك ببساطة استيرادها والبدء في استخدام واجهة برمجة التطبيقات.

استخدام sparklyr وSparkR معا

يمكن استخدام SparkR وsparklyr معا في دفتر ملاحظات أو مهمة واحدة. يمكنك استيراد SparkR مع sparklyr واستخدام وظائفه. في دفاتر ملاحظات Azure Databricks، يتم تكوين اتصال SparkR مسبقا.

بعض الدالات في SparkR تخفي عددا من الدالات في dplyr:

> library(SparkR)
The following objects are masked from ‘package:dplyr’:

arrange, between, coalesce, collect, contains, count, cume_dist,
dense_rank, desc, distinct, explain, filter, first, group_by,
intersect, lag, last, lead, mutate, n, n_distinct, ntile,
percent_rank, rename, row_number, sample_frac, select, sql,
summarize, union

إذا قمت باستيراد SparkR بعد استيراد dplyr، يمكنك الرجوع إلى الدالات في dplyr باستخدام الأسماء المؤهلة بالكامل، على سبيل المثال، dplyr::arrange(). وبالمثل إذا قمت باستيراد dplyr بعد SparkR، يتم إخفاء الوظائف في SparkR بواسطة dplyr.

بدلا من ذلك، يمكنك فصل إحدى الحزمتين بشكل انتقائي بينما لا تحتاج إليها.

detach("package:dplyr")

راجع أيضا مقارنة SparkR وsparklyr.

استخدام sparklyr في مهام spark-submit

يمكنك تشغيل البرامج النصية التي تستخدم sparklyr على Azure Databricks كمهام إرسال spark، مع تعديلات طفيفة على التعليمات البرمجية. لا تنطبق بعض الإرشادات أعلاه على استخدام sparklyr في مهام إرسال spark على Azure Databricks. على وجه الخصوص، يجب توفير عنوان URL الرئيسي ل Spark إلى spark_connect. على سبيل المثال:

library(sparklyr)

sc <- spark_connect(method = "databricks", spark_home = "<spark-home-path>")
...

ميزات غير معتمدة

لا يدعم Azure Databricks أساليب sparklyr مثل spark_web() والتي spark_log() تتطلب مستعرضا محليا. ومع ذلك، نظرا لأن واجهة مستخدم Spark مضمنة في Azure Databricks، يمكنك فحص وظائف وسجلات Spark بسهولة. راجع حساب سجلات برنامج التشغيل والعامل.

مثال على دفتر الملاحظات: عرض Sparklyr التوضيحي

دفتر ملاحظات Sparklyr

الحصول على دفتر الملاحظات

للحصول على أمثلة إضافية، راجع العمل مع DataFrames والجداول في R.

مشاركة عبر