Databricks Connect ل R

مقالة
11/16/2024

إشعار

تتناول sparklyr هذه المقالة التكامل مع Databricks Connect ل Databricks Runtime 13.0 وما فوق. لا يوفر Databricks هذا التكامل ولا يدعمه Databricks مباشرة.

للأسئلة، انتقل إلى مجتمع Posit.

للإبلاغ عن المشكلات، انتقل إلى قسم المشكلات في sparklyr المستودع في GitHub.

لمزيد من المعلومات، راجع Databricks Connect v2 في sparklyr الوثائق.

توضح هذه المقالة كيفية بدء استخدام Databricks Connect بسرعة باستخدام R و sparklyrو RStudio Desktop.

للحصول على إصدار Python من هذه المقالة، راجع Databricks Connect ل Python.
للحصول على إصدار Scala من هذه المقالة، راجع Databricks Connect ل Scala.

يمكنك Databricks Connect من توصيل IDEs الشائعة مثل RStudio Desktop وخوادم دفتر الملاحظات والتطبيقات المخصصة الأخرى إلى مجموعات Azure Databricks. راجع ما هو Databricks Connect؟.

برنامج تعليمي

يستخدم هذا البرنامج التعليمي RStudio Desktop وPython 3.10. إذا لم تكن مثبتة بالفعل، فقم بتثبيت R وRStudio Desktop وPython 3.10.

للحصول على معلومات إضافية حول هذا البرنامج التعليمي، راجع قسم "Databricks Connect" في Spark Connect، وDatabricks Connect v2 على sparklyr موقع الويب.

المتطلبات

لإكمال هذا البرنامج التعليمي، يجب أن تفي بالمتطلبات التالية:

يجب أن تفي مساحة عمل Azure Databricks المستهدفة والمجموعة بمتطلبات تكوين الحساب ل Databricks Connect.
يجب أن يكون لديك معرف نظام المجموعة الخاص بك متوفرا. للحصول على معرف نظام المجموعة، في مساحة العمل، انقر فوق حساب على الشريط الجانبي، ثم انقر فوق اسم نظام المجموعة. في شريط عناوين مستعرض الويب، انسخ سلسلة الأحرف بين clusters عنوان URL وفيه configuration .

الخطوة 1: إنشاء رمز مميز للوصول الشخصي

إشعار

يدعم Databricks Connect لمصادقة R حاليا فقط الرموز المميزة للوصول الشخصي ل Azure Databricks.

يستخدم هذا البرنامج التعليمي مصادقة رمز الوصول الشخصي Azure Databricks للمصادقة مع مساحة عمل Azure Databricks.

إذا كان لديك بالفعل رمز مميز للوصول الشخصي إلى Azure Databricks، فانتقل إلى الخطوة 2. إذا لم تكن متأكدا مما إذا كان لديك بالفعل رمز وصول شخصي ل Azure Databricks، يمكنك اتباع هذه الخطوة دون التأثير على أي رموز وصول شخصية أخرى ل Azure Databricks في حساب المستخدم الخاص بك.

لإنشاء رمز مميز للوصول الشخصي، اتبع الخطوات الواردة في رموز الوصول الشخصي Azure Databricks لمستخدمي مساحة العمل.

الخطوة 2: إنشاء المشروع

ابدأ تشغيل RStudio Desktop.
في القائمة الرئيسية، انقر فوق ملف > مشروع جديد.
حدد New Directory.
حدد مشروع جديد.
بالنسبة إلى اسم الدليل وإنشاء مشروع كدليل فرعي ل، أدخل اسم دليل المشروع الجديد ومكان إنشاء دليل المشروع الجديد هذا.
حدد استخدام renv مع هذا المشروع. إذا تمت مطالبتك بتثبيت إصدار محدث من الحزمة renv ، فانقر فوق نعم.
انقر فوق Create Project.

إنشاء مشروع RStudio Desktop

الخطوة 3: إضافة حزمة Databricks Connect والتبعيات الأخرى

في القائمة الرئيسية لسطح المكتب RStudio، انقر فوق أدوات > تثبيت الحزم.
اترك Install من set to Repository (CRAN).
بالنسبة إلى الحزم، أدخل القائمة التالية من الحزم التي تعد متطلبات أساسية لحزمة Databricks Connect وهذا البرنامج التعليمي:
```
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
```
اترك Install to Library معينا على بيئة R الظاهرية.
تأكد من تحديد تثبيت التبعيات .
انقر فوق تثبيت.

تثبيت تبعيات حزمة Databricks Connect

عند مطالبتك في طريقة عرض وحدة التحكم (عرض > نقل التركيز إلى وحدة التحكم) لمتابعة التثبيت، أدخل Y. sparklyr يتم تثبيت الحزم و pysparklyr وتبعياتها في بيئة R الظاهرية.
في جزء وحدة التحكم ، استخدم reticulate لتثبيت Python عن طريق تشغيل الأمر التالي. (يتطلب reticulate Databricks Connect for R تثبيت Python أولا.) في الأمر التالي، استبدل 3.10 بالإصدار الرئيسي والثانوي من إصدار Python المثبت على نظام مجموعة Azure Databricks. للعثور على هذا الإصدار الرئيسي والثانوي، راجع قسم "بيئة النظام" من ملاحظات الإصدار لإصدار Databricks Runtime لنظام المجموعة في إصدارات ملاحظات إصدار Databricks Runtime والتوافق.
```
reticulate::install_python(version = "3.10")
```
في جزء وحدة التحكم ، قم بتثبيت حزمة Databricks Connect عن طريق تشغيل الأمر التالي. في الأمر التالي، استبدل 13.3 بإصدار Databricks Runtime المثبت على نظام مجموعة Azure Databricks. للعثور على هذا الإصدار، في صفحة تفاصيل نظام المجموعة في مساحة عمل Azure Databricks، في علامة التبويب Configuration ، راجع مربع Databricks Runtime Version .
```
pysparklyr::install_databricks(version = "13.3")
```
إذا كنت لا تعرف إصدار Databricks Runtime لنظام المجموعة الخاص بك أو كنت لا تريد البحث عنه، يمكنك تشغيل الأمر التالي بدلا من ذلك، pysparklyr وستقوم بالاستعلام عن نظام المجموعة لتحديد إصدار وقت تشغيل Databricks الصحيح لاستخدامه:
```
pysparklyr::install_databricks(cluster_id = "<cluster-id>")
```
إذا كنت تريد أن يتصل مشروعك لاحقا بمجموعة مختلفة لها نفس إصدار Databricks Runtime من الإصدار الذي حددته للتو، pysparklyr فسيستخدم نفس بيئة Python. إذا كان نظام المجموعة الجديد يحتوي على إصدار Databricks Runtime مختلف، يجب تشغيل pysparklyr::install_databricks الأمر مرة أخرى مع إصدار وقت تشغيل Databricks الجديد أو معرف نظام المجموعة.

الخطوة 4: تعيين متغيرات البيئة لعنون URL لمساحة العمل والرمز المميز للوصول ومعرف نظام المجموعة

لا توصي Databricks بتحسس التعليمات البرمجية المضمنة أو تغيير القيم مثل عنوان URL لمساحة عمل Azure Databricks أو رمز الوصول الشخصي Azure Databricks أو معرف مجموعة Azure Databricks في البرامج النصية R. بدلا من ذلك، قم بتخزين هذه القيم بشكل منفصل، على سبيل المثال في متغيرات البيئة المحلية. يستخدم هذا البرنامج التعليمي دعم RStudio Desktop المضمن لتخزين متغيرات البيئة في .Renviron ملف.

أنشئ ملفا .Renviron لتخزين متغيرات البيئة، إذا لم يكن هذا الملف موجودا بالفعل، ثم افتح هذا الملف للتحرير: في وحدة تحكم سطح المكتب RStudio، قم بتشغيل الأمر التالي:
```
usethis::edit_r_environ()
```
في .Renviron الملف الذي يظهر (عرض > نقل التركيز إلى المصدر)، أدخل المحتوى التالي. في هذا المحتوى، استبدل العناصر النائبة التالية:
- استبدل <workspace-url> بعنوان URL لكل مساحة عمل، على سبيل المثال https://adb-1234567890123456.7.azuredatabricks.net.
- استبدل <personal-access-token> برمز الوصول الشخصي إلى Azure Databricks من الخطوة 1.
- استبدل <cluster-id> بمعرف نظام المجموعة الخاص بك من متطلبات هذا البرنامج التعليمي.
```
DATABRICKS_HOST=<workspace-url>
DATABRICKS_TOKEN=<personal-access-token>
DATABRICKS_CLUSTER_ID=<cluster-id>
```
احفظ الملف .Renviron.
قم بتحميل متغيرات البيئة إلى R: في القائمة الرئيسية، انقر فوق Session > Restart R.

تعيين متغيرات البيئة ل Databricks Connect

الخطوة 5: إضافة تعليمة برمجية

في القائمة الرئيسية RStudio Desktop، انقر فوق File > New File > R Script.

أدخل التعليمات البرمجية التالية في الملف ثم احفظ الملف (حفظ الملف>) باسم demo.R:

library(sparklyr)
library(dplyr)
library(dbplyr)

sc <- sparklyr::spark_connect(
  master     = Sys.getenv("DATABRICKS_HOST"),
  cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"),
  token      = Sys.getenv("DATABRICKS_TOKEN"),
  method     = "databricks_connect",
  envname    = "r-reticulate"
)

trips <- dplyr::tbl(
  sc,
  dbplyr::in_catalog("samples", "nyctaxi", "trips")
)

print(trips, n = 5)

الخطوة 6: تشغيل التعليمات البرمجية

على سطح المكتب RStudio، في شريط demo.R أدوات الملف، انقر فوق المصدر.
في وحدة التحكم، تظهر الصفوف الخمسة الأولى من trips الجدول.
في طريقة عرض الاتصالات (عرض > إظهار الاتصالات)، يمكنك استكشاف الكتالوجات والمخططات والجداول وطرق العرض المتوفرة.

الخطوة 7: تصحيح التعليمات البرمجية

في demo.R الملف، انقر فوق التوثيق الموجود بجانب print(trips, n = 5) لتعيين نقطة توقف.
في شريط demo.R أدوات الملف، انقر فوق المصدر.
عند إيقاف تشغيل التعليمات البرمجية مؤقتا عند نقطة التوقف، يمكنك فحص المتغير في طريقة عرض البيئة (عرض > إظهار البيئة).
في القائمة الرئيسية، انقر فوق تتبع الأخطاء > متابعة.
في وحدة التحكم، تظهر الصفوف الخمسة الأولى من trips الجدول.

تصحيح أخطاء مشروع RStudio Desktop

مشاركة عبر