Databricks Connect ل R
إشعار
تتناول sparklyr
هذه المقالة التكامل مع Databricks Connect ل Databricks Runtime 13.0 وما فوق. لا يوفر Databricks هذا التكامل ولا يدعمه Databricks مباشرة.
للأسئلة، انتقل إلى مجتمع Posit.
للإبلاغ عن المشكلات، انتقل إلى قسم المشكلات في sparklyr
المستودع في GitHub.
لمزيد من المعلومات، راجع Databricks Connect v2 في sparklyr
الوثائق.
توضح هذه المقالة كيفية بدء استخدام Databricks Connect بسرعة باستخدام R و sparklyr
و RStudio Desktop.
- للحصول على إصدار Python من هذه المقالة، راجع Databricks Connect ل Python.
- للحصول على إصدار Scala من هذه المقالة، راجع Databricks Connect ل Scala.
يمكنك Databricks Connect من توصيل IDEs الشائعة مثل RStudio Desktop وخوادم دفتر الملاحظات والتطبيقات المخصصة الأخرى إلى مجموعات Azure Databricks. راجع ما هو Databricks Connect؟.
برنامج تعليمي
يستخدم هذا البرنامج التعليمي RStudio Desktop وPython 3.10. إذا لم تكن مثبتة بالفعل، فقم بتثبيت R وRStudio Desktop وPython 3.10.
للحصول على معلومات إضافية حول هذا البرنامج التعليمي، راجع قسم "Databricks Connect" في Spark Connect، وDatabricks Connect v2 على sparklyr
موقع الويب.
المتطلبات
لإكمال هذا البرنامج التعليمي، يجب أن تفي بالمتطلبات التالية:
- يجب أن تفي مساحة عمل Azure Databricks المستهدفة والمجموعة بمتطلبات تكوين الحساب ل Databricks Connect.
- يجب أن يكون لديك معرف نظام المجموعة الخاص بك متوفرا. للحصول على معرف نظام المجموعة، في مساحة العمل، انقر فوق حساب على الشريط الجانبي، ثم انقر فوق اسم نظام المجموعة. في شريط عناوين مستعرض الويب، انسخ سلسلة الأحرف بين
clusters
عنوان URL وفيهconfiguration
.
الخطوة 1: إنشاء رمز مميز للوصول الشخصي
إشعار
يدعم Databricks Connect لمصادقة R حاليا فقط الرموز المميزة للوصول الشخصي ل Azure Databricks.
يستخدم هذا البرنامج التعليمي مصادقة رمز الوصول الشخصي Azure Databricks للمصادقة مع مساحة عمل Azure Databricks.
إذا كان لديك بالفعل رمز مميز للوصول الشخصي إلى Azure Databricks، فانتقل إلى الخطوة 2. إذا لم تكن متأكدا مما إذا كان لديك بالفعل رمز وصول شخصي ل Azure Databricks، يمكنك اتباع هذه الخطوة دون التأثير على أي رموز وصول شخصية أخرى ل Azure Databricks في حساب المستخدم الخاص بك.
لإنشاء رمز مميز للوصول الشخصي، اتبع الخطوات الواردة في رموز الوصول الشخصي Azure Databricks لمستخدمي مساحة العمل.
الخطوة 2: إنشاء المشروع
- ابدأ تشغيل RStudio Desktop.
- في القائمة الرئيسية، انقر فوق ملف > مشروع جديد.
- حدد New Directory.
- حدد مشروع جديد.
- بالنسبة إلى اسم الدليل وإنشاء مشروع كدليل فرعي ل، أدخل اسم دليل المشروع الجديد ومكان إنشاء دليل المشروع الجديد هذا.
- حدد استخدام renv مع هذا المشروع. إذا تمت مطالبتك بتثبيت إصدار محدث من الحزمة
renv
، فانقر فوق نعم. - انقر فوق Create Project.
الخطوة 3: إضافة حزمة Databricks Connect والتبعيات الأخرى
في القائمة الرئيسية لسطح المكتب RStudio، انقر فوق أدوات > تثبيت الحزم.
اترك Install من set to Repository (CRAN).
بالنسبة إلى الحزم، أدخل القائمة التالية من الحزم التي تعد متطلبات أساسية لحزمة Databricks Connect وهذا البرنامج التعليمي:
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
اترك Install to Library معينا على بيئة R الظاهرية.
تأكد من تحديد تثبيت التبعيات .
انقر فوق تثبيت.
عند مطالبتك في طريقة عرض وحدة التحكم (عرض > نقل التركيز إلى وحدة التحكم) لمتابعة التثبيت، أدخل
Y
.sparklyr
يتم تثبيت الحزم وpysparklyr
وتبعياتها في بيئة R الظاهرية.في جزء وحدة التحكم ، استخدم
reticulate
لتثبيت Python عن طريق تشغيل الأمر التالي. (يتطلبreticulate
Databricks Connect for R تثبيت Python أولا.) في الأمر التالي، استبدل3.10
بالإصدار الرئيسي والثانوي من إصدار Python المثبت على نظام مجموعة Azure Databricks. للعثور على هذا الإصدار الرئيسي والثانوي، راجع قسم "بيئة النظام" من ملاحظات الإصدار لإصدار Databricks Runtime لنظام المجموعة في إصدارات ملاحظات إصدار Databricks Runtime والتوافق.reticulate::install_python(version = "3.10")
في جزء وحدة التحكم ، قم بتثبيت حزمة Databricks Connect عن طريق تشغيل الأمر التالي. في الأمر التالي، استبدل
13.3
بإصدار Databricks Runtime المثبت على نظام مجموعة Azure Databricks. للعثور على هذا الإصدار، في صفحة تفاصيل نظام المجموعة في مساحة عمل Azure Databricks، في علامة التبويب Configuration ، راجع مربع Databricks Runtime Version .pysparklyr::install_databricks(version = "13.3")
إذا كنت لا تعرف إصدار Databricks Runtime لنظام المجموعة الخاص بك أو كنت لا تريد البحث عنه، يمكنك تشغيل الأمر التالي بدلا من ذلك،
pysparklyr
وستقوم بالاستعلام عن نظام المجموعة لتحديد إصدار وقت تشغيل Databricks الصحيح لاستخدامه:pysparklyr::install_databricks(cluster_id = "<cluster-id>")
إذا كنت تريد أن يتصل مشروعك لاحقا بمجموعة مختلفة لها نفس إصدار Databricks Runtime من الإصدار الذي حددته للتو،
pysparklyr
فسيستخدم نفس بيئة Python. إذا كان نظام المجموعة الجديد يحتوي على إصدار Databricks Runtime مختلف، يجب تشغيلpysparklyr::install_databricks
الأمر مرة أخرى مع إصدار وقت تشغيل Databricks الجديد أو معرف نظام المجموعة.
الخطوة 4: تعيين متغيرات البيئة لعنون URL لمساحة العمل والرمز المميز للوصول ومعرف نظام المجموعة
لا توصي Databricks بتحسس التعليمات البرمجية المضمنة أو تغيير القيم مثل عنوان URL لمساحة عمل Azure Databricks أو رمز الوصول الشخصي Azure Databricks أو معرف مجموعة Azure Databricks في البرامج النصية R. بدلا من ذلك، قم بتخزين هذه القيم بشكل منفصل، على سبيل المثال في متغيرات البيئة المحلية. يستخدم هذا البرنامج التعليمي دعم RStudio Desktop المضمن لتخزين متغيرات البيئة في .Renviron
ملف.
أنشئ ملفا
.Renviron
لتخزين متغيرات البيئة، إذا لم يكن هذا الملف موجودا بالفعل، ثم افتح هذا الملف للتحرير: في وحدة تحكم سطح المكتب RStudio، قم بتشغيل الأمر التالي:usethis::edit_r_environ()
في
.Renviron
الملف الذي يظهر (عرض > نقل التركيز إلى المصدر)، أدخل المحتوى التالي. في هذا المحتوى، استبدل العناصر النائبة التالية:- استبدل
<workspace-url>
بعنوان URL لكل مساحة عمل، على سبيل المثالhttps://adb-1234567890123456.7.azuredatabricks.net
. - استبدل
<personal-access-token>
برمز الوصول الشخصي إلى Azure Databricks من الخطوة 1. - استبدل
<cluster-id>
بمعرف نظام المجموعة الخاص بك من متطلبات هذا البرنامج التعليمي.
DATABRICKS_HOST=<workspace-url> DATABRICKS_TOKEN=<personal-access-token> DATABRICKS_CLUSTER_ID=<cluster-id>
- استبدل
احفظ الملف
.Renviron
.قم بتحميل متغيرات البيئة إلى R: في القائمة الرئيسية، انقر فوق Session > Restart R.
الخطوة 5: إضافة تعليمة برمجية
في القائمة الرئيسية RStudio Desktop، انقر فوق File > New File > R Script.
أدخل التعليمات البرمجية التالية في الملف ثم احفظ الملف (حفظ الملف>) باسم
demo.R
:library(sparklyr) library(dplyr) library(dbplyr) sc <- sparklyr::spark_connect( master = Sys.getenv("DATABRICKS_HOST"), cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"), token = Sys.getenv("DATABRICKS_TOKEN"), method = "databricks_connect", envname = "r-reticulate" ) trips <- dplyr::tbl( sc, dbplyr::in_catalog("samples", "nyctaxi", "trips") ) print(trips, n = 5)
الخطوة 6: تشغيل التعليمات البرمجية
على سطح المكتب RStudio، في شريط
demo.R
أدوات الملف، انقر فوق المصدر.في وحدة التحكم، تظهر الصفوف الخمسة الأولى من
trips
الجدول.في طريقة عرض الاتصالات (عرض > إظهار الاتصالات)، يمكنك استكشاف الكتالوجات والمخططات والجداول وطرق العرض المتوفرة.
الخطوة 7: تصحيح التعليمات البرمجية
- في
demo.R
الملف، انقر فوق التوثيق الموجود بجانبprint(trips, n = 5)
لتعيين نقطة توقف. - في شريط
demo.R
أدوات الملف، انقر فوق المصدر. - عند إيقاف تشغيل التعليمات البرمجية مؤقتا عند نقطة التوقف، يمكنك فحص المتغير في طريقة عرض البيئة (عرض > إظهار البيئة).
- في القائمة الرئيسية، انقر فوق تتبع الأخطاء > متابعة.
- في وحدة التحكم، تظهر الصفوف الخمسة الأولى من
trips
الجدول.