مشاركة عبر


ما هي ملفات مساحة العمل؟

ملف مساحة العمل هو ملف في شجرة ملفات مساحة عمل Azure Databricks التي ليست أحد الأنواع المدرجة كما يلي:

  • دفاتر الملاحظات
  • الاستعلامات
  • لوحات المعلومات
  • مساحات الجني
  • التجارب

بخلاف هذه الأنواع المستبعدة، يمكن أن تكون ملفات مساحة العمل أي نوع ملف. تتضمن الأمثلة الشائعة:

  • .py الملفات المستخدمة في الوحدات النمطية المخصصة.
  • .md الملفات، مثل README.md.
  • .csv أو ملفات بيانات صغيرة أخرى.
  • .txt الملفات.
  • .whl مكتبات.
  • ملفات السجل.

للحصول على توصيات حول العمل مع الملفات، راجع توصيات الملفات في وحدات التخزين وملفات مساحة العمل.

يمكن أن تحتوي شجرة ملفات مساحة عمل Azure Databricks على مجلدات مرفقة بمستودع Git يسمى "مجلدات Databricks Git". لديهم بعض القيود الإضافية في دعم نوع الملف. للحصول على قائمة أنواع الملفات المعتمدة في مجلدات Git (المعروف سابقا باسم "Repos")، راجع أنواع الأصول المدعومة في مجلدات Git.

هام

يتم تمكين ملفات مساحة العمل في كل مكان بشكل افتراضي في Databricks Runtime الإصدار 11.2. بالنسبة لأحمال عمل الإنتاج، استخدم Databricks Runtime 11.3 LTS أو أعلى. اتصل بمسؤول مساحة العمل إذا لم تتمكن من الوصول إلى هذه الوظيفة.

ما يمكنك القيام به مع ملفات مساحة العمل

يوفر Azure Databricks وظائف مشابهة للتطوير المحلي للعديد من أنواع ملفات مساحة العمل، بما في ذلك محرر ملفات مضمن. لا يتم دعم جميع حالات الاستخدام لكافة أنواع الملفات.

يمكنك إنشاء الوصول إلى ملفات مساحة العمل وتحريره وإدارته باستخدام أنماط مألوفة من تفاعلات دفتر الملاحظات. يمكنك استخدام مسارات نسبية لاستيراد المكتبة من ملفات مساحة العمل، على غرار التطوير المحلي. لمزيد من التفاصيل، راجع:

البرامج النصية Init المخزنة في ملفات مساحة العمل لها سلوك خاص. يمكنك استخدام ملفات مساحة العمل لتخزين البرامج النصية init والإشارة إليها في أي إصدارات Databricks Runtime. راجع تخزين البرامج النصية init في ملفات مساحة العمل.

إشعار

في Databricks Runtime 14.0 والإصدارات الأحدث، الدليل الافتراضي للعمل الحالي (CWD) للتعليمات البرمجية المنفذة محليا هو الدليل الذي يحتوي على دفتر الملاحظات أو البرنامج النصي قيد التشغيل. هذا تغيير في السلوك من Databricks Runtime 13.3 LTS وما يلي. راجع ما هو دليل العمل الحالي الافتراضي؟.

القيود

  • إذا كان سير العمل يستخدم التعليمات البرمجية المصدر الموجودة في مستودع Git بعيد، فلا يمكنك الكتابة إلى الدليل الحالي أو الكتابة باستخدام مسار نسبي. اكتب البيانات إلى خيارات الموقع الأخرى.
  • لا يمكنك استخدام git الأوامر عند الحفظ في ملفات مساحة العمل. لا يسمح بإنشاء الدلائل .git في ملفات مساحة العمل.
  • القراءة من ملفات مساحة العمل باستخدام منفذي Spark (مثل spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) غير مدعومة بالحوسبة بلا خادم.
  • لا يمكن للمنفذين الكتابة إلى ملفات مساحة العمل.
  • يتم دعم Symlinks للدلائل الهدف ضمن /Workspace المجلد الجذر.
  • لا يمكن الوصول إلى ملفات مساحة العمل من الوظائف المعرفة من قبل المستخدم (UDFs) على المجموعات ذات وضع الوصول المشترك على Databricks Runtime 14.2 والإدناه.

حد حجم الملف

  • يقتصر حجم ملف مساحة العمل على 500 ميغابايت من واجهة المستخدم. الحد الأقصى لحجم الملف المسموح به عند الكتابة من نظام مجموعة هو 256 ميغابايت.

حد أذونات الوصول إلى الملفات

تنتهي صلاحية إذن الوصول إلى الملفات في المجلدات ضمن /Workspace بعد 36 ساعة للحساب التفاعلي وبعد 30 يوما للمهام. توصي Databricks بتشغيل عمليات تنفيذ طويلة كمهام إذا كانت بحاجة إلى الوصول إلى ملف /Workspace.

تمكين ملفات مساحة العمل

لتمكين دعم الملفات غير المتصلة بدفتر الملاحظات في مساحة عمل Databricks، اتصل بواجهة برمجة تطبيقات /api/2.0/workspace-conf REST من دفتر ملاحظات أو بيئة أخرى مع إمكانية الوصول إلى مساحة عمل Databricks. يتم تمكين ملفات مساحة العمل بشكل افتراضي.

لتمكين أو إعادة تمكين الدعم للملفات غير المتصلة بدفتر الملاحظات في مساحة عمل Databricks، قم باستدعاء /api/2.0/workspace-conf والحصول على قيمة enableWorkspaceFileSystem المفتاح. إذا تم تعيينه إلى true، يتم تمكين الملفات غير الموجودة في دفتر الملاحظات بالفعل لمساحة العمل الخاصة بك.

يوضح المثال التالي كيف يمكنك استدعاء واجهة برمجة التطبيقات هذه من دفتر ملاحظات للتحقق مما إذا كانت ملفات مساحة العمل معطلة وإذا كان الأمر كذلك، فقم بإعادة تمكينها.

مثال: دفتر ملاحظات لإعادة تمكين دعم ملف مساحة عمل Databricks

الحصول على دفتر الملاحظات