مشاركة عبر


توصيات للملفات في وحدات التخزين وملفات مساحة العمل

عند تحميل البيانات أو الملفات أو حفظها إلى Azure Databricks، يمكنك اختيار تخزين هذه الملفات باستخدام وحدات تخزين كتالوج Unity أو ملفات مساحة العمل. تحتوي هذه المقالة على توصيات ومتطلبات لاستخدام هذه المواقع. لمزيد من التفاصيل حول وحدات التخزين وملفات مساحة العمل، راجع ما هي وحدات تخزين كتالوج Unity؟ وما هي ملفات مساحة العمل؟.

توصي Databricks باستخدام وحدات تخزين كتالوج Unity لتخزين البيانات والمكتبات وإنشاء البيانات الاصطناعية. تخزين دفاتر الملاحظات واستعلامات SQL وملفات التعليمات البرمجية كملفات مساحة عمل. يمكنك تكوين دلائل ملفات مساحة العمل كمجلدات Git للمزامنة مع مستودعات Git البعيدة. راجع تكامل Git لمجلدات Databricks Git. يمكن أيضا تخزين ملفات البيانات الصغيرة المستخدمة لسيناريوهات الاختبار كملفات مساحة عمل.

توفر الجداول أدناه توصيات محددة للملفات، اعتمادا على نوع الملف أو احتياجات الميزة.

هام

نظام ملفات Databricks (DBFS) متاح أيضا لتخزين الملفات، ولكن لا يوصى به، حيث يمكن لجميع مستخدمي مساحة العمل الوصول إلى الملفات في DBFS. راجع DBFS.

أنواع الملفات

يوفر الجدول التالي توصيات التخزين لنوع الملفات. يدعم Databricks العديد من تنسيقات الملفات بخلاف ما يتم توفيره في هذا الجدول كأمثلة.

نوع الملف التوصية
كائنات Databricks، مثل دفاتر الملاحظات والاستعلامات تخزين كملفات مساحة عمل
ملفات البيانات المنظمة، مثل ملفات Parquet وملفات ORC التخزين في وحدات تخزين كتالوج Unity
ملفات البيانات شبه المنظمة، مثل الملفات النصية (.csvو .txt) وملفات JSON (.json) التخزين في وحدات تخزين كتالوج Unity
ملفات البيانات غير المنظمة، مثل ملفات الصور (.png، .svgوملفات الصوت (.mp3)، وملفات المستندات (.pdf، .docx) التخزين في وحدات تخزين كتالوج Unity
ملفات البيانات الأولية المستخدمة لاستكشاف البيانات الأولية أو الاستكشاف المبكر للبيانات التخزين في وحدات تخزين كتالوج Unity
البيانات التشغيلية، مثل ملفات السجل التخزين في وحدات تخزين كتالوج Unity
ملفات الأرشيف الكبيرة، مثل ملفات ZIP (.zip) التخزين في وحدات تخزين كتالوج Unity
ملفات التعليمات البرمجية المصدر، مثل ملفات Python (.py)، وملفات Java (.java)، وملفات Scala (.scala) تخزين كملفات مساحة عمل، إن أمكن، مع كائنات أخرى ذات صلة، مثل دفاتر الملاحظات والاستعلامات.

توصي Databricks بإدارة هذه الملفات في مجلد Git للتحكم في الإصدار وتتبع التغيير لهذه الملفات.
إنشاء البيانات الاصطناعية والمكتبات، مثل عجلات Python (.whl) وملفات JAR (.jar) التخزين في وحدات تخزين كتالوج Unity
ملفات التكوين تخزين ملفات التكوين المطلوبة عبر مساحات العمل في وحدات تخزين كتالوج Unity، ولكن تخزينها كملفات مساحة عمل إذا كانت ملفات مشروع في مجلد Git.

مقارنة الميزات

يقارن الجدول التالي عروض الميزات لملفات مساحة العمل ووحدات تخزين كتالوج Unity.

ميزة ملفات مساحة العمل وحدات تخزين كتالوج Unity
الوصول إلى الملف لا يمكن الوصول إلى ملفات مساحة العمل إلا لبعضها البعض داخل نفس مساحة العمل. يمكن الوصول إلى الملفات بشكل عام عبر مساحات العمل.
الوصول البرمجي يمكن الوصول إلى الملفات باستخدام:

- واجهات برمجة تطبيقات Spark
- فتيل
- دبوتات
- واجهة برمجة التطبيقات REST
- Databricks SDKs
- Databricks CLI
يمكن الوصول إلى الملفات باستخدام:

- واجهات برمجة تطبيقات Spark
- فتيل
- دبوتات
- واجهة برمجة التطبيقات REST
- Databricks SDKs
- موصلات Databricks SQL
- Databricks CLI
- موفر Databricks Terraform
حزم أصول Databricks بشكل افتراضي، يتم نشر جميع الملفات في مجموعة، والتي تتضمن المكتبات وكائنات Databricks مثل دفاتر الملاحظات والاستعلامات، بشكل آمن كملفات مساحة عمل. يتم تعريف الأذونات في تكوين المجموعة. يمكن تخصيص الحزم لتضمين المكتبات الموجودة بالفعل في وحدات التخزين عندما تتجاوز المكتبات حد حجم ملفات مساحة العمل. راجع تبعيات مكتبة حزم أصول Databricks.
مستوى أذونات الملف تكون الأذونات على مستوى Git-folder إذا كان الملف في مجلد Git، وإلا يتم تعيين الأذونات على مستوى الملف. الأذونات على مستوى وحدة التخزين.
إدارة الأذونات تتم إدارة الأذونات بواسطة قوائم التحكم في الوصول لمساحة العمل وتقتصر على مساحة العمل التي تحتوي عليها. تتم إدارة بيانات التعريف والأذونات بواسطة كتالوج Unity. تنطبق هذه الأذونات عبر جميع مساحات العمل التي لديها حق الوصول إلى الكتالوج.
تحميل التخزين الخارجي لا يدعم تحميل التخزين الخارجي يوفر خيار الإشارة إلى مجموعات البيانات الموجودة مسبقا على التخزين الخارجي عن طريق إنشاء وحدة تخزين خارجية. راجع ما هي وحدات تخزين كتالوج Unity؟.
دعم UDF غير مدعوم الكتابة من UDFs مدعومة باستخدام وحدات التخزين FUSE
حجم الملف تخزين ملفات أصغر حجما أقل من 500 ميغابايت، مثل ملفات التعليمات البرمجية المصدر (.py، ، .md.yml) المطلوبة إلى جانب دفاتر الملاحظات. تخزين ملفات البيانات الكبيرة جدا في حدود يحددها موفرو الخدمات السحابية.
تحميل وتنزيل دعم التحميل والتنزيل حتى 10 ميغابايت. دعم التحميل والتنزيل حتى 5 غيغابايت.
دعم إنشاء الجدول لا يمكن إنشاء الجداول مع ملفات مساحة العمل كموقع. يمكن إنشاء الجداول من الملفات في وحدة تخزين عن طريق تشغيل COPY INTOأو التحميل التلقائي أو الخيارات الأخرى الموضحة في استيعاب البيانات في مستودع Databricks.
بنية الدليل ومسارات الملفات يتم تنظيم الملفات في دلائل متداخلة، ولكل منها نموذج إذن خاص بها:

- دلائل الصفحة الرئيسية للمستخدم، واحد لكل مستخدم ومدير خدمة في مساحة العمل
- مجلدات Git
-مشترك
يتم تنظيم الملفات في دلائل متداخلة داخل وحدة تخزين

راجع كيف يمكنك الوصول إلى البيانات في كتالوج Unity؟.
محفوظات الملفات استخدم مجلد Git داخل مساحات العمل لتعقب تغييرات الملفات. تتوفر سجلات التدقيق.