الاتصال بمساحة تخزين الكائنات السحابية والخدمات باستخدام كتالوج Unity
تقدم هذه المقالة نظرة عامة على اتصالات التخزين السحابي المطلوبة للعمل مع البيانات باستخدام كتالوج Unity، بالإضافة إلى معلومات حول كيفية تحكم كتالوج Unity في الوصول إلى التخزين السحابي والخدمات السحابية الخارجية.
إشعار
إذا تم إنشاء مساحة العمل قبل 9 نوفمبر 2023، فقد لا يتم تمكينها لكتالوج Unity. يجب على مسؤول الحساب تمكين كتالوج Unity لمساحة العمل الخاصة بك. راجع تمكين مساحة عمل كتالوج Unity.
كيف يستخدم كتالوج Unity التخزين السحابي؟
توصي Databricks باستخدام كتالوج Unity لإدارة الوصول إلى جميع البيانات التي قمت بتخزينها في تخزين كائن السحابة. يوفر كتالوج Unity مجموعة من الأدوات لتكوين اتصالات آمنة لتخزين كائن السحابة. توفر هذه الاتصالات الوصول لإكمال الإجراءات التالية:
- استيعاب البيانات الأولية في مستودع.
- إنشاء وقراءة الجداول المدارة ووحدات التخزين المدارة من البيانات غير المنظمة في التخزين السحابي المدار بواسطة كتالوج Unity.
- تسجيل أو إنشاء جداول خارجية تحتوي على بيانات جدولية ووحدات تخزين خارجية تحتوي على بيانات غير منظمة في التخزين السحابي تتم إدارتها باستخدام موفر السحابة الخاص بك.
- قراءة وكتابة البيانات غير المنظمة (كوحدات تخزين كتالوج Unity).
لكي تكون أكثر تحديدا، يستخدم كتالوج Unity التخزين السحابي بطريقتين أساسيتين:
- مواقع التخزين الافتراضية (أو "المدارة") للجداول المدارة ووحدات التخزين المدارة (البيانات غير المنظمة وغير الجدولية) التي تقوم بإنشائها في Databricks. يمكن تعريف مواقع التخزين المدارة هذه على مستوى metastore أو الكتالوج أو المخطط. يمكنك إنشاء مواقع تخزين مدارة في موفر السحابة الخاص بك، ولكن تتم إدارة دورة حياتها بالكامل بواسطة كتالوج Unity.
- مواقع التخزين حيث يتم تخزين الجداول ووحدات التخزين الخارجية. هذه هي الجداول ووحدات التخزين التي تتم إدارة وصولها من Azure Databricks بواسطة كتالوج Unity، ولكن تتم إدارة دورة حياة البيانات وتخطيط الملف باستخدام موفر السحابة والأنظمة الأساسية الأخرى للبيانات. عادة ما تستخدم الجداول الخارجية لتسجيل كميات كبيرة من البيانات الموجودة في Azure Databricks، أو إذا كنت تحتاج أيضا إلى الوصول للكتابة إلى البيانات باستخدام أدوات خارج Azure Databricks.
لمزيد من المعلومات حول الجداول ووحدات التخزين المدارة مقابل الخارجية، راجع ما هي الجداول وطرق العرض؟ وما هي وحدات تخزين كتالوج Unity؟.
تحذير
لا تمنح المستخدمين النهائيين حق الوصول على مستوى التخزين إلى الجداول أو وحدات التخزين المدارة في كتالوج Unity. وهذا يعرض أمان البيانات وحوكمتها للخطر.
منح المستخدمين حق الوصول المباشر على مستوى التخزين إلى تخزين الموقع الخارجي في Azure Data Lake Storage Gen2 لا يحترم أي أذونات تم منحها أو عمليات التدقيق التي يحتفظ بها كتالوج Unity. سيتجاوز الوصول المباشر التدقيق والنسل وميزات الأمان والمراقبة الأخرى في كتالوج Unity، بما في ذلك التحكم في الوصول والأذونات. أنت مسؤول عن إدارة الوصول المباشر إلى التخزين من خلال Azure Data Lake Storage Gen2 والتأكد من أن المستخدمين لديهم الأذونات المناسبة الممنوحة عبر Fabric.
تجنب جميع السيناريوهات التي تمنح حق الوصول المباشر للكتابة على مستوى التخزين للمستودعات التي تخزن جداول Databricks المدارة. يمكن أن يؤدي تعديل أي كائنات أو حذفها أو تطويرها مباشرة من خلال التخزين الذي تمت إدارته في الأصل بواسطة كتالوج Unity إلى تلف البيانات.
ما هو موفرو التخزين السحابي المدعومون؟
يدعم Azure Databricks كلا من حاويات Azure Data Lake Storage Gen2 ومستودعات Cloudflare R2 كمواقع تخزين سحابية للبيانات والأصول الذكاء الاصطناعي المسجلة في كتالوج Unity. R2 مخصص بشكل أساسي لحالات الاستخدام التي تريد فيها تجنب رسوم خروج البيانات، مثل مشاركة دلتا عبر السحب والمناطق. لمزيد من المعلومات، راجع استخدام النسخ المتماثلة Cloudflare R2 أو ترحيل التخزين إلى R2.
كيف يحكم كتالوج Unity الوصول إلى التخزين السحابي؟
لإدارة الوصول إلى التخزين السحابي الأساسي الذي يحتوي على جداول ووحدات تخزين، يستخدم كتالوج Unity كائنا قابلا للتأمين يسمى موقعا خارجيا، والذي يحدد مسارا إلى موقع تخزين سحابي وبيانات الاعتماد المطلوبة للوصول إلى هذا الموقع. يتم تعريف بيانات الاعتماد هذه بدورها في كائن قابل للتأمين لكتالوج Unity يسمى بيانات اعتماد التخزين. من خلال منح الوصول إلى عناصر تأمين الموقع الخارجي وإبطاله في كتالوج Unity، يمكنك التحكم في الوصول إلى البيانات في موقع التخزين السحابي. من خلال منح وإبطال الوصول إلى بيانات اعتماد التخزين القابلة للتأمين في كتالوج Unity، يمكنك التحكم في القدرة على إنشاء كائنات موقع خارجي.
للحصول على التفاصيل، راجع إدارة الوصول إلى التخزين السحابي باستخدام كتالوج Unity.
الوصول المستند إلى المسار إلى التخزين السحابي
على الرغم من أن كتالوج Unity يدعم الوصول المستند إلى المسار إلى الجداول الخارجية ووحدات التخزين الخارجية باستخدام عناوين URL للتخزين السحابي، فإن Databricks توصي المستخدمين بقراءة وكتابة جميع جداول كتالوج Unity باستخدام أسماء الجداول والوصول إلى البيانات في وحدات التخزين باستخدام /Volumes
المسارات. وحدات التخزين هي الكائن القابل للتأمين الذي يجب أن يستخدمه معظم مستخدمي Azure Databricks للتفاعل مباشرة مع البيانات غير الجدولية في تخزين كائن السحابة. راجع ما هي وحدات تخزين كتالوج Unity؟.
أفضل الممارسات للتخزين السحابي باستخدام كتالوج Unity
يتطلب Azure Databricks استخدام Azure Data Lake Storage Gen2 كخدمة تخزين Azure للبيانات التي تتم معالجتها في Azure Databricks باستخدام إدارة كتالوج Unity. يمكنك Azure Data Lake Storage Gen2 من فصل تكاليف التخزين والحوسبة والاستفادة من التحكم في الوصول الدقيق الذي يوفره كتالوج Unity. إذا تم تخزين البيانات في OneLake (مستودع بيانات Microsoft Fabric) ومعالجتها بواسطة Databricks (تجاوز كتالوج Unity)، فستتحمل تكاليف التخزين والحوسبة المجمعة. يمكن أن يؤدي هذا إلى تكاليف أعلى بحوالي 3 أضعاف للقراءات و1.6x أعلى للكتابات مقارنة ب Azure Data Lake Storage Gen2 لتخزين البيانات وقراءتها وكتابتها. Azure Blob Storage غير متوافق أيضا مع كتالوج Unity.
ميزة | Azure Blob Storage | Azure Data Lake Storage Gen2 | OneLake |
---|---|---|---|
مدعوم من قبل كتالوج Unity | س | ✓ | س |
يتطلب شراء سعة نسيج إضافية | X | X | ✓ |
العمليات المدعومة من المحركات الخارجية | - قراءة - كتابة |
- قراءة - كتابة |
- القراءة (تتحمل القراءات 3 أضعاف التكلفة مقارنة بقراءة البيانات من Azure Data Lake Storage Gen2). - عمليات الكتابة غير مدعومة. للحصول على التفاصيل، راجع وثائق OneLake. |
التوزيع | الإقليمية | الإقليمية | عمومي |
المصادقة | توقيع الوصول المشترك لمعرف الإدخال | توقيع الوصول المشترك لمعرف الإدخال | معرف الإدخال |
أحداث التخزين | ✓ | ✓ | س |
الحذف المبدئي | ✓ | ✓ | ✓ |
عنصر تحكم الوصول | RBAC | RBAC، ABAC، ACL | RBAC (جدول/مجلد فقط، اختصار ACLs غير معتمد) |
مفاتيح التشفير | ✓ | ✓ | س |
مستويات الوصول | أرشيف عبر الإنترنت | حار، بارد، بارد، أرشيف | ساخن فقط |
كيف يحكم كتالوج Unity الوصول إلى الخدمات السحابية الأخرى؟
يحكم كتالوج Unity الوصول إلى الخدمات غير التخزينية باستخدام كائن قابل للتأمين يسمى بيانات اعتماد الخدمة. تغلف بيانات اعتماد الخدمة بيانات اعتماد سحابية طويلة الأجل توفر الوصول إلى خدمة خارجية يحتاج المستخدمون إلى الاتصال بها من Azure Databricks.
بيانات اعتماد الخدمة غير مخصصة للتحكم في الوصول إلى التخزين السحابي الذي يتم استخدامه كموقع تخزين مدار في كتالوج Unity أو موقع تخزين خارجي. بالنسبة لحالات الاستخدام هذه، استخدم بيانات اعتماد التخزين، كما هو موضح في كيف يحكم كتالوج Unity الوصول إلى التخزين السحابي؟.
للحصول على التفاصيل، راجع:
- إدارة الوصول إلى الخدمات السحابية الخارجية باستخدام بيانات اعتماد الخدمة
- إدارة بيانات اعتماد الخدمة
- استخدام بيانات اعتماد خدمة كتالوج Unity للاتصال بخدمات السحابة الخارجية
الخطوات التالية
إذا كنت قد بدأت للتو باستخدام كتالوج Unity كمسؤول، فشاهد:
إذا كنت مستخدما جديدا ومساحة العمل الخاصة بك ممكنة بالفعل لكتالوج Unity، فشاهد:
لمعرفة المزيد حول كيفية إدارة الوصول إلى التخزين السحابي، راجع:
لمعرفة المزيد حول كيفية إدارة الوصول إلى الخدمات السحابية، راجع: