مشاركة عبر


برنامج تشغيل الجهاز لنظام ملفات الكائن الثنائي كبير الحجم لـAzure (ABFS)، وهو برنامج تشغيل الجهاز مخصص لتخزين Azure لـHadoop

إحدى طرق الوصول الأساسية للبيانات في Azure Data Lake Storage هي عبر Hadoop FileSystem. يسمح Data Lake Storage لمستخدمي Azure Blob Storage بالوصول إلى برنامج تشغيل جديد أو برنامج تشغيل Azure Blob File System أو ABFS. ABFS جزء من Apache Hadoop، ويتم تضمينه في العديد من التوزيعات التجارية لـ Hadoop. من خلال برنامج تشغيل ABFS، يمكن للعديد من التطبيقات وأطر العمل الوصول إلى البيانات في Azure Blob Storage دون أي تعليمة برمجية تشير صراحة إلى Data Lake Storage.

القدرة المسبقة: برنامج تشغيل الجهاز للكائن الثنائي كبير الحجم لتخزين Windows Azure

يوفر برنامج تشغيل الجهاز للكائن الثنائي كبير الحجم لتخزين Azure Windows أو برنامج تشغيل WASB الدعم الأصلي لتخزين الكائن الثنائي كبير الحجم لـAzure قام برنامج تشغيل الجهاز هذا بتنفيذ المهمة المعقدة المتمثلة في تعيين دلالات نظام الملفات (كما هو مطلوب من قبل واجهة نظام الملفات Hadoop) إلى واجهة نمط مخزن العناصر التي تم كشفها بواسطة تخزين الكائن الثنائي كبير الحجم لـAzure. يستمر برنامج تشغيل الجهاز هذا في دعم هذا النموذج، مما يوفر وصولًا عالي الأداء إلى البيانات المخزنة في الكائنات الثنائية كبيرة الحجم، ولكنه يحتوي على كمية كبيرة من التعليمات البرمجية التي تقوم بإجراء هذا التعيين، مما يجعل من الصعب الحفاظ عليها. بالإضافة إلى ذلك، تتطلب بعض العمليات مثل FileSystem.rename() و FileSystem.delete() عند تطبيقها على الدلائل من برنامج تشغيل الجهاز تنفيذ عدد كبير من العمليات (بسبب عدم دعم مخازن العناصر للدلائل) مما يؤدي غالبا إلى تدهور الأداء. تم تصميم برنامج تشغيل الجهاز ABFS للتغلب على أوجه القصور المتأصلة في WASB.

برنامج تشغيل الجهاز لنظام ملفات الكائن الثنائي كبير الحجم لـAzure .

تم تصميم واجهة Azure Data Lake Storage REST لدعم دلالات نظام الملفات عبر تخزين الكائن الثنائي كبير الحجم لـAzure . نظرا لأن نظام ملفات Hadoop مصمم أيضا لدعم الدلالات نفسها، فلا يوجد أي متطلبات لتعيين معقد في برنامج التشغيل. وبالتالي، فإن برنامج تشغيل الجهاز لنظام ملفات الكائن الثنائي كبير الحجم Azure (أو ABFS) هو مجرد شيم عميل لواجهة برمجة تطبيقات REST.

ومع ذلك، هناك بعض الوظائف التي لا يزال يتعين على برنامج تشغيل الجهاز تنفيذها:

مخطط URI المخصص للإشارة إلى البيانات

بما يتفق مع تطبيقات نظام الملفات الأخرى داخل Hadoop، يحدد برنامج تشغيل ABFS نظام URI الخاص به بحيث يمكن معالجة الموارد (الدلائل والملفات) بشكل واضح. تم توثيق نظام URI في استخدام URI Azure Data Lake Storage. هيكل URI هو عبارة عن: abfs[s]://file_system@account_name.dfs.core.windows.net/<path>/<path>/<file_name>

باستخدام تنسيق URI هذا، يمكن استخدام أدوات وأطر عمل Hadoop القياسية للإشارة إلى هذه الموارد:

hdfs dfs -mkdir -p abfs://fileanalysis@myanalytics.dfs.core.windows.net/tutorials/flightdelays/data
hdfs dfs -put flight_delays.csv abfs://fileanalysis@myanalytics.dfs.core.windows.net/tutorials/flightdelays/data/

داخليًا، يقوم برنامج تشغيل الجهاز لـABFS بترجمة المورد (الموارد) المحدد في عنوان URI إلى الملفات والدلائل وإجراء مكالمات إلى واجهة برمجة تطبيقات REST Azure Data Lake Storage مع تلك المراجع.

المصادقة

يدعم برنامج تشغيل ABFS نموذجين من المصادقة بحيث يمكن لتطبيق Hadoop الوصول بأمان إلى الموارد المضمنة في حساب Data Lake Storage قادر. يتم توفير التفاصيل الكاملة لأنظمة المصادقة المتوفرة في دليل أمان تخزين Azure. وهي:

  • مفتاح المشاركة: يسمح هذا للمستخدمين بالوصول إلى جميع الموارد في الحساب. يتعين تشفير المفتاح وتخزينه في تكوين Hadoop.

  • Microsoft Entra ID OAuth Bearer Token: يتم الحصول على الرموز المميزة لحامل Microsoft Entra وتحديثها بواسطة برنامج التشغيل باستخدام هوية المستخدم النهائي أو كيان الخدمة المكون. من خلال استخدام نموذج المصادقة هذا، يتم تفويض كل الوصول على أساس كل مكالمة باستخدام الهوية المرتبطة بالرمز المميز المرفق ويتم تقييمها مقابل قائمة التحكم في الوصول POSIX (ACL) المعينة.

    إشعار

    يدعم Azure Data Lake Storage نقاط نهاية Azure AD v1.0 فقط.

التكوين

يتم تخزين كافة التكوينات لبرنامج تشغيل الجهاز لـABFS في core-site.xml ملف التكوين. في توزيعات Hadoop التي تضم Ambari ، يعمل أيضًا على إدارة التكوين باستخدام بوابة الويب أو واجهة برمجة تطبيقات Ambari REST.

يعمل على تحديد تفاصيل جميع إدخالات التكوين المدعومة في وثائق Hadoop الرسمية.

وثائق Hadoop

تم توثيق برنامج تشغيل الجهاز لـABFS بالكامل في وثائق Hadoop الرسمية

الخطوات التالية