تحميل البيانات إلى Azure Data Lake Storage Gen1 باستخدام Azure Data Factory
ينطبق على: Azure Data Factory
Azure Synapse Analytics
تلميح
جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!
يعد Azure Data Lake Storage Gen1 (المعروف سابقاً باسم Azure Data Lake Store) مستودعاً واسع النطاق على مستوى المؤسسة لأحمال العمل التحليلية للبيانات الضخمة. تتيح لك Data Lake Storage Gen1 التقاط البيانات من أي حجم ونوع وسرعة استيعاب. يتم التقاط البيانات في مكان واحد للتحليلات التشغيلية والاستكشافية.
Azure Data Factory عبارة عن خدمة تكامل بيانات قائمة على السحابة مُدارة بالكامل. يمكنك استخدام الخدمة لملء البحيرة ببيانات من نظامك الحالي وتوفير الوقت عند إنشاء حلول التحليلات الخاصة بك.
يقدم Azure Data Factory المزايا التالية لتحميل البيانات في Data Lake Storage Gen1:
- سهولة الإعداد: معالج بديهي من 5 خطوات دون الحاجة إلى البرمجة النصية.
- دعم مخزن البيانات الثري: دعم مضمن لمجموعة غنية من مخازن البيانات المحلية والمستندة إلى السحابة. للحصول على قائمة مفصلة، راجع جدول مخازن البيانات المدعومة.
- آمنة ومتوافقة: يتم نقل البيانات عبر HTTPS أو ExpressRoute. يضمن التواجد العالمي للخدمة أن بياناتك لا تترك أبداً الحدود الجغرافية.
- أداء عالٍ: سرعة تحميل بيانات تصل إلى 1 غيغابايت/ثانية في Data Lake Storage Gen1. للحصول على التفاصيل، راجع أداء نشاط النسخ.
توضح لك هذه المقالة كيفية استخدام أداة Data Factory Copy Data لتحميل البيانات من Amazon S3 إلى Data Lake Storage Gen1. يمكنك اتباع خطوات مماثلة لنسخ البيانات من أنواع أخرى من مخازن البيانات.
إشعار
لمزيد من المعلومات، راجع نسخ البيانات إلى أو من Data Lake Storage Gen1 باستخدام Azure Data Factory.
المتطلبات الأساسية
- اشتراك Azure: إذا لم يكن لديك اشتراك Azure، فأنشئ حساباً مجانياً قبل أن تبدأ.
- حساب Data Lake Storage Gen1: إذا لم يكن لديك حساب Data Lake Storage Gen1، فراجع الإرشادات الموجودة في إنشاء حساب Data Lake Storage Gen1.
- Amazon S3: توضح هذه المقالة كيفية نسخ البيانات من Amazon S3. يمكنك استخدام مخازن البيانات الأخرى باتباع خطوات مماثلة.
إنشاء مصدرًا للبيانات
إذا لم تكن قد أنشأت مصنع البيانات بعد، فاتبع الخطوات الواردة في التشغيل السريع: إنشاء مصنع بيانات باستخدام مدخل Azure وAzure Data Factory Studio لإنشاء واحد. بعد إنشائه، استعرض للوصول إلى مصنع البيانات في مدخل Microsoft Azure.
حدد Open من تجانب Open Azure Data Factory Studio لبدء تطبيق تكامل البيانات في علامة تبويب منفصلة.
تحميل البيانات إلى Data Lake Storage Gen1
في الصفحة الرئيسية، حدد مربع Ingest لتشغيل أداة نسخ البيانات:
في صفحة الخصائص، حدد CopyFromAmazonS3ToADLS لحقل اسم المهمة، وحدد Next:
في صفحة مخزن بيانات المصدر، حدد + إنشاء اتصال جديد:
حدد Amazon S3، وحدد Continue
في صفحة تحديد اتصال Amazon S3، قم بتنفيذ الخطوات التالية:
حدد قيمة Access Key ID.
حدد قيمة معرف الوصول إلى البيانات السرية.
حدد إنهاء.
سترى اتصال جديد. حدد التالي.
في صفحة اختيار ملف الإدخال أو المجلد، استعرض للوصول إلى المجلد والملف اللذين تريد نسخهما. حدد المجلد/الملف، وحدد Choose، ثم حدد Next:
اختر سلوك النسخ بتحديد الخيارين نسخ الملفات بشكل متكرر ونسخة ثنائية (نسخ الملفات كما هي). حدد Next:
في صفحة مخزن بيانات الوجهة، حدد + إنشاء اتصال جديد، ثم حدد Azure Data Lake Storage Gen1، وحدد استمرار:
في صفحة خدمة مرتبطة جديدة (Azure Data Lake Storage Gen1)، قم بتنفيذ الخطوات التالية:
- حدد حساب Data Lake Storage Gen1 الخاص بك من أجل اسم حساب Data Lake Store.
- حدد Tenant، وحدد إنهاء.
- حدد التالي.
هام
في هذه الإرشادات التفصيلية، تستخدم هوية مُدارة لموارد Azure لمصادقة حساب Data Lake Storage Gen1 الخاص بك. تأكد من منح MSI الأذونات المناسبة في Data Lake Storage Gen1 باتباع هذه الإرشادات.
في صفحة اختيار ملف الإخراج أو المجلد، أدخل copyfroms3 كاسم مجلد الإخراج، وحدد Next:
في صفحة الإعدادات، حدد Next:
في صفحة الملخص، راجع الإعدادات وحدد Next:
في صفحة التوزيع، حدد Monitor لمراقبة خط التدفق (المهمة):
لاحظ أن علامة التبويب Monitor على اليسار محددة تلقائياً. يشتمل عمود الإجراءات على روابط لعرض تفاصيل تشغيل النشاط وإعادة تشغيل خط التدفق:
لعرض عمليات تشغيل النشاط المقترنة بتشغيل خط التدفق، حدد الارتباط View Activity Runs في عمود Actions. هناك نشاط واحد فقط (نشاط النسخ) في خط التدفقات، بحيث ترى إدخالاً واحداً فقط. للرجوع إلى طريقة عرض عمليات تشغيل خطوط التدفق، حدد ارتباط Pipelines في الأعلى. حدد "Refresh" لتحديث القائمة.
لمراقبة تفاصيل التنفيذ لكل نشاط نسخ، حدد رابط Details ضمن Actions في عرض مراقبة النشاط. يمكنك مراقبة التفاصيل مثل حجم البيانات المنسوخة من المصدر إلى المتلقي، ومعدل النقل للبيانات، وخطوات التنفيذ مع المدة المقابلة، والتكوينات المستخدمة:
تحقق من نسخ البيانات إلى حساب Data Lake Storage Gen1 الخاص بك:
المحتوى ذو الصلة
تقدم إلى المقالة التالية للتعرف على دعم Data Lake Storage Gen1: