حمّل البيانات في Azure Data Lake Storage Gen2 باستخدام مصنع بيانات Azure
ينطبق على: Azure Data Factory
Azure Synapse Analytics
تلميح
جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!
Azure Data Lake Storage Gen2 هو مجموعة من القدرات المخصصة لعمليات تحليل البيانات الضخمة على Azure Blob Storage. فهي تسمح لك بالتداخل مع بياناتك باستخدام كل من نظام الملفات ونماذج تخزين الكائن.
Azure Data Factory (ADF) هي خدمة تكامل بيانات مستندة إلى السحابة ومدارة بالكامل. يمكنك استخدام الخدمة لملء البحيرة ببيانات من مجموعة غنية من متاجر بيانات محلية قائمة على السحابة وتوفير الوقت عند إنشاء حلول التحليلات. للحصول على قائمة مفصلة من الموصلات المدعومة راجع جدول مخازن البيانات المدعومة.
يقدم Azure Data Factory حلا واسع النطاق لحركة البيانات المدارة. نظرا للهندسة واسعة النطاق لـ ADF، فيمكنه استيعاب البيانات بمعدل نقل عال. للحصول على التفاصيل، راجع أداء نشاط النسخ.
توضح هذه المقالة كيفية استخدام أداة Data Factory Copy Data لتحميل البيانات من خدمة Amazon Web Services S3 في Azure Data Lake Storage Gen2. يمكنك اتباع خطوات مماثلة لنسخ البيانات من أنواع أخرى من مخازن البيانات.
تلميح
لنسخ البيانات منAzure Data Lake Storage Gen2 في Gens2، أشر إلى هذه المعاينة المحددة.
المتطلبات الأساسية
- اشتراك Azure: إذا لم يكن لديك اشتراك Azure، فأنشئ حساباً مجانياً قبل أن تبدأ.
- حساب تخزين Azure مع Data Lake Storage Gen2 ممكنة: إذا لم يكن لديك حساب تخزين، أنشيء حسابًا.
- حساب AWS مع مستودع S3 الذي يحتوي على بيانات: توضح هذه المقالة كيفية نسخ البيانات من Amazon S3. يمكنك استخدام مخازن البيانات الأخرى باتباع خطوات مماثلة.
إنشاء مصدرًا للبيانات
إذا لم تكن قد أنشأت مصنع البيانات بعد، فاتبع الخطوات الواردة في التشغيل السريع: إنشاء مصنع بيانات باستخدام مدخل Azure وAzure Data Factory Studio لإنشاء واحد. بعد إنشائه، استعرض للوصول إلى مصنع البيانات في مدخل Microsoft Azure.
حدد Open من تجانب Open Azure Data Factory Studio لبدء تطبيق تكامل البيانات في علامة تبويب منفصلة.
تحميل البيانات في Azure Data Lake Storage Gen2
في صفحة Azure Data Factory الرئيسية، حدد تجانب Ingest لبدء تشغيل أداة Copy Data.
في صفحة Properties، اختر Built-in copy task منTask type، واختر Run once nowمنTask cadence or task scheduleثم حدد Next.
في صفحة Source data store، أكمل الخطوات التالية:
حدد + اتصال جديد. حدد Amazon S3 من معرض الموصل، وحدد Continue.
في صفحة New connection (Amazon S3، نفذ الخطوات التالية:
- حدد قيمة Access Key ID.
- حدد قيمة معرف الوصول إلى البيانات السرية.
- انقر فوق Test connection للتحقق من صحة الإعدادات، ثم حدد Create.
في صفحة مخزن بيانات المصدر، تأكد من تحديد اتصال Amazon S3 الذي تم إنشاؤه حديثا في كتلة الاتصال .
في قسم File or folder استعرض للوصول إلى المجلد والملف الذي تريد النسخ عليه. حدد المجلد/الملف، ثم حدد OK.
حدد سلوك النسخ عن طريق التحقق من خياري النسخ Recursively و Binary. حدد التالي.
في صفحة Destination data store، أكمل الخطوات التالية:
حدد + New connection، ثم حدد Azure Data Lake Storage Gen2، ثم حددContinue.
في صفحة New connection (Azure Data Lake Storage Gen2) حدد حساب Data Lake Storage Gen2 الممكن من القائمة المنسدلة "Storage account name"، وحدد Create لإنشاء الاتصال.
في صفحة Destination data store حدد الاتصال الذي أُنشيء حديثا في كتلة الاتصال. ثم ضمن Folder path، أدخل copyfroms3 كاسم مجلد الإخراج، وحدد Next. سينشيء ADF نظام ملفات ADLS Gen2 المطابق والمجلدات الفرعية أثناء النسخ إذا لم تكن موجودة.
في صفحة Settings حدد CopyFromAmazonS3ToADLS لحقل Task name وحدد Next لاستخدام الإعدادات الافتراضية.
في صفحة Summary، راجع الإعدادات، وحدد Next.
في صفحة Deployment، حدد Monitor لمراقبة المسار الذي أنشأته (مهمة).
عند اكتمال تشغيل المسار بنجاح، تشاهد المسار المشغل بواسطة مشغل يدوي. يمكنك استخدام الروابط ضمن العمود PIPELINE NAME لعرض تفاصيل النشاط وإعادة تشغيل "المسار".
لمشاهدة تشغيل النشاط المقترنة بتشغيل المسار، حدد الرابط CopyPipelineضمن عمود PIPELINE NAME. للحصول على تفاصيل حول عملية النسخ، حدد رابط Details link (eyeglasses icon) under theActivity name. يمكنك مراقبة تفاصيل مثل حجم البيانات المنسوخة من المصدر إلى المتلقي، وسرعة نقل البيانات، وخطوات التنفيذ مع المدة المقابلة، والتكوين المستخدم.
لإعادة تنشيط طريقة العرض، حدد Refresh. حدد All pipeline runs في الأعلى للعودة إلى طريقة عرض "تشغيل المسار".
تحقق من نسخ البيانات إلى حساب Data Lake Storage Gen2.