البرنامج التعليمي: تحليل بيانات Apache Spark باستخدام BI في HDInsight
في هذا البرنامج التعليمي، يمكنك معرفة كيفية استخدام Microsoft Power BI لتصور البيانات في مجموعة Apache Spark في Azure HDInsight.
في هذا البرنامج التعليمي، تتعلم كيفية:
- تصور بيانات Spark باستخدام Power BI
في حال لم يكن لديك اشتراك Azure، فأنشئ حساباً مجانيّاً قبل البدء.
المتطلبات الأساسية
أكمل المقالالبرنامج التعليمي: تحميل البيانات وتشغيل الاستعلامات على مجموعة Apache Spark في Azure HDInsight.
اختياري: اشتراك الإصدار التجريبي من Power BI.
التحقق من قرص البيانات
يتضمن دفتر Jupyter الذي قمت بإنشائه في البرنامج التعليمي السابق التعليمات البرمجية لإنشاء hvac
جدول. يستند هذا الجدول إلى ملف CSV المتوفر على جميع مجموعات HDInsight Spark في \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv
. استخدم الإجراء التالي للتحقق من البيانات.
من دفتر Jupyter، الصق التعليمات البرمجية التالية، ثم اضغط SHIFT + ENTER. يتحقق التعليمات البرمجية من وجود الجداول.
%%sql SHOW TABLES
يبدو الإخراج مثل:
إذا قمت بإغلاق دفتر الملاحظات قبل بدء هذا البرنامج التعليمي،
hvactemptable
يتم تنظيفه، لذلك لا يتم تضمينه في الإخراج. يمكن الوصول إلى جداول الخلية المخزنة في metastore (المشار إليها بواسطة False ضمن العمود isTemporary) فقط من أدوات BI. في هذا البرنامج التعليمي، يمكنك الاتصال بجدول التكييف الذي قمت بإنشائه.الصق الرمز التالي في خلية فارغة، ثم قم بالضغط SHIFT + ENTER لتقوم بتشغيل الرمز. يتحقق التعليمات البرمجية من البيانات الموجودة في الجدول.
%%sql SELECT * FROM hvac LIMIT 10
يبدو الإخراج مثل:
من القائمة حدد File في دفتر الملاحظات، ثم حدد lose and Halt. إيقاف تشغيل دفتر الملاحظات لتحرير الموارد.
عرض البيانات
في هذا القسم، يمكنك استخدام Power BI لإنشاء مرئيات وتقارير ولوحات معلومات من بيانات مجموعة Spark.
إنشاء تقرير في Power BI Desktop
الخطوات الأولى في العمل مع Spark هي للاتصال الكتلة في Power BI Desktop، تحميل البيانات من المجموعة وإنشاء تصور أساسي استناداً إلى تلك البيانات.
افتح Power BI Desktop. أغلق شاشة البداية في حالة فتحها.
من علامة التبويب الصفحة الرئيسية، انتقل إلى الحصول على مزيدمن >البيانات...
أدخل
Spark
في مربع البحث، وحدد Azure HDInsight Spark، ثم حدد الاتصال.أدخل URL الكتلة (في
mysparkcluster.azurehdinsight.net
النموذج) في مربع نص الخادم.ضمن وضع اتصال البيانات، حدد DirectQuery. ثم حدد موافق.
يمكنك استخدام وضع اتصال البيانات مع Spark. إذا كنت تستخدم DirectQuery، تنعكس التغييرات في التقارير دون تحديث مجموعة البيانات بأكملها. إذا قمت باستيراد البيانات، يجب تحديث مجموعة البيانات لمشاهدة التغييرات. لمزيد من المعلومات حول كيفية ومتى تستخدم DirectQuery، راجع استخدام DirectQuery في Power BI.
أدخل معلومات حساب تسجيل الدخول HDInsight، ثم حدد الاتصال. اسم تسجيل الحساب الافتراضي هو admin.
حدد
hvac
الجدول وانتظر لمشاهدة معاينة البيانات، ثم حدد تحميل.يمتلك Power BI Desktop المعلومات التي يحتاجها للاتصال بمجموعة Spark وتحميل البيانات من
hvac
الجدول. يتم عرض الجدول وأعمدته في جزء الحقول.تصور الفرق بين درجة الحرارة المستهدفة ودرجة الحرارة الفعلية لكل مبنى:
في جزء المرئيات، حدد مخطط المنطقة.
اسحب الحقل BuildingID إلى المحور، واسحب الحقلين ActualTemp وTargetTemp إلى القيمة.
المخطط يشبه ما يلي:
افتراضياً تظهر المرئيات مجموع ActualTemp وTargetTemp. حدد السهم لأسفل بجوار ActualTemp و TargetTemp في جزء Visualizations، يمكنك رؤية Sum محددا.
حدد الأسهم لأسفل بجوار ActualTemp و TargetTemp في جزء Visualizations، وحدد Average للحصول على متوسط درجات الحرارة الفعلية والهدف لكل مبنى.
يجب أن يكون تصور البيانات مشابهاً للتصور في لقطة الشاشة. حرك المؤشر فوق المرئيات للحصول على تلميحات الأدوات باستخدام البيانات ذات الصلة.
انتقل إلى حفظ الملف، أدخل اسم الملف، ثم >حدد
BuildingTemperature
حفظ.
انشر التقرير إلى خدمة Power BI (اختياري)
تتيح لك خدمة Power BI مشاركة التقارير ولوحات المعلومات عبر مؤسستك. في هذا القسم، يمكنك أولاً نشر مجموعة البيانات والتقرير. ثم قم تثبيت التقرير بلوحة معلومات. تستخدم لوحات المعلومات عادة للتركيز على مجموعة فرعية من البيانات في تقرير. لديك مرئية واحدة فقط في التقرير، ولكن لا يزال من المفيد الانتقال عبر الخطوات.
افتح Power BI Desktop.
في علامة تبويب الصفحة الرئيسية، حدد "Publish".
حدد مساحة عمل لنشر مجموعة البيانات والإبلاغ عنها، ثم حدد تحديد. في الصورة التالية، يتم تحديد مساحة العمل الافتراضية.
بعد نجاح النشر، حدد فتح 'BuildingTemperature.pbix' في Power BI.
في خدمة Power BI، حدد إدخال بيانات الاعتماد.
حدد "Edit credentials".
أدخل معلومات حساب تسجيل الدخول HDInsight، ثم حدد الاتصال. اسم تسجيل الحساب الافتراضي هو admin.
في الجزء الأيمن، انتقل إلى مساحات العمل>تقارير مساحة العمل الخاصة بي،>ثم حدد BuildingTemperature.
يجب أن تشاهد أيضا BuildingTemperature المسرودة ضمن DATASETS في الجزء الأيمن.
المرئية التي قمت بإنشائها في Power BI Desktop متوفرة الآن في خدمة Power BI.
مرر المؤشر فوق المرئيات، ثم حدد أيقونة الدبوس في الزاوية العلوية اليمنى.
حدد "لوحة معلومات جديدة"، وأدخل
Building temperature
الاسم، ثم حدد تثبيت.في التقرير، حدد الانتقال إلى لوحة المعلومات.
يتم تثبيت المرئي الخاص بك إلى لوحة المعلومات - يمكنك إضافة صور أخرى إلى التقرير وتثبيتها على لوحة المعلومات نفسها. لمزيد من المعلومات حول التقارير ولوحات المعلومات، راجع التقارير في Power BI ولوحات المعلومات في Power BI.
تنظيف الموارد
بعد إكمال البرنامج التعليمي، قد يلزم حذف الكتلة. من خلال HDInsight، يتم تخزين البيانات الخاصة بك في Azure Storage؛ لذا يمكنك حذف المجموعة بأمان عندما لا تكون قيد الاستخدام. كما يتم تحصيل رسوم منك مقابل مجموعة HDInsight، حتى عندما لا تكون قيد الاستخدام. نظراً لأن رسوم نظام المجموعة تزيد عدة مرات عن رسوم التخزين، فمن المنطقي اقتصادياً حذف أنظمة المجموعات عندما لا تكون قيد الاستخدام.
لحذف نظام المجموعة، يرجى الرجوع إلى حذف نظام مجموعة HDInsight باستخدام متصفحكَ أو PowerShell أو Azure CLI .
الخطوات التالية
في هذا البرنامج التعليمي، تعلمت معرفة كيفية استخدام Microsoft Power BI لتصور البيانات في مجموعة Apache Spark في Azure HDInsight. تقدم إلى المقالة التالية لترى أنه يمكنك إنشاء تطبيق تعلم آلي.