Tutorial: Menganalisis data Apache Spark menggunakan Power BI di HDInsight
Dalam tutorial ini, Anda mempelajari cara menggunakan Microsoft Power BI untuk memvisualisasikan data dalam kluster Apache Spark di Azure HDInsight.
Dalam tutorial ini, Anda akan mempelajari cara:
- Memvisualisasikan data Spark menggunakan Power BI
Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai.
Prasyarat
Selesaikan artikel Tutorial: Muat data dan jalankan kueri pada kluster Apache Spark di Azure HDInsight.
Opsional: Langganan uji coba Power BI.
Memverifikasi data
Jupyter Notebook yang Anda buat di tutorial sebelumnya menyertakan kode untuk membuat hvac
tabel. Tabel ini didasarkan pada file CSV yang tersedia di semua kluster HDInsight Spark di \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv
. Gunakan prosedur berikut untuk memverifikasi data.
Dari Jupyter Notebook, tempelkan kode berikut, lalu tekan SHIFT + ENTER. Kode memverifikasi keberadaan tabel.
%%sql SHOW TABLES
Output-nya terlihat seperti:
Jika Anda menutup notebook sebelum memulai tutorial ini,
hvactemptable
dibersihkan, sehingga tidak disertakan dalam output. Hanya tabel Apache Hive yang disimpan di metastore (ditunjukkan oleh False di bawah kolom isTemporary) yang dapat diakses dari alat BI. Dalam tutorial ini, Anda terhubung ke tabel hvac yang Anda buat.Tempelkan kode berikut dalam sel kosong, lalu tekan SHIFT + ENTER. Kode memverifikasi data dalam tabel.
%%sql SELECT * FROM hvac LIMIT 10
Output-nya terlihat seperti:
Dari menu File pada buku catatan, pilih Tutup dan Hentikan. Matikan notebook untuk merilis sumber daya.
Visualisasikan data
Di bagian ini, Anda menggunakan Power BI untuk membuat visualisasi, laporan, dan dasbor dari data klaster Spark.
Membuat laporan di Power BI Desktop
Langkah pertama dalam bekerja dengan Spark adalah menyambungkan ke kluster di Power BI Desktop, memuat data dari kluster, dan membuat visualisasi dasar berdasarkan data tersebut.
Buka Power BI Desktop. Tutup layar slash start-up jika terbuka.
Dari tab Beranda, navigasi ke Dapatkan Data>Lainnya...
Masukkan
Spark
di kotak pencarian, pilih Azure HDInsight Spark, lalu pilih Sambungkan.Masukkan URL kluster Anda (dalam formulir
mysparkcluster.azurehdinsight.net
) di kotak teks Server.Di bawah Mode konektivitas data, pilih DirectQuery. Kemudian pilih OK.
Anda dapat menggunakan mode konektivitas data dengan Spark. Jika Anda menggunakan DirectQuery, perubahan tercermin dalam laporan tanpa merefresh seluruh set data. Jika Anda mengimpor data, Anda harus merefresh kumpulan data untuk melihat perubahan. Untuk informasi selengkapnya tentang cara dan kapan menggunakan DirectQuery, lihat Menggunakan DirectQuery di Power BI.
Masukkan informasi akun proses masuk HDInsight, lalu pilih Hubungkan. Nama akun default adalah admin.
Pilih
hvac
tabel, tunggu untuk melihat pratinjau data, lalu pilih Muat.Power BI Desktop memiliki informasi yang diperlukan untuk menyambungkan ke kluster Spark dan memuat data dari tabel
hvac
. Tabel dan kolomnya ditampilkan di panel Bidang.Visualisasikan varian antara suhu target dan suhu aktual untuk setiap bangunan:
Di panel VISUALISASI, pilih Bagan Area.
Seret bidang BuildingID ke Sumbu, dan seret bidang ActualTemp dan TargetTemp ke Nilai.
Diagramnya terlihat seperti:
Secara default visualisasi memperlihatkan jumlah untuk ActualTemp dan TargetTemp. Pilih panah bawah di samping ActualTemp dan TargetTemp di panel Visualisasi, Anda bisa melihat Jumlah dipilih.
Pilih panah bawah di samping ActualTemp dan TargetTemp di panel Visualisasi, pilih Rata-rata untuk mendapatkan rata-rata suhu aktual dan target untuk setiap bangunan.
Visualisasi data Anda akan mirip dengan yang ada di tangkapan layar. Pindahkan kursor Anda ke visualisasi untuk mendapatkan tips alat dengan data yang relevan.
Navigasi ke File>Simpan, masukkan nama
BuildingTemperature
untuk file, lalu pilih Simpan.
Menerbitkan laporan ke Layanan Power BI (opsional)
Layanan Power BI memungkinkan Anda berbagi laporan dan dasbor di seluruh organisasi Anda. Di bagian ini, Anda terlebih dahulu menerbitkan himpunan data dan laporan. Kemudian, Anda menyematkan laporan ke dasbor. Dasbor biasanya digunakan untuk fokus pada subset data dalam laporan. Anda hanya memiliki satu visualisasi dalam laporan Anda, tetapi masih berguna untuk menelusuri langkah-langkahnya.
Buka Power BI Desktop.
Dari tab Beranda, pilih Terbitkan.
Pilih ruang kerja untuk menerbitkan himpunan data dan laporan Anda, lalu pilih Pilih. Pada gambar berikut, Ruang Kerja Saya yang default dipilih.
Setelah penerbitan berhasil, pilih Buka 'BuildingTemperature.pbix' di Power BI.
Di layanan Power BI, pilih Masukkan kredensial.
Pilih Edit kredensial.
Masukkan informasi akun proses masuk HDInsight, lalu pilih Masuk. Nama akun default adalah admin.
Di panel kiri, pergi ke Ruang Kerja>Ruang Kerja Saya>LAPORAN, lalu pilihBuildingTemperature.
Anda juga akan melihat BuildingTemperaturetercantum di bawah HIMPUNNAN DATA di panel kiri.
Visual yang Anda buat di Power BI Desktop sekarang tersedia di layanan Power BI.
Arahkan kursor ke visualisasi, lalu pilih ikon sematkan di sudut kanan atas.
Pilih "Dasbor baru", masukkan nama
Building temperature
, lalu pilih sematkan.Dalam laporan, pilih Buka dasbor.
Visual Anda disematkan ke dasbor - Anda dapat menambahkan visual lain ke laporan dan menyematkannya ke dasbor yang sama. Untuk informasi selengkapnya tentang laporan dan dasbor, lihat Laporan di Power BI dan Dasbor di Power BI.
Membersihkan sumber daya
Setelah Anda menyelesaikan tutorial, Anda dapat menghapus kluster. Dengan HDInsight, data Anda disimpan di Azure Storage, sehingga Anda dapat menghapus kluster dengan aman saat tidak digunakan. Anda juga dikenakan biaya untuk klaster HDInsight, bahkan saat tidak digunakan. Karena biaya untuk kluster berkali-kali lebih banyak daripada biaya untuk penyimpanan, masuk akal secara ekonomis untuk menghapus kluster saat tidak digunakan.
Untuk menghapus kluster, lihat Hapus kluster HDInsight menggunakan browser, PowerShell, atau Azure CLI Anda.
Langkah berikutnya
Dalam tutorial ini, Anda mempelajari cara menggunakan Microsoft Power BI untuk memvisualisasikan data dalam kluster Apache Spark di Azure HDInsight. Lanjutkan ke artikel berikutnya untuk melihat Anda dapat membuat aplikasi pembelajaran mesin.