Mengubah data dengan menjalankan aktivitas Azure HDInsight
Aktivitas Azure HDInsight di Data Factory untuk Microsoft Fabric memungkinkan Anda mengatur jenis pekerjaan Azure HDInsight berikut:
- Menjalankan kueri Apache Hive
- Memanggil program MapReduce
- Menjalankan kueri Pig
- Menjalankan program Spark
- Menjalankan program Aliran Hadoop
Artikel ini menyediakan panduan langkah demi langkah yang menjelaskan cara membuat aktivitas Azure HDInsight menggunakan antarmuka Data Factory.
Prasyarat
Untuk memulai, Anda harus menyelesaikan prasyarat berikut:
- Akun penyewa dengan langganan aktif. Buat akun secara gratis.
- Ruang kerja dibuat.
Menambahkan aktivitas Azure HDInsight (HDI) ke alur dengan UI
Buat alur data baru di ruang kerja Anda.
Cari Azure HDInsight dari kartu layar beranda dan pilih atau pilih aktivitas dari bilah Aktivitas untuk menambahkannya ke kanvas alur.
Pilih aktivitas Azure HDInsight baru di kanvas editor alur jika belum dipilih.
Lihat panduan Pengaturan umum untuk mengonfigurasi opsi yang ditemukan di tab Pengaturan umum.
Mengonfigurasi kluster HDI
Pilih tab Kluster HDI. Kemudian Anda dapat memilih koneksi HDInsight baru atau yang sudah ada.
Untuk Koneksi sumber daya, pilih Azure Blob Storage yang mereferensikan kluster Azure HDInsight Anda. Anda dapat memilih penyimpanan Blob yang sudah ada atau membuat yang baru.
Konfigurasikan pengaturan
Pilih tab Pengaturan untuk melihat pengaturan tingkat lanjut untuk aktivitas tersebut.
Semua properti kluster tingkat lanjut dan ekspresi dinamis yang didukung di layanan tertaut Azure Data Factory dan Synapse Analytics HDInsight sekarang juga didukung dalam aktivitas Azure HDInsight untuk Data Factory di Microsoft Fabric, di bawah bagian Tingkat Lanjut di UI. Semua properti ini mendukung ekspresi parameter kustom yang mudah digunakan dengan konten dinamis.
Jenis kluster
Untuk mengonfigurasi pengaturan untuk kluster HDInsight Anda, pertama-tama pilih Jenisnya dari opsi yang tersedia, termasuk Apache Hive, Map Reduce, Pig, Spark, dan Streaming.
Hive
Jika Anda memilih Apache Hive untuk Jenis, aktivitas akan menjalankan kueri Apache Hive. Anda dapat secara opsional menentukan koneksi Skrip yang mereferensikan akun penyimpanan yang menyimpan jenis Apache Hive. Secara default, koneksi penyimpanan yang Anda tentukan di tab Kluster HDI digunakan. Anda perlu menentukan jalur File yang akan dijalankan di Azure HDInsight. Secara opsional, Anda dapat menentukan lebih banyak konfigurasi di bagian Tingkat Lanjut , Informasi debug, Batas waktu kueri, Argumen, Parameter, dan Variabel.
Pengurangan Peta
Jika Anda memilih Kurangi Peta untuk Jenis, aktivitas memanggil program Pengurangan Peta. Anda dapat secara opsional menentukan dalam koneksi Jar yang mereferensikan akun penyimpanan yang menyimpan jenis Pengurangan Peta. Secara default, koneksi penyimpanan yang Anda tentukan di tab Kluster HDI digunakan. Anda perlu menentukan Nama kelas dan jalur File yang akan dijalankan di Azure HDInsight. Secara opsional Anda dapat menentukan detail konfigurasi lainnya, seperti mengimpor pustaka Jar, informasi debug, argumen, dan parameter di bawah bagian Tingkat Lanjut .
Pig
Jika Anda memilih Pig untuk Jenis, aktivitas akan memanggil kueri Pig. Anda dapat secara opsional menentukan pengaturan koneksi Skrip yang mereferensikan akun penyimpanan yang menyimpan jenis Pig. Secara default, koneksi penyimpanan yang Anda tentukan di tab Kluster HDI digunakan. Anda perlu menentukan jalur File yang akan dijalankan di Azure HDInsight. Secara opsional Anda dapat menentukan lebih banyak konfigurasi, seperti informasi debug, argumen, parameter, dan variabel di bawah bagian Tingkat Lanjut .
Spark
Jika Anda memilih Spark untuk Jenis, aktivitas akan memanggil program Spark. Pilih Skrip atau Jar untuk jenis Spark. Anda dapat secara opsional menentukan koneksi Pekerjaan yang mereferensikan akun penyimpanan yang menyimpan jenis Spark. Secara default, koneksi penyimpanan yang Anda tentukan di tab Kluster HDI digunakan. Anda perlu menentukan jalur File yang akan dijalankan di Azure HDInsight. Secara opsional Anda dapat menentukan lebih banyak konfigurasi, seperti nama kelas, pengguna proksi, informasi debug, argumen, dan konfigurasi spark di bawah bagian Tingkat Lanjut.
Streaming
Jika Anda memilih Streaming untuk Jenis, aktivitas akan memanggil program Streaming. Tentukan nama Pemeta dan Peredam, dan Anda dapat secara opsional menentukan koneksi File yang mereferensikan akun penyimpanan yang menyimpan jenis Streaming. Secara default, koneksi penyimpanan yang Anda tentukan di tab Kluster HDI digunakan. Anda perlu menentukan jalur File untuk Mapper dan jalur File untuk Reducer yang akan dijalankan di Azure HDInsight. Sertakan opsi Input dan Output juga untuk jalur WASB. Secara opsional Anda dapat menentukan lebih banyak konfigurasi, seperti informasi debug, argumen, dan parameter di bawah bagian Tingkat Lanjut.
Referensi properti
Properti | Deskripsi | Wajib |
---|---|---|
jenis | Untuk Aktivitas Streaming Hadoop, jenis aktivitasnya adalah HDInsightStreaming | Ya |
pemeta | Menentukan nama mapper yang dapat dieksekusi | Ya |
pengurangan | Menentukan nama dari reducer yang dapat dieksekusi | Ya |
combiner | Menentukan nama combiner yang dapat dieksekusi | No |
koneksi file | Lihat Layanan Tertaut Azure Storage yang digunakan untuk menyimpan program Mapper, Combiner, dan Reducer yang dapat dieksekusi. | No |
Hanya koneksi Azure Blob Storage dan ADLS Gen2 yang didukung di sini. Jika Anda tidak menentukan koneksi ini, koneksi penyimpanan yang ditentukan dalam koneksi HDInsight digunakan. | ||
filePath | Berikan array jalur ke program Mapper, Combiner, dan Reducer yang disimpan di Azure Storage yang dirujuk oleh koneksi file. | Ya |
input | Menentukan jalur WASB ke file input untuk Mapper. | Ya |
output | Menentukan jalur WASB ke file output untuk Reducer. | Ya |
getDebugInfo | Menentukan waktu saat file log disalin ke Azure Storage yang digunakan oleh kluster Azure HDInsight (atau) ditentukan oleh scriptLinkedService. | No |
Nilai yang diizinkan: None, Always, atau Failure. Nilai default: None. | ||
arguments | Menentukan rangkaian argumen untuk pekerjaan Hadoop. Argumen diteruskan sebagai argumen baris-perintah untuk tiap pekerjaan. | No |
defines | Menentukan parameter sebagai pasangan kunci/nilai untuk referensi dalam skrip Apache Hive. | No |
Menyimpan dan menjalankan atau menjadwalkan alur
Setelah Anda mengonfigurasi aktivitas lain yang diperlukan untuk alur Anda, beralihlah ke tab Beranda di bagian atas editor alur, dan pilih tombol simpan untuk menyimpan alur Anda. Pilih Jalankan untuk menjalankannya secara langsung, atau Jadwalkan untuk menjadwalkannya. Anda juga dapat melihat riwayat eksekusi di sini atau mengonfigurasi pengaturan lain.