Mengubah data dengan menjalankan aktivitas Azure HDInsight

Artikel
05/21/2024

Aktivitas Azure HDInsight di Data Factory untuk Microsoft Fabric memungkinkan Anda mengatur jenis pekerjaan Azure HDInsight berikut:

Menjalankan kueri Apache Hive
Memanggil program MapReduce
Menjalankan kueri Pig
Menjalankan program Spark
Menjalankan program Aliran Hadoop

Artikel ini menyediakan panduan langkah demi langkah yang menjelaskan cara membuat aktivitas Azure HDInsight menggunakan antarmuka Data Factory.

Prasyarat

Untuk memulai, Anda harus menyelesaikan prasyarat berikut:

Akun penyewa dengan langganan aktif. Buat akun secara gratis.
Ruang kerja dibuat.

Menambahkan aktivitas Azure HDInsight (HDI) ke alur dengan UI

Buat alur data baru di ruang kerja Anda.
Cari Azure HDInsight dari kartu layar beranda dan pilih atau pilih aktivitas dari bilah Aktivitas untuk menambahkannya ke kanvas alur.
- Membuat aktivitas dari kartu layar beranda:
- Membuat aktivitas dari bilah Aktivitas:
Pilih aktivitas Azure HDInsight baru di kanvas editor alur jika belum dipilih.

Lihat panduan Pengaturan umum untuk mengonfigurasi opsi yang ditemukan di tab Pengaturan umum.

Mengonfigurasi kluster HDI

Pilih tab Kluster HDI. Kemudian Anda dapat memilih koneksi HDInsight baru atau yang sudah ada.
Untuk Koneksi sumber daya, pilih Azure Blob Storage yang mereferensikan kluster Azure HDInsight Anda. Anda dapat memilih penyimpanan Blob yang sudah ada atau membuat yang baru.

Konfigurasikan pengaturan

Pilih tab Pengaturan untuk melihat pengaturan tingkat lanjut untuk aktivitas tersebut.

Cuplikan layar memperlihatkan tab Pengaturan properti aktivitas Azure HDInsight di jendela editor alur. .

Semua properti kluster tingkat lanjut dan ekspresi dinamis yang didukung di layanan tertaut Azure Data Factory dan Synapse Analytics HDInsight sekarang juga didukung dalam aktivitas Azure HDInsight untuk Data Factory di Microsoft Fabric, di bawah bagian Tingkat Lanjut di UI. Semua properti ini mendukung ekspresi parameter kustom yang mudah digunakan dengan konten dinamis.

Jenis kluster

Untuk mengonfigurasi pengaturan untuk kluster HDInsight Anda, pertama-tama pilih Jenisnya dari opsi yang tersedia, termasuk Apache Hive, Map Reduce, Pig, Spark, dan Streaming.

Hive

Jika Anda memilih Apache Hive untuk Jenis, aktivitas akan menjalankan kueri Apache Hive. Anda dapat secara opsional menentukan koneksi Skrip yang mereferensikan akun penyimpanan yang menyimpan jenis Apache Hive. Secara default, koneksi penyimpanan yang Anda tentukan di tab Kluster HDI digunakan. Anda perlu menentukan jalur File yang akan dijalankan di Azure HDInsight. Secara opsional, Anda dapat menentukan lebih banyak konfigurasi di bagian Tingkat Lanjut , Informasi debug, Batas waktu kueri, Argumen, Parameter, dan Variabel.

Cuplikan layar memperlihatkan jenis kluster Apache Hive.

Pengurangan Peta

Jika Anda memilih Kurangi Peta untuk Jenis, aktivitas memanggil program Pengurangan Peta. Anda dapat secara opsional menentukan dalam koneksi Jar yang mereferensikan akun penyimpanan yang menyimpan jenis Pengurangan Peta. Secara default, koneksi penyimpanan yang Anda tentukan di tab Kluster HDI digunakan. Anda perlu menentukan Nama kelas dan jalur File yang akan dijalankan di Azure HDInsight. Secara opsional Anda dapat menentukan detail konfigurasi lainnya, seperti mengimpor pustaka Jar, informasi debug, argumen, dan parameter di bawah bagian Tingkat Lanjut .

Cuplikan layar memperlihatkan pilihan Pengurangan Peta untuk jenis kluster HDInsight.

Pig

Jika Anda memilih Pig untuk Jenis, aktivitas akan memanggil kueri Pig. Anda dapat secara opsional menentukan pengaturan koneksi Skrip yang mereferensikan akun penyimpanan yang menyimpan jenis Pig. Secara default, koneksi penyimpanan yang Anda tentukan di tab Kluster HDI digunakan. Anda perlu menentukan jalur File yang akan dijalankan di Azure HDInsight. Secara opsional Anda dapat menentukan lebih banyak konfigurasi, seperti informasi debug, argumen, parameter, dan variabel di bawah bagian Tingkat Lanjut .

Cuplikan layar memperlihatkan pemilihan jenis Pig untuk kluster HDInsight.

Spark

Jika Anda memilih Spark untuk Jenis, aktivitas akan memanggil program Spark. Pilih Skrip atau Jar untuk jenis Spark. Anda dapat secara opsional menentukan koneksi Pekerjaan yang mereferensikan akun penyimpanan yang menyimpan jenis Spark. Secara default, koneksi penyimpanan yang Anda tentukan di tab Kluster HDI digunakan. Anda perlu menentukan jalur File yang akan dijalankan di Azure HDInsight. Secara opsional Anda dapat menentukan lebih banyak konfigurasi, seperti nama kelas, pengguna proksi, informasi debug, argumen, dan konfigurasi spark di bawah bagian Tingkat Lanjut.

Cuplikan layar memperlihatkan pemilihan jenis Spark untuk kluster HDInsight.

Streaming

Jika Anda memilih Streaming untuk Jenis, aktivitas akan memanggil program Streaming. Tentukan nama Pemeta dan Peredam, dan Anda dapat secara opsional menentukan koneksi File yang mereferensikan akun penyimpanan yang menyimpan jenis Streaming. Secara default, koneksi penyimpanan yang Anda tentukan di tab Kluster HDI digunakan. Anda perlu menentukan jalur File untuk Mapper dan jalur File untuk Reducer yang akan dijalankan di Azure HDInsight. Sertakan opsi Input dan Output juga untuk jalur WASB. Secara opsional Anda dapat menentukan lebih banyak konfigurasi, seperti informasi debug, argumen, dan parameter di bawah bagian Tingkat Lanjut.

Cuplikan layar memperlihatkan pemilihan jenis Streaming untuk kluster HDInsight.

Referensi properti

Properti	Deskripsi	Wajib
jenis	Untuk Aktivitas Streaming Hadoop, jenis aktivitasnya adalah HDInsightStreaming	Ya
pemeta	Menentukan nama mapper yang dapat dieksekusi	Ya
pengurangan	Menentukan nama dari reducer yang dapat dieksekusi	Ya
combiner	Menentukan nama combiner yang dapat dieksekusi	No
koneksi file	Lihat Layanan Tertaut Azure Storage yang digunakan untuk menyimpan program Mapper, Combiner, dan Reducer yang dapat dieksekusi.	No
	Hanya koneksi Azure Blob Storage dan ADLS Gen2 yang didukung di sini. Jika Anda tidak menentukan koneksi ini, koneksi penyimpanan yang ditentukan dalam koneksi HDInsight digunakan.
filePath	Berikan array jalur ke program Mapper, Combiner, dan Reducer yang disimpan di Azure Storage yang dirujuk oleh koneksi file.	Ya
input	Menentukan jalur WASB ke file input untuk Mapper.	Ya
output	Menentukan jalur WASB ke file output untuk Reducer.	Ya
getDebugInfo	Menentukan waktu saat file log disalin ke Azure Storage yang digunakan oleh kluster Azure HDInsight (atau) ditentukan oleh scriptLinkedService.	No
	Nilai yang diizinkan: None, Always, atau Failure. Nilai default: None.
arguments	Menentukan rangkaian argumen untuk pekerjaan Hadoop. Argumen diteruskan sebagai argumen baris-perintah untuk tiap pekerjaan.	No
defines	Menentukan parameter sebagai pasangan kunci/nilai untuk referensi dalam skrip Apache Hive.	No

Menyimpan dan menjalankan atau menjadwalkan alur

Setelah Anda mengonfigurasi aktivitas lain yang diperlukan untuk alur Anda, beralihlah ke tab Beranda di bagian atas editor alur, dan pilih tombol simpan untuk menyimpan alur Anda. Pilih Jalankan untuk menjalankannya secara langsung, atau Jadwalkan untuk menjadwalkannya. Anda juga dapat melihat riwayat eksekusi di sini atau mengonfigurasi pengaturan lain.

Cuplikan layar memperlihatkan tab Beranda editor alur, menyoroti tombol Simpan, Jalankan, dan Jadwalkan.

Cara memantau eksekusi alur

Bagikan melalui

Mengubah data dengan menjalankan aktivitas Azure HDInsight

Prasyarat

Menambahkan aktivitas Azure HDInsight (HDI) ke alur dengan UI

Mengonfigurasi kluster HDI