Mengubah data menggunakan aktivitas Hadoop Pig di Azure Data Factory atau Azure Synapse Analytics
BERLAKU UNTUK: Azure Data Factory
Azure Synapse Analytics
Tip
Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!
Aktivitas Pig Azure HDInsight dalam alur Azure Data Factory mengeksekusi kueri Pig di kluster Azure HDInsight sendiri atau sesuai permintaan. Artikel ini membangun artikel aktivitas transformasi data, yang menyajikan gambaran umum tentang transformasi data dan aktivitas transformasi yang didukung.
Untuk mempelajari lebih lanjut, baca pengantar Azure Data Factory atau Azure Synapse Analytics dan lakukan Tutorial: transformasi data sebelum membaca artikel ini.
Menambahkan aktivitas HDInsight Pig ke alur dengan UI
Untuk menggunakan aktivitas HDInsight Pig ke alur, selesaikan langkah-langkah berikut:
Cari Pig di panel Aktivitas alur, dan seret aktivitas Pig ke kanvas alur.
Pilih aktivitas Pig baru di kanvas jika belum dipilih.
Pilih tab Kluster HDI untuk memilih atau membuat layanan tertaut baru ke kluster HDInsight yang akan digunakan untuk menjalankan aktivitas MapReduce.
Pilih tab Skrip untuk memilih atau membuat layanan tertaut skrip baru ke lokasi Azure Storage tempat skrip Anda akan dihosting. Tentukan nama kelas yang akan dieksekusi di sana, dan jalur file di dalam lokasi penyimpanan. Anda juga dapat mengonfigurasi detail tingkat lanjut termasuk konfigurasi penelusuran kesalahan, dan argumen serta parameter yang akan diteruskan ke skrip.
Sintaks
{
"name": "Pig Activity",
"description": "description",
"type": "HDInsightPig",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"scriptLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"scriptPath": "MyAzureStorage\\PigScripts\\MyPigScript.pig",
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
Detail sintaks
Properti | Deskripsi | Wajib |
---|---|---|
nama | Nama aktivitas | Ya |
description | Teks yang menjelaskan untuk apa aktivitas tersebut digunakan | No |
jenis | Untuk Aktivitas Apache Hive, jenis aktivitasnya adalah HDinsightPig | Ya |
linkedServiceName | Referensi ke kluster HDInsight yang terdaftar sebagai layanan tertaut. Untuk mempelajari layanan tertaut ini, lihat artikel Layanan tertaut komputasi. | Ya |
scriptLinkedService | Rujuk Layanan Tertaut Azure Storage yang digunakan untuk menyimpan skrip Pig untuk dieksekusi. Hanya layanan tertaut Azure Blob Storage dan ADLS Gen2 yang didukung di sini. Jika Anda tidak menentukan Layanan Tertaut ini, Layanan Tertaut Azure Storage yang ditentukan dalam Layanan Tertaut Azure HDInsight akan digunakan. | No |
scriptPath | Berikan jalur ke file skrip yang disimpan di Azure Storage yang dirujuk sebagai scriptLinkedService. Nama file peka huruf besar/kecil. | No |
getDebugInfo | Menentukan waktu saat file log disalin ke Azure Storage yang digunakan oleh kluster Azure HDInsight (atau) ditentukan oleh scriptLinkedService. Nilai yang diizinkan: None, Always, atau Failure. Nilai default: None. | No |
arguments | Menentukan rangkaian argumen untuk pekerjaan Hadoop. Argumen diteruskan sebagai argumen baris-perintah untuk tiap pekerjaan. | No |
defines | Tentukan parameter sebagai pasangan kunci/nilai untuk merujuk dalam skrip Pig. | No |
Konten terkait
Lihat artikel berikut yang menjelaskan cara mentransformasikan data dengan cara lain: