Bagikan melalui


Apa itu manipulasi data?

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Manipulasi data melibatkan transformasi dan format ulang data dari sumber aslinya untuk membuatnya lebih cocok dan berguna untuk berbagai aplikasi hilir.

Organisasi perlu memiliki kemampuan untuk mengeksplorasi data bisnis penting mereka untuk penyiapan data dan manipulasi untuk memberikan analisis yang akurat tentang data kompleks yang terus tumbuh setiap hari. Penyiapan data diperlukan agar organisasi dapat menggunakan data dalam berbagai proses bisnis dan mengurangi waktu ke nilai.

Data Factory memberdayakan Anda dengan penyiapan data bebas kode pada skala cloud secara berulang menggunakan Power Query. Data Factory terintegrasi dengan Power Query Online dan membuat fungsi Power Query M tersedia sebagai aktivitas alur.

Data Factory menerjemahkan M yang dihasilkan oleh Power Query Online Mashup Editor ke dalam kode spark untuk eksekusi skala cloud dengan menerjemahkan M ke dalam Azure Data Factory Data Flows. Memanipulasi data dengan Power Query dan aliran data sangat berguna untuk insinyur data atau 'integrator data warga'.

Kasus penggunaan

Eksplorasi dan penyiapan data interaktif yang cepat

Beberapa insinyur data dan integrator data warga dapat secara interaktif menjelajahi dan menyiapkan himpunan data pada skala cloud. Dengan maraknya volume, variasi, dan kecepatan data di data lake, pengguna membutuhkan cara yang efektif untuk mengeksplorasi dan menyiapkan himpunan data. Misalnya, Anda mungkin perlu membuat himpunan data yang 'memiliki semua info demografis pelanggan untuk pelanggan baru sejak 2017'. Anda tidak memetakan ke target yang dikenal. Anda menjelajahi, memanipulasi, dan mempersiapkan himpunan data untuk memenuhi persyaratan sebelum menerbitkannya di lake. Wrangling sering digunakan untuk skenario analitik yang kurang formal. Himpunan data yang disiapkan dapat digunakan untuk melakukan transformasi dan operasi pembelajaran mesin downstream.

Penyiapan data agile bebas kode

Integrator data warga menghabiskan lebih dari 60% waktu mereka mencari dan menyiapkan data. Mereka ingin melakukannya dengan cara bebas kode untuk meningkatkan produktivitas operasional. Memungkinkan integrator data warga memperkaya, membentuk, dan menerbitkan data menggunakan alat yang dikenal seperti Power Query Online dengan cara yang dapat diskalakan secara drastis meningkatkan produktivitas mereka. Wrangling di Azure Data Factory memungkinkan editor mashup Power Query Online yang akrab untuk memungkinkan integrator data warga memperbaiki kesalahan dengan cepat, menstandarkan data, dan menghasilkan data berkualitas tinggi untuk mendukung keputusan bisnis.

Validasi dan eksplorasi data

Pindai data Anda secara visual dengan cara bebas kode untuk menghapus outlier, anomali, dan menyesuaikannya dengan bentuk untuk analitik cepat.

Sumber yang didukung

Konektor Format data Jenis autentikasi
Penyimpanan Blob Azure CSV, Parquet, Excel Kunci Akun, Perwakilan Layanan, MSI
Azure Data Lake Storage Gen1 CSV, Parquet, Excel Perwakilan Layanan, MSI
Azure Data Lake Storage Gen2 CSV, Parquet, Excel Kunci Akun, Perwakilan Layanan, MSI
Azure SQL Database - Autentikasi SQL, MSI, Perwakilan Layanan
Azure Synapse Analytics - Autentikasi SQL, MSI, Perwakilan Layanan

Editor mashup

Saat Anda membuat aktivitas Power Query, semua himpunan data sumber menjadi kueri himpunan data dan ditempatkan di folder ADFResource. Secara default, UserQuery akan menunjuk ke kueri himpunan data pertama. Semua transformasi harus dilakukan pada UserQuery karena perubahan pada kueri himpunan data tidak didukung atau akan tetap ada. Mengganti nama, menambahkan, dan menghapus kueri saat ini tidak didukung.

Wrangling

Saat ini, tidak semua fungsi Power Query M didukung untuk manipulasi data meskipun tersedia selama penulisan. Saat membuat aktivitas Power Query, Anda akan diminta dengan pesan kesalahan berikut jika fungsi tidak didukung:

The Power Query Spark Runtime does not support the function

Untuk informasi selengkapnya tentang transformasi yang didukung, lihat fungsi manipulasi data Power Query.

Pelajari cara membuat manipulasi data mash-up Power Query.