Apa itu manipulasi data?
BERLAKU UNTUK: Azure Data Factory
Azure Synapse Analytics
Tip
Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!
Manipulasi data melibatkan transformasi dan format ulang data dari sumber aslinya untuk membuatnya lebih cocok dan berguna untuk berbagai aplikasi hilir.
Organisasi perlu memiliki kemampuan untuk mengeksplorasi data bisnis penting mereka untuk penyiapan data dan manipulasi untuk memberikan analisis yang akurat tentang data kompleks yang terus tumbuh setiap hari. Penyiapan data diperlukan agar organisasi dapat menggunakan data dalam berbagai proses bisnis dan mengurangi waktu ke nilai.
Data Factory memberdayakan Anda dengan penyiapan data bebas kode pada skala cloud secara berulang menggunakan Power Query. Data Factory terintegrasi dengan Power Query Online dan membuat fungsi Power Query M tersedia sebagai aktivitas alur.
Data Factory menerjemahkan M yang dihasilkan oleh Power Query Online Mashup Editor ke dalam kode spark untuk eksekusi skala cloud dengan menerjemahkan M ke dalam Azure Data Factory Data Flows. Memanipulasi data dengan Power Query dan aliran data sangat berguna untuk insinyur data atau 'integrator data warga'.
Kasus penggunaan
Eksplorasi dan penyiapan data interaktif yang cepat
Beberapa insinyur data dan integrator data warga dapat secara interaktif menjelajahi dan menyiapkan himpunan data pada skala cloud. Dengan maraknya volume, variasi, dan kecepatan data di data lake, pengguna membutuhkan cara yang efektif untuk mengeksplorasi dan menyiapkan himpunan data. Misalnya, Anda mungkin perlu membuat himpunan data yang 'memiliki semua info demografis pelanggan untuk pelanggan baru sejak 2017'. Anda tidak memetakan ke target yang dikenal. Anda menjelajahi, memanipulasi, dan mempersiapkan himpunan data untuk memenuhi persyaratan sebelum menerbitkannya di lake. Wrangling sering digunakan untuk skenario analitik yang kurang formal. Himpunan data yang disiapkan dapat digunakan untuk melakukan transformasi dan operasi pembelajaran mesin downstream.
Penyiapan data agile bebas kode
Integrator data warga menghabiskan lebih dari 60% waktu mereka mencari dan menyiapkan data. Mereka ingin melakukannya dengan cara bebas kode untuk meningkatkan produktivitas operasional. Memungkinkan integrator data warga memperkaya, membentuk, dan menerbitkan data menggunakan alat yang dikenal seperti Power Query Online dengan cara yang dapat diskalakan secara drastis meningkatkan produktivitas mereka. Wrangling di Azure Data Factory memungkinkan editor mashup Power Query Online yang akrab untuk memungkinkan integrator data warga memperbaiki kesalahan dengan cepat, menstandarkan data, dan menghasilkan data berkualitas tinggi untuk mendukung keputusan bisnis.
Validasi dan eksplorasi data
Pindai data Anda secara visual dengan cara bebas kode untuk menghapus outlier, anomali, dan menyesuaikannya dengan bentuk untuk analitik cepat.
Sumber yang didukung
Konektor | Format data | Jenis autentikasi |
---|---|---|
Penyimpanan Blob Azure | CSV, Parquet, Excel | Kunci Akun, Perwakilan Layanan, MSI |
Azure Data Lake Storage Gen1 | CSV, Parquet, Excel | Perwakilan Layanan, MSI |
Azure Data Lake Storage Gen2 | CSV, Parquet, Excel | Kunci Akun, Perwakilan Layanan, MSI |
Azure SQL Database | - | Autentikasi SQL, MSI, Perwakilan Layanan |
Azure Synapse Analytics | - | Autentikasi SQL, MSI, Perwakilan Layanan |
Editor mashup
Saat Anda membuat aktivitas Power Query, semua himpunan data sumber menjadi kueri himpunan data dan ditempatkan di folder ADFResource. Secara default, UserQuery akan menunjuk ke kueri himpunan data pertama. Semua transformasi harus dilakukan pada UserQuery karena perubahan pada kueri himpunan data tidak didukung atau akan tetap ada. Mengganti nama, menambahkan, dan menghapus kueri saat ini tidak didukung.
Saat ini, tidak semua fungsi Power Query M didukung untuk manipulasi data meskipun tersedia selama penulisan. Saat membuat aktivitas Power Query, Anda akan diminta dengan pesan kesalahan berikut jika fungsi tidak didukung:
The Power Query Spark Runtime does not support the function
Untuk informasi selengkapnya tentang transformasi yang didukung, lihat fungsi manipulasi data Power Query.
Konten terkait
Pelajari cara membuat manipulasi data mash-up Power Query.