Bagikan melalui


Apa itu transformasi data di Azure Databricks?

Transformasi data adalah proses konversi, pembersihan, dan penataan data menjadi format yang dapat digunakan. Transformasi data biasanya mengikuti arsitektur medali databricks menyempurnakan data secara bertahap dari mentah menjadi format yang dapat digunakan oleh bisnis.

Diagram berikut menunjukkan alur data yang berisi serangkaian transformasi data yang mengubah himpunan data raw_customers menjadi himpunan data clean_customers dengan menghilangkan data pelanggan tanpa nama pelanggan dalam contoh ini. Data raw_transactions diubah menjadi clean_transactions dengan menghilangkan transaksi yang bernilai nol. Himpunan data yang dihasilkan yang disebut sales_report adalah menggabungkan clean_customers dan clean_transactions. Analis dapat menggunakan sales_report untuk analitik dan kecerdasan bisnis.

contoh transformasi data

Jenis transformasi data

Databricks mempertimbangkan dua jenis transformasi data: deklaratif dan prosedural . Alur data dalam contoh sebelumnya dapat diekspresikan menggunakan salah satu paradigma.

Transformasi deklaratif berfokus pada hasil yang diinginkan daripada cara mencapainya. Anda menentukan logika transformasi menggunakan abstraksi tingkat yang lebih tinggi, dan DLT menentukan cara paling efisien untuk menjalankannya.

Transformasi data prosedural berfokus pada melakukan komputasi melalui instruksi eksplisit. Komputasi tersebut menentukan urutan operasi yang tepat untuk memanipulasi data. Pendekatan prosedural memberikan kontrol lebih besar atas eksekusi tetapi dengan biaya kompleksitas yang lebih besar dan pemeliharaan yang lebih tinggi.

Memilih antara transformasi data deklaratif dan prosedural

Transformasi data deklaratif menggunakan DLT adalah yang terbaik ketika:

  • Anda memerlukan pengembangan dan penyebaran yang cepat.
  • Alur data Anda memiliki pola standar yang tidak memerlukan kontrol tingkat rendah atas eksekusi.
  • Anda memerlukan pemeriksaan kualitas data bawaan.
  • Pemeliharaan dan keterbacaan adalah prioritas utama.

Transformasi data prosedural menggunakan kode Apache Spark adalah yang terbaik ketika:

  • Anda memigrasikan basis kode Apache Spark yang ada ke Databricks.
  • Anda perlu kontrol halus atas eksekusi.
  • Anda memerlukan akses ke API tingkat rendah seperti MERGE atau foreachBatch.
  • Anda perlu menulis data ke tabel Kafka atau Delta eksternal.