Mengubah pengambilan data di Azure Data Factory dan Azure Synapse Analytics
BERLAKU UNTUK: Azure Data Factory
Azure Synapse Analytics
Tip
Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!
Artikel ini menjelaskan perubahan pengambilan data (CDC) di Azure Data Factory.
Untuk mempelajari selengkapnya, lihat Gambaran umum Azure Data Factory atau Gambaran umum Azure Synapse.
Gambaran Umum
Saat Anda melakukan integrasi data dan proses ETL di cloud, pekerjaan Anda dapat berkinerja lebih baik dan lebih efektif ketika Anda hanya membaca data sumber yang berubah sejak terakhir kali alur berjalan, daripada selalu mengkueri seluruh himpunan data pada setiap eksekusi. ADF menyediakan beberapa cara mudah untuk mendapatkan data delta hanya dari eksekusi terakhir.
Mengubah sumber daya pabrik Data Capture
Cara term mudah dan tercepat untuk memulai di pabrik data dengan CDC adalah melalui tingkat pabrik Ubah sumber daya Tangkapan Data. Dari perancang alur utama, pilih Baru di bawah Sumber Daya Pabrik untuk membuat Change Data Capture baru. Sumber daya pabrik CDC menyediakan pengalaman panduan konfigurasi di mana Anda dapat memilih sumber dan tujuan Anda, menerapkan transformasi opsional, lalu memilih mulai untuk memulai penangkapan data Anda. Dengan sumber daya CDC, Anda tidak perlu merancang alur atau aktivitas aliran data. Anda juga hanya ditagih untuk empat inti aliran data Tujuan Umum saat data Anda sedang diproses. Anda dapat mengatur latensi pilihan, yang digunakan ADF untuk bangun dan mencari data yang diubah. Pemeriksaan awal itu adalah satu-satunya waktu Anda ditagih. Sumber daya CDC tingkat atas juga merupakan metode ADF untuk menjalankan proses Anda terus menerus. Alur di ADF hanya batch, tetapi sumber daya CDC dapat berjalan terus menerus.
Tangkapan data perubahan asli dalam pemetaan aliran data
Aliran data pemetaan ADF dapat secara otomatis mendeteksi dan mengekstrak data yang diubah, termasuk baris yang disisipkan, diperbarui, dan dihapus dari database sumber. Tidak ada tanda waktu atau kolom ID yang diperlukan untuk mengidentifikasi perubahan karena menggunakan teknologi penangkapan data perubahan asli dalam database. Dengan menautkan transformasi sumber dan referensi transformasi sink ke himpunan data database dalam aliran data pemetaan, Anda dapat melihat perubahan terjadi pada database sumber untuk diterapkan secara otomatis ke database target, sehingga Anda dapat dengan mudah menyinkronkan data di antara dua tabel. Anda juga dapat menambahkan transformasi apa pun di antara logika bisnis apa pun untuk memproses data delta. Saat menentukan tujuan data sink, Anda dapat mengatur operasi sisipkan, perbarui, upsert, dan hapus di sink Anda tanpa perlu transformasi Alter Row karena ADF dapat mendeteksi pembuat baris secara otomatis.
Konektor yang didukung
- SAP CDC
- Azure SQL Database
- SQL Server
- Instans Terkelola Azure SQL
- Azure Cosmos DB (SQL API)
- Penyimpanan analitik Azure Cosmos DB
- Snowflake
Ekstraksi inkremental otomatis dalam pemetaan aliran data
Baris yang baru diperbarui atau file yang diperbarui dapat secara otomatis terdeteksi dan diekstrak oleh aliran data pemetaan ADF dari penyimpanan sumber. Saat Anda ingin mendapatkan data delta dari database, kolom inkremental diperlukan untuk mengidentifikasi perubahan. Saat Anda ingin memuat file baru atau file yang diperbarui hanya dari penyimpanan penyimpanan, aliran data pemetaan ADF hanya berfungsi melalui waktu modifikasi terakhir file.
Konektor yang didukung
- Penyimpanan Blob Azure
- ADLS Gen2
- ADLS Gen1
- Azure SQL Database
- SQL Server
- Instans Terkelola Azure SQL
- Azure Database untuk MySQL
- Azure Database untuk PostgreSQL
- Model data umum
Ekstraksi data delta yang dikelola pelanggan dalam alur
Anda selalu dapat membangun alur ekstraksi data delta Anda sendiri untuk semua penyimpanan data yang didukung ADF termasuk menggunakan aktivitas pencarian untuk mendapatkan nilai marka air yang disimpan dalam tabel kontrol eksternal, aktivitas salin, atau aktivitas aliran data pemetaan untuk mengkueri data delta terhadap tanda waktu atau kolom ID, dan aktivitas SP untuk menulis nilai marka air baru kembali ke tabel kontrol eksternal Anda untuk eksekusi berikutnya. Ketika Anda ingin memuat file baru hanya dari penyimpanan penyimpanan, Anda dapat menghapus file setiap kali setelah berhasil dipindahkan ke tujuan, atau menggunakan folder atau nama file yang dipartisi waktu atau waktu terakhir dimodifikasi untuk mengidentifikasi file baru.
Praktik Terbaik
Mengubah pengambilan data dari database
- Penangkapan data perubahan asli selalu disarankan sebagai cara paling sederhana bagi Anda untuk mendapatkan data perubahan. Ini juga membawa beban yang jauh lebih sedikit pada database sumber Anda ketika ADF mengekstrak data perubahan untuk pemrosesan lebih lanjut.
- Jika penyimpanan database Anda bukan bagian dari daftar konektor ADF dengan dukungan pengambilan data perubahan asli, kami sarankan Anda untuk memeriksa opsi ekstraksi inkremental otomatis di mana Anda hanya perlu memasukkan kolom bertahap untuk menangkap perubahan. ADF akan mengurus sisanya termasuk membuat kueri dinamis untuk pemuatan delta dan mengelola titik pemeriksaan untuk setiap aktivitas yang dijalankan.
- Ekstraksi data delta yang dikelola pelanggan dalam alur mencakup semua database yang didukung ADF dan memberi Anda fleksibilitas untuk mengontrol semuanya sendiri.
Mengubah pengambilan file dari penyimpanan berbasis file
- Saat Anda ingin memuat data dari Azure Blob Storage, Azure Data Lake Storage Gen2 atau Azure Data Lake Storage Gen1, pemetaan aliran data memberi Anda kesempatan untuk mendapatkan file baru atau yang diperbarui hanya dengan satu pilihan sederhana. Ini adalah cara paling sederhana dan direkomendasikan bagi Anda untuk mencapai beban delta dari penyimpanan berbasis file ini dalam pemetaan aliran data.
- Anda bisa mendapatkan lebih banyak praktik terbaik.
Pos pemeriksaan
Saat Anda mengaktifkan penangkapan data perubahan asli atau opsi ekstraksi bertambah bertahap otomatis dalam aliran data pemetaan ADF, ADF membantu Anda mengelola titik pemeriksaan untuk memastikan setiap aktivitas berjalan secara otomatis hanya membaca data sumber yang telah berubah sejak terakhir kali alur berjalan. Secara default, titik pemeriksaan digabungkan dengan alur dan nama aktivitas Anda. Jika Anda mengubah nama alur atau nama aktivitas Anda, titik pemeriksaan akan diatur ulang, yang mengarahkan Anda untuk memulai dari awal atau mendapatkan perubahan mulai sekarang di eksekusi berikutnya. Jika Anda ingin mengubah nama alur atau nama aktivitas tetapi masih menyimpan titik pemeriksaan untuk mendapatkan data yang diubah dari eksekusi terakhir secara otomatis, gunakan kunci Titik Pemeriksaan Anda sendiri dalam aktivitas aliran data untuk mencapainya. Aturan penamaan kunci titik pemeriksaan Anda sendiri sama dengan layanan tertaut, himpunan data, alur, dan aliran data.
Saat Anda men-debug alur, fitur ini berfungsi sama. Titik pemeriksaan diatur ulang saat Anda me-refresh browser selama eksekusi debug. Setelah puas dengan hasil alur dari eksekusi debug, Anda dapat melanjutkan untuk menerbitkan dan memicu alur. Pada saat Anda pertama kali memicu alur yang diterbitkan, maka secara otomatis dimulai ulang dari awal atau mendapat perubahan mulai sekarang.
Di bagian pemantauan, Anda selalu memiliki kesempatan untuk menjalankan kembali alur. Saat Anda melakukannya, data yang diubah selalu diambil dari titik pemeriksaan sebelumnya dari eksekusi alur yang Anda pilih.
Tutorial
Berikut ini adalah tutorial untuk memulai perubahan pengambilan data di Azure Data Factory dan Azure Synapse Analytics.
- Tutorial SAP CDC di ADF
- Menyalin data secara bertahap dari penyimpanan data sumber ke tutorial penyimpanan data tujuan
Templat
Berikut ini adalah templat untuk menggunakan tangkapan data perubahan di Azure Data Factory dan Azure Synapse Analytics.
Konten terkait
- Pelajari cara menggunakan kunci titik pemeriksaan dalam aktivitas aliran data.
- Pelajari tentang sumber daya AdF Change Data Capture.
- Telusuri membangun artefak CDC tingkat atas.