Bagikan melalui


Salinan cepat di Aliran Data Gen2

Artikel ini menjelaskan fitur penyalinan cepat di Dataflows Gen2 untuk Data Factory di Microsoft Fabric. Aliran data membantu menyerap dan mengubah data. Dengan diperkenalkannya skala aliran data dengan komputasi SQL DW, Anda dapat mengubah data dalam skala besar. Namun, data Anda perlu diserap terlebih dahulu. Dengan pengenalan salinan cepat, Anda dapat menyerap terabyte data dengan pengalaman aliran data yang mudah, tetapi dengan back-end yang dapat diskalakan dari Aktivitas Salin alur.

Setelah mengaktifkan kemampuan ini, Aliran Data secara otomatis mengalihkan back-end saat ukuran data melebihi ambang tertentu, tanpa perlu mengubah apa pun selama penulisan aliran data. Setelah refresh aliran data, Anda dapat memeriksa riwayat refresh untuk melihat apakah salinan cepat digunakan selama eksekusi dengan melihat jenis Mesin yang muncul di sana.

Dengan opsi Memerlukan salinan cepat diaktifkan, penyegaran aliran data akan dibatalkan jika salinan cepat tidak digunakan. Ini membantu Anda menghindari menunggu waktu habis refresh untuk melanjutkan. Perilaku ini juga dapat membantu dalam sesi penelusuran kesalahan untuk menguji perilaku aliran data dengan data Anda sambil mengurangi waktu tunggu. Dengan menggunakan indikator salin cepat di panel langkah-langkah kueri, Anda dapat dengan mudah memeriksa apakah kueri Anda bisa berjalan dengan salinan cepat.

Cuplikan layar memperlihatkan di mana indikator penyalinan cepat muncul di panel langkah-langkah kueri.

Prasyarat

  • Anda harus memiliki kapasitas Fabric.
  • Untuk data file, file dalam format .csv atau parket setidaknya 100 MB, dan disimpan dalam Azure Data Lake Storage (ADLS) Gen2 atau akun penyimpanan Blob.
  • Untuk database termasuk Azure SQL DB dan PostgreSQL, 5 juta baris atau lebih data di sumber data.

Catatan

Anda dapat melewati ambang batas untuk memaksa Salinan Cepat dengan memilih pengaturan "Perlu salinan cepat".

Dukungan konektor

Salinan cepat saat ini didukung untuk konektor Dataflow Gen2 berikut:

  • ADLS Gen2
  • Penyimpanan Blob
  • Azure SQL DB
  • Lakehouse
  • PostgreSQL
  • SQL Server lokal
  • Gudang
  • Oracle
  • Snowflake

Aktivitas salin hanya mendukung beberapa transformasi saat menyambungkan ke sumber file:

  • Gabungkan file
  • Memilih kolom
  • Mengubah jenis data
  • Mengganti nama kolom
  • Menghapus kolom

Anda masih dapat menerapkan transformasi lain dengan memisahkan langkah-langkah penyerapan dan transformasi menjadi kueri terpisah. Kueri pertama benar-benar mengambil data dan kueri kedua mereferensikan hasilnya sehingga komputasi DW dapat digunakan. Untuk sumber SQL, transformasi apa pun yang merupakan bagian dari kueri asli didukung.

Saat Anda langsung memuat kueri ke tujuan output, hanya tujuan Lakehouse yang didukung saat ini. Jika Anda ingin menggunakan tujuan output lain, Anda bisa menahapkan kueri terlebih dahulu dan mereferensikannya nanti.

Cara menggunakan salinan cepat

  1. Navigasikan ke titik akhir Fabric yang sesuai.

  2. Navigasi ke ruang kerja premium dan buat aliran data Gen2.

  3. Pada tab Beranda dari aliran data baru, pilih Opsi:

    Cuplikan layar memperlihatkan tempat memilih Opsi untuk Aliran Data Gen2 pada tab Beranda.

  4. Lalu pilih tab Skala pada dialog Opsi dan pilih kotak centang Izinkan penggunaan konektor salin cepat untuk mengaktifkan salinan cepat. Kemudian tutup dialog Opsi.

    Cuplikan layar memperlihatkan tempat mengaktifkan salinan cepat pada tab Skala dialog Opsi.

  5. Pilih Dapatkan data lalu pilih sumber ADLS Gen2, dan isi detail untuk kontainer Anda.

  6. Gunakan fungsionalitas Gabungkan file.

    Cuplikan layar memperlihatkan jendela Data folder Pratinjau dengan opsi Gabungkan disorot.

  7. Untuk memastikan salinan cepat, hanya terapkan transformasi yang tercantum di bagian Dukungan konektor di artikel ini. Jika Anda perlu menerapkan lebih banyak transformasi, tahapkan data terlebih dahulu, dan referensikan kueri nanti. Buat transformasi lain pada kueri yang dirujuk.

  8. (Opsional) Anda bisa mengatur opsi Perlu penyalinan cepat untuk kueri dengan mengklik kanan untuk memilih dan mengaktifkan opsi tersebut.

    Cuplikan layar memperlihatkan tempat memilih opsi Perlu penyalinan cepat pada menu klik kanan untuk kueri.

  9. (Opsional) Saat ini, Anda hanya dapat mengonfigurasi Lakehouse sebagai tujuan output. Untuk tujuan lain, tahapkan kueri dan referensikan nanti di kueri lain tempat Anda bisa menghasilkan ke sumber apa pun.

  10. Periksa indikator penyalinan cepat untuk melihat apakah kueri Anda dapat berjalan dengan salinan cepat. Jika demikian, jenis Mesin menunjukkan CopyActivity.

    Cuplikan layar memperlihatkan detail refresh yang menunjukkan mesin CopyActivity alur digunakan.

  11. Terbitkan aliran data.

  12. Periksa setelah refresh selesai untuk mengonfirmasi bahwa salinan cepat digunakan.

Cara membagi kueri Anda untuk memanfaatkan penyalinan cepat

Untuk performa optimal saat memproses data dalam volume besar dengan Dataflow Gen2, gunakan fitur Salin Cepat untuk terlebih dahulu memasukkan data ke penahapan, lalu mengubahnya secara besar-besaran dengan komputasi SQL DW. Pendekatan ini secara signifikan meningkatkan performa end-to-end.

Untuk menerapkan ini, indikator Salinan Cepat dapat memandu Anda untuk membagi kueri menjadi dua bagian: penyerapan data ke penahapan dan transformasi skala besar dengan komputasi SQL DW. Anda dianjurkan untuk mendorong evaluasi kueri sebanyak mungkin ke Salinan Cepat yang dapat digunakan untuk mengimpor data Anda. Saat indikator Fast Copy memberi tahu bahwa langkah-langkah berikutnya tidak dapat dijalankan oleh Fast Copy, Anda dapat membagi kueri lainnya dengan mengaktifkan penahapan.

Langkah indikator diagnostik

Indikator Ikon Deskripsi
Langkah ini akan dievaluasi dengan duplikasi cepat Indikator Salin Cepat memberi tahu Anda bahwa kueri hingga langkah ini mendukung penyalinan cepat.
Langkah ini tidak didukung oleh salinan cepat Indikator Penyalinan Cepat menunjukkan bahwa langkah ini tidak mendukung Salinan Cepat.
Satu atau beberapa langkah dalam kueri Anda tidak didukung oleh kueri cepat Indikator Salin Cepat memperlihatkan bahwa beberapa langkah dalam kueri ini mendukung Salinan Cepat, sementara yang lain tidak. Untuk mengoptimalkan, pisahkan kueri: langkah-langkah kuning (berpotensi didukung oleh Fast Copy) dan langkah-langkah merah (tidak didukung).

Panduan langkah demi langkah

Setelah menyelesaikan logika transformasi data Anda di Dataflow Gen2, indikator Salin Cepat mengevaluasi setiap langkah untuk menentukan berapa banyak langkah yang dapat memanfaatkan Salinan Cepat untuk performa yang lebih baik.

Dalam contoh di bawah ini, langkah terakhir menunjukkan merah, menunjukkan bahwa langkah dengan Kelompokkan Menurut tidak didukung oleh Salinan Cepat. Namun, semua langkah sebelumnya yang menunjukkan warna kuning mungkin dapat didukung oleh Fast Copy.

Cuplikan layar memperlihatkan kueri pertama.

Saat ini, jika Anda langsung menerbitkan dan menjalankan Dataflow Gen2, dataflow Gen2 tidak akan menggunakan mesin Salinan Cepat untuk memuat data Anda seperti gambar di bawah ini:

Cuplikan layar memperlihatkan hasil tanpa fitur penyalinan cepat yang diaktifkan.

Untuk menggunakan mesin Penyalinan Cepat dan meningkatkan kinerja Dataflow Gen2, Anda dapat membagi kueri menjadi dua bagian: pemasukan data ke tahap penahapan dan transformasi skala besar dengan pemrosesan SQL DW, sebagai berikut:

  1. Hapus transformasi (memperlihatkan merah) yang tidak didukung oleh Salinan Cepat, bersama dengan tujuan (jika ditentukan).

  2. Indikator Penyalinan Cepat sekarang menunjukkan warna hijau untuk langkah-langkah yang tersisa, artinya kueri pertama Anda dapat memanfaatkan Penyalinan Cepat untuk meningkatkan kinerja.

    Pilih Aksi untuk pertanyaan pertama Anda, lalu pilih Aktifkan Staging dan Referensi.

    Cuplikan layar memperlihatkan kueri kedua.

  3. Dalam kueri referensi baru, baca transformasi "Kelompokkan Menurut" dan tujuan (jika berlaku).

    Cuplikan layar memperlihatkan kueri ketiga.

  4. Terbitkan dan perbarui Aliran Data Gen2 Anda. Sekarang Anda akan melihat dua kueri di Dataflow Gen2 Anda, dan durasi keseluruhan sebagian besar berkurang.

    • Kueri pertama menyerap data ke dalam pengolahan sementara menggunakan Fast Copy.

    • Kueri kedua melakukan transformasi skala besar menggunakan komputasi SQL DW.

      Cuplikan layar memperlihatkan hasil kueri.

    Kueri pertama:

    Cuplikan layar memperlihatkan hasil penyerapan.

    Kueri kedua:

    Cuplikan layar memperlihatkan hasil transformasi.

Pembatasan yang diketahui

  1. Gateway data lokal versi 3000.214.2 atau yang lebih baru diperlukan untuk mendukung Salinan Cepat.
  2. Gateway VNet tidak didukung.
  3. Menulis data ke dalam tabel yang ada di Lakehouse tidak didukung.
  4. Skema tetap tidak didukung.