Bagikan melalui


Mengonfigurasi Snowflake dalam aktivitas salin

Artikel ini menguraikan cara menggunakan aktivitas salin dalam alur data untuk menyalin data dari dan ke Snowflake.

Konfigurasi yang didukung

Untuk konfigurasi setiap tab di bawah aktivitas salin, buka bagian berikut.

Umum

Lihat panduan Pengaturan umum untuk mengonfigurasi tab Pengaturan umum.

Sumber

Properti berikut ini didukung untuk Snowflake di bawah tab Sumber aktivitas salin.

Cuplikan layar memperlihatkan tab sumber dan daftar properti.

Properti berikut diperlukan:

  • Jenis penyimpanan data: Pilih Eksternal.
  • Koneksi: Pilih koneksi Snowflake dari daftar koneksi. Jika koneksi tidak ada, buat koneksi Snowflake baru dengan memilih Baru.
  • Database: Database default yang akan digunakan setelah tersambung. Hal ini harus menjadi database yang ada di mana peran yang ditentukan memiliki hak istimewa.
  • Gunakan kueri: Anda bisa memilih Tabel atau Kueri sebagai kueri penggunaan Anda. Daftar berikut menjelaskan konfigurasi setiap pengaturan.
    • Tabel: Pilih tabel di database Anda dari daftar drop-down. Atau centang Edit untuk memasukkan nama tabel Anda secara manual.
    • Kueri: Tentukan kueri SQL untuk membaca data dari Snowflake. Jika nama skema, tabel, dan kolom berisi huruf kecil, kutip pengidentifikasi objek dalam kueri, misalnyaselect * from "schema"."myTable".

Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:

  • Integrasi penyimpanan: Tentukan nama integrasi penyimpanan yang Anda buat di Snowflake. Untuk langkah-langkah prasyarat penggunaan integrasi penyimpanan, lihat Mengonfigurasi integrasi penyimpanan Snowflake.

  • Opsi salin Snowflake tambahan: Tentukan opsi salin Snowflake tambahan yang akan digunakan dalam pernyataan SNOWFlake COPY untuk memuat data. Opsi salin tambahan disediakan sebagai kamus pasangan kunci-nilai. Contoh: MAX_FILE_SIZE, TIMPA. Selengkapnya, lihat Opsi Salinan Snowflake.

    Cuplikan layar memperlihatkan opsi salin snowflake tambahan untuk sumber.

  • Opsi format Snowflake tambahan: Tentukan opsi format Snowflake tambahan, yang akan digunakan dalam pernyataan Snowflake COPY untuk memuat data. Opsi format file tambahan yang disediakan untuk perintah COPY disediakan sebagai kamus pasangan kunci-nilai. Contoh: DATE_FORMAT, TIME_FORMAT, TIMESTAMP_FORMAT. Selengkapnya, lihat Opsi Jenis Format Snowflake.

    Cuplikan layar memperlihatkan opsi format snowflake tambahan untuk sumber.

Salinan langsung dari Snowflake

Jika penyimpanan dan format data tujuan Anda memenuhi kriteria yang dijelaskan di bagian ini, Anda dapat menggunakan aktivitas Salin untuk langsung menyalin dari Snowflake ke tujuan. Layanan memeriksa pengaturan dan gagal menjalankan aktivitas Salin jika kriteria berikut tidak terpenuhi:

  • Saat Anda menentukan integrasi Penyimpanan di sumber: Penyimpanan data tujuan adalah Azure Blob Storage yang Anda rujuk di tahap eksternal di Snowflake. Anda perlu menyelesaikan langkah-langkah berikut sebelum menyalin data:

    1. Buat koneksi Azure Blob Storage untuk Azure Blob Storage tujuan dengan jenis autentikasi yang didukung.

    2. Berikan setidaknya peran Kontributor Data Blob Penyimpanan ke perwakilan layanan Snowflake di Azure Blob Storage Access Control (IAM) tujuan.

  • Saat Anda tidak menentukan integrasi Penyimpanan di sumber:

    Koneksi tujuan adalah penyimpanan Azure Blob dengan autentikasi tanda tangan akses bersama. Jika Anda ingin langsung menyalin data ke Azure Data Lake Storage Gen2 dalam format yang didukung berikut, Anda dapat membuat koneksi Azure Blob Storage dengan autentikasi SAS terhadap akun Azure Data Lake Storage Gen2 Anda, untuk menghindari penggunaan salinan bertahap dari Snowflake.

  • Format data tujuan adalah Parquet, DelimitedText, atau JSON dengan konfigurasi berikut:

    • Untuk formatParquet,kodek kompresi tidak ada, Snappy,atauLzo.
    • Untuk format DelimitedText :
      • Pemisah baris adalah \r\n, atau karakter tunggal apa pun.
      • Jenis kompresi dapat berupa None, gzip, bzip2, atau deflate.
      • Pengodean dibiarkan sebagai default atau diatur ke UTF-8.
      • Karakter kutipan adalah Kutipan ganda, Kutipan tunggal, atau Tidak ada karakter kutipan.
    • Untuk formatJSON, salinan langsung hanya mendukung kasus yang sumber tabel Snowflake atau hasil kueri hanya memiliki kolom tunggal dan jenis data kolom ini adalah VARIAN, OBJEK,atauARRAY.
      • Jenis kompresi dapat berupa None, gzip, bzip2, atau deflate.
      • Pengodean dibiarkan sebagai default atau diatur ke UTF-8.
      • Pola file dalam tujuan aktivitas salin dibiarkan sebagai default atau diatur ke Set objek.
  • Di sumber aktivitas salin, Kolom tambahan tidak ditentukan.

  • Pemetaan kolom tidak ditentukan.

Salinan bertahap dari Snowflake

Saat penyimpanan atau format data tujuan Anda tidak kompatibel secara asli dengan perintah Snowflake COPY, seperti yang disebutkan di bagian terakhir, aktifkan salinan bertahap bawaan menggunakan instans penyimpanan Azure Blob sementara. Fitur salinan bertahap juga memberi Anda throughput yang lebih baik. Layanan ini mengekspor data dari Snowflake ke penyimpanan penahapan, lalu menyalin data ke tujuan, dan akhirnya membersihkan data sementara Anda dari penyimpanan penahapan.

Untuk menggunakan fitur ini, buat koneksi penyimpanan Azure Blob yang merujuk ke akun penyimpanan Azure sebagai penahapan sementara. Lalu buka tab Pengaturan untuk mengonfigurasi pengaturan penahapan Anda. Anda perlu memilih Eksternal untuk mengonfigurasi koneksi penahapan Azure Blob Storage.

  • Saat Anda menentukan integrasi Storage di sumbernya, penahapan sementara Azure Blob Storage harus menjadi salah satu yang Anda rujuk di tahap eksternal di Snowflake. Pastikan Anda membuat koneksi Azure Blob Storage untuk koneksi tersebut dengan autentikasi yang didukung, dan memberikan setidaknya peran Kontributor Data Blob Penyimpanan ke perwakilan layanan Snowflake dalam penahapan Azure Blob Storage Access Control (IAM). Jalur Penyimpanan di bawah Pengaturan penahapan di tab Pengaturan diperlukan.

  • Saat Anda tidak menentukan integrasi Storage di sumbernya, pementasan koneksi Azure Blob Storage harus menggunakan autentikasi tanda tangan akses bersama, seperti yang diperlukan oleh perintah Snowflake COPY. Pastikan Anda memberikan izin akses yang tepat ke Snowflake dalam penahapan Azure Blob Storage. Untuk mempelajari lebih lengkap mengenai hal ini, lihat artikel ini.

Tujuan

Properti berikut ini didukung untuk Snowflake di bawah tab Tujuan aktivitas salin.

Cuplikan layar memperlihatkan tab Tujuan.

Properti berikut diperlukan:

  • Jenis penyimpanan data: Pilih Eksternal.
  • Koneksi: Pilih koneksi Snowflake dari daftar koneksi. Jika koneksi tidak ada, buat koneksi Snowflake baru dengan memilih Baru.
  • Database: Database default yang akan digunakan setelah tersambung. Hal ini harus menjadi database yang ada di mana peran yang ditentukan memiliki hak istimewa.
  • Tabel: Pilih tabel di database Anda dari daftar drop-down. Atau centang Edit untuk memasukkan nama tabel Anda secara manual.

Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:

  • Skrip pra-salin: Tentukan skrip untuk Aktivitas Salin untuk dijalankan sebelum menulis data ke tabel tujuan di setiap eksekusi. Anda dapat menggunakan properti ini untuk membersihkan data yang telah dimuat sebelumnya.

  • Integrasi penyimpanan: Tentukan nama integrasi penyimpanan yang Anda buat di Snowflake. Untuk langkah-langkah prasyarat penggunaan integrasi penyimpanan, lihat Mengonfigurasi integrasi penyimpanan Snowflake.

  • Opsi salin Snowflake tambahan: Tentukan opsi salin Snowflake tambahan, yang akan digunakan dalam pernyataan Snowflake COPY untuk memuat data. Opsi salin tambahan disediakan sebagai kamus pasangan kunci-nilai. Contoh: ON_ERROR, FORCE, LOAD_UNCERTAIN_FILES. Selengkapnya, lihat Opsi Salinan Snowflake.

    Cuplikan layar memperlihatkan opsi salinan snowflake tambahan untuk tujuan.

  • Opsi format Snowflake tambahan: Tentukan opsi format Snowflake tambahan, yang akan digunakan dalam pernyataan Snowflake COPY untuk memuat data. Opsi format file tambahan yang disediakan untuk perintah COPY disediakan sebagai kamus pasangan kunci-nilai. Contoh: DATE_FORMAT, TIME_FORMAT, TIMESTAMP_FORMAT. Selengkapnya, lihat Opsi Jenis Format Snowflake.

    Cuplikan layar memperlihatkan opsi format snowflake tambahan untuk tujuan.

Salin langsung ke Snowflake

Jika penyimpanan data dan format sink Anda memenuhi kriteria yang dijelaskan di bagian ini, Anda dapat menggunakan aktivitas Salin untuk langsung menyalin dari Snowflake. Layanan memeriksa pengaturan dan gagal menjalankan aktivitas Salin jika kriteria berikut tidak terpenuhi:

  • Saat Anda menentukan integrasi Penyimpanan di tujuan:

    Penyimpanan data sumber adalah Azure Blob Storage yang Anda rujuk di tahap eksternal di Snowflake. Anda perlu menyelesaikan langkah-langkah berikut sebelum menyalin data:

    1. Buat koneksi Azure Blob Storage untuk Azure Blob Storage sumber dengan jenis autentikasi yang didukung.

    2. Berikan setidaknya peran Pembaca Data Blob Penyimpanan ke perwakilan layanan Snowflake di Sumber Azure Blob Storage Access Control (IAM).

  • Saat Anda tidak menentukan integrasi Penyimpanan di tujuan:

    Koneksi sumber adalah penyimpanan Azure Blob dengan autentikasi tanda tangan akses bersama. Jika Anda ingin langsung menyalin data dari Azure Data Lake Storage Gen2 dalam format yang didukung berikut, Anda dapat membuat koneksi Azure Blob Storage dengan autentikasi SAS terhadap akun Azure Data Lake Storage Gen2 Anda, untuk menghindari penggunaan salinan bertahap ke Snowflake.

  • Format data sumber adalah Parquet, DelimitedText, atau JSON dengan konfigurasi berikut:

    • Untuk formatParquet,kodek kompresi tidakada, Snappy.

    • Untuk format DelimitedText :

      • Pemisah baris adalah \r\n, atau karakter tunggal apa pun. Jika pemisah baris bukan "\r\n", Baris pertama sebagai header tidak dipilih, dan Lewati jumlah baris tidak ditentukan.
      • Jenis kompresi dapat berupa None, gzip, bzip2, atau deflate.
      • Pengodean dibiarkan sebagai default atau diatur ke "UTF-8", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "BIG5", "EUC-JP", "EUC-KR", "GB18030", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-7", "ISO-8859-8 9", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255".
      • Karakter kutipan adalah Kutipan ganda, Kutipan tunggal, atau Tidak ada karakter kutipan.
    • Untuk format JSON , salinan langsung hanya mendukung kasus bahwa tabel Snowflake tujuan hanya memiliki satu kolom dan jenis data kolom ini adalah VARIAN, OBJECT, atau ARRAY.

      • Jenis kompresi dapat berupa None, gzip, bzip2, atau deflate.
      • Pengodean dibiarkan sebagai default atau diatur ke UTF-8.
      • Pemetaan kolom tidak ditentukan.
  • Di sumber aktivitas Salin:

    • Kolom tambahan tidak ditentukan.
    • Jika sumber Anda adalah folder, Secara rekursif dipilih.
    • Awalan, Waktu mulai (UTC) dan Waktu akhir (UTC) di Filter menurut terakhir diubah dan Aktifkan penemuan partisi tidak ditentukan.

Salin bertahap ke Snowflake

Saat penyimpanan atau format data sumber Anda tidak kompatibel secara asli dengan perintah Snowflake COPY, seperti yang disebutkan di bagian terakhir, aktifkan salinan bertahap bawaan menggunakan instans penyimpanan Azure Blob sementara. Fitur salinan bertahap juga memberi Anda throughput yang lebih baik. Layanan secara otomatis mengonversi data untuk memenuhi persyaratan format data Snowflake. Kemudian memanggil perintah SALIN untuk memuat data ke Snowflake. Akhirnya, membersihkan data sementara Anda dari penyimpanan blob.

Untuk menggunakan fitur ini, buat koneksi penyimpanan Azure Blob yang merujuk ke akun penyimpanan Azure sebagai penahapan sementara. Lalu buka tab Pengaturan untuk mengonfigurasi pengaturan penahapan Anda. Anda perlu memilih Eksternal untuk mengonfigurasi koneksi penahapan Azure Blob Storage.

  • Saat Anda menentukan integrasi Storage di tujuan, penahapan sementara Azure Blob Storage harus menjadi salah satu yang Anda rujuk di tahap eksternal di Snowflake. Pastikan Anda membuat koneksi Azure Blob Storage untuk koneksi tersebut dengan autentikasi yang didukung, dan memberikan setidaknya peran Pembaca Data Blob Penyimpanan ke perwakilan layanan Snowflake dalam penahapan Azure Blob Storage Access Control (IAM). Jalur Penyimpanan di bawah Pengaturan penahapan di tab Pengaturan diperlukan.

  • Saat Anda tidak menentukan integrasi Storage di tujuan, koneksi Azure Blob Storage penahapan perlu menggunakan autentikasi tanda tangan akses bersama seperti yang diperlukan oleh perintah Snowflake COPY.

Pemetaan

Untuk Konfigurasi tab Pemetaan , buka Mengonfigurasi pemetaan Anda di bawah tab pemetaan.

Pengaturan

Untuk Konfigurasi tab Pengaturan , buka Mengonfigurasi pengaturan Anda yang lain di bawah tab pengaturan.

Ringkasan tabel

Tabel berikut berisi informasi selengkapnya tentang aktivitas salin di Snowflake.

Sumber

Nama Deskripsi Nilai Wajib Properti skrip JSON
Jenis penyimpanan data Jenis penyimpanan data Anda. Eksternal Ya /
Koneksi Koneksi Anda ke penyimpanan data sumber. < koneksi Anda > Ya koneksi
Database Database Anda yang Anda gunakan sebagai sumber. < database Anda > Ya database
Menggunakan kueri Cara membaca data dari Snowflake. •Meja
•Kueri
No •meja
•kueri
Table Nama tabel untuk membaca data. < nama tabel sumber Anda> Ya skema
tabel
Kueri Kueri SQL untuk membaca data dari Snowflake. < nama kueri sumber Anda> Ya pertanyaan
Integrasi penyimpanan Tentukan nama integrasi penyimpanan yang Anda buat di Snowflake. Untuk langkah-langkah prasyarat penggunaan integrasi penyimpanan, lihat Mengonfigurasi integrasi penyimpanan Snowflake. < integrasi penyimpanan Anda > No storageIntegration
Opsi salin Snowflake tambahan Opsi salin tambahan, disediakan sebagai kamus pasangan bernilai kunci. Contoh: MAX_FILE_SIZE, TIMPA. Selengkapnya, lihat Opsi Salinan Snowflake. •Nama
•Nilai
No additionalCopyOptions
Opsi format Snowflake tambahan Opsi format file tambahan yang disediakan untuk SALIN perintah sebagai kamus pasangan nilai kunci. Contoh: DATE_FORMAT, TIME_FORMAT, TIMESTAMP_FORMAT. Selengkapnya, lihat Opsi Jenis Format Snowflake. •Nama
•Nilai
No additionalFormatOptions

Tujuan

Catatan

Meskipun instans non-Azure Snowflake didukung untuk sumber, hanya instans Azure Snowflake yang saat ini didukung untuk tujuan Snowflake (juga disebut sebagai sink di Azure Data Factory).

Nama Deskripsi Nilai Wajib Properti skrip JSON
Jenis penyimpanan data Jenis penyimpanan data Anda. Eksternal Ya /
Koneksi Koneksi Anda ke penyimpanan data tujuan. < koneksi Anda > Ya koneksi
Database Database Anda yang Anda gunakan sebagai tujuan. < database Anda> Ya /
Table Tabel data tujuan Anda. < nama tabel tujuan Anda> Ya •skema
•meja
Skrip pra-salin Kueri SQL agar aktivitas Salin berjalan sebelum menulis data ke Snowflake di setiap proses. Gunakan properti ini untuk membersihkan data yang telah dimuat sebelumnya. < Skrip pra-salin Anda> TIDAK preCopyScript
Integrasi penyimpanan Tentukan nama integrasi penyimpanan yang Anda buat di Snowflake. Untuk langkah-langkah prasyarat penggunaan integrasi penyimpanan, lihat Mengonfigurasi integrasi penyimpanan Snowflake. < integrasi penyimpanan Anda > No storageIntegration
Opsi salin Snowflake tambahan Opsi salin tambahan, disediakan sebagai kamus pasangan bernilai kunci. Contoh: ON_ERROR, FORCE, LOAD_UNCERTAIN_FILES. Selengkapnya, lihat Opsi Salinan Snowflake. •Nama
•Nilai
No additionalCopyOptions
Opsi format Snowflake tambahan Opsi format file tambahan yang disediakan untuk perintah SALIN sebagai kamus pasangan nilai kunci. Contoh: DATE_FORMAT, TIME_FORMAT, TIMESTAMP_FORMAT. Selengkapnya, lihat Opsi Jenis Format Snowflake. •Nama
•Nilai
No additionalFormatOptions