Bagikan melalui


Tutorial: Menyiapkan dbt untuk Fabric Data Warehouse

Berlaku untuk:✅ Gudang di Microsoft Fabric

Tutorial ini memandu Anda menyiapkan dbt dan menyebarkan proyek pertama Anda ke Fabric Warehouse.

Pendahuluan

Kerangka kerja sumber terbuka dbt (Alat Build Data) menyederhanakan transformasi data dan rekayasa analitik. Ini berfokus pada transformasi berbasis SQL dalam lapisan analitik, memperlakukan SQL sebagai kode. dbt mendukung kontrol versi, modularisasi, pengujian, dan dokumentasi.

Adaptor dbt untuk Microsoft Fabric dapat digunakan untuk membuat proyek dbt, yang kemudian dapat disebarkan ke Gudang Data Fabric.

Anda juga dapat mengubah platform target untuk proyek dbt hanya dengan mengubah adaptor, misalnya; proyek yang dibangun untuk kumpulan SQL khusus Azure Synapse dapat ditingkatkan dalam beberapa detik ke Gudang Data Fabric.

Prasyarat untuk adaptor dbt untuk Microsoft Fabric

Ikuti daftar ini untuk menginstal dan menyiapkan prasyarat dbt:

  1. Python versi 3.7 (atau lebih tinggi).

  2. Driver Microsoft ODBC untuk SQL Server.

  3. Versi terbaru adaptor dbt-fabric dari repositori PyPI (Indeks Paket Python) menggunakan pip install dbt-fabric.

    pip install dbt-fabric
    

    Catatan

    Dengan mengubah pip install dbt-fabric ke pip install dbt-synapse dan menggunakan instruksi berikut, Anda dapat menginstal adaptor dbt untuk kumpulan SQL khusus Synapse.

  4. Pastikan untuk memverifikasi bahwa dbt-fabric dan dependensinya diinstal dengan menggunakan pip list perintah:

    pip list
    

    Daftar panjang paket dan versi saat ini harus dikembalikan dari perintah ini.

  5. Jika Anda belum memilikinya, buat Gudang. Anda dapat menggunakan kapasitas uji coba untuk latihan ini: mendaftar untuk uji coba gratis Microsoft Fabric, membuat ruang kerja, lalu membuat gudang.

Mulai menggunakan adaptor dbt-fabric

Tutorial ini menggunakan Visual Studio Code, tetapi Anda dapat menggunakan alat pilihan Anda.

  1. Kloning proyek demo dbt jaffle_shop ke komputer Anda.

    git clone https://github.com/dbt-labs/jaffle_shop.git
    
  2. jaffle_shop Buka folder proyek di Visual Studio Code.

    Cuplikan layar dari Visual Studio Code, memperlihatkan proyek terbuka.

  3. Anda dapat melewati pendaftaran jika Anda sudah membuat Gudang.

  4. Buat file profiles.yml. Tambahkan konfigurasi berikut ke profiles.yml. File ini mengonfigurasi koneksi ke gudang Anda di Microsoft Fabric menggunakan adaptor dbt-fabric.

    config:
      partial_parse: true
    jaffle_shop:
      target: fabric-dev
      outputs:    
        fabric-dev:
          authentication: CLI
          database: <put the database name here>
          driver: ODBC Driver 18 for SQL Server
          host: <enter your SQL analytics endpoint here>
          schema: dbo
          threads: 4
          type: fabric
    

    Catatan

    type Ubah dari fabric ke synapse untuk mengalihkan adaptor database ke Azure Synapse Analytics, jika diinginkan. Platform data proyek dbt yang ada dapat diperbarui dengan mengubah adaptor database. Untuk informasi selengkapnya, lihat daftar dbt platform data yang didukung.

  5. Autentikasi diri Anda ke Azure di terminal Visual Studio Code.

  6. Sekarang Anda siap untuk menguji konektivitas. Untuk menguji konektivitas ke gudang Anda, jalankan dbt debug di terminal Visual Studio Code.

    dbt debug
    

    Cuplikan layar dari Visual Studio Code, memperlihatkan perintah debug dbt.

    Semua pemeriksaan diteruskan, yang berarti Anda dapat menghubungkan gudang Anda menggunakan adaptor dbt-fabric dari jaffle_shop proyek dbt.

  7. Sekarang, saatnya untuk menguji apakah adaptor berfungsi atau tidak. Pertama-tama jalankan dbt seed untuk menyisipkan data sampel ke dalam gudang.

    Cuplikan layar dari Visual Studio Code, memperlihatkan perintah seed dbt.

  8. Jalankan dbt run untuk memvalidasi data terhadap beberapa pengujian.

    dbt run
    

    Cuplikan layar dari Visual Studio Code, memperlihatkan perintah eksekusi dbt.

  9. Jalankan dbt test untuk menjalankan model yang ditentukan dalam proyek demo dbt.

    dbt test
    

    Cuplikan layar dari Visual Studio Code, memperlihatkan perintah uji dbt.

Anda sekarang telah menyebarkan proyek dbt ke Fabric Data Warehouse.

Berpindah antar gudang yang berbeda

Ini sederhana memindahkan proyek dbt antara gudang yang berbeda. Proyek dbt pada gudang apa pun yang didukung dapat dengan cepat dimigrasikan dengan proses tiga langkah ini:

  1. Pasang adaptor baru. Untuk informasi selengkapnya dan instruksi penginstalan lengkap, lihat adaptor dbt.

  2. type Perbarui properti dalam profiles.yml file.

  3. Bangun proyek.

dbt di Fabric Data Factory

Saat terintegrasi dengan Apache Airflow, sistem manajemen alur kerja yang populer, dbt menjadi alat yang ampuh untuk mengatur transformasi data. Kemampuan penjadwalan dan manajemen tugas Airflow memungkinkan tim data mengotomatiskan eksekusi dbt. Ini memastikan pembaruan data reguler dan mempertahankan aliran data berkualitas tinggi yang konsisten untuk analisis dan pelaporan. Pendekatan gabungan ini, menggunakan keahlian transformasi dbt dengan manajemen alur kerja Airflow, memberikan alur data yang efisien dan kuat, pada akhirnya mengarah ke keputusan berbasis data yang lebih cepat dan lebih berwawasan.

Apache Airflow adalah platform sumber terbuka yang digunakan untuk membuat, menjadwalkan, dan memantau alur kerja data yang kompleks secara terprogram. Ini memungkinkan Anda untuk menentukan sekumpulan tugas, yang disebut operator, yang dapat digabungkan ke dalam grafik acyclic (DAG) yang diarahkan untuk mewakili alur data.

Untuk informasi selengkapnya tentang mengoperalisasi dbt dengan gudang Anda, lihat Mengubah data menggunakan dbt dengan Data Factory di Microsoft Fabric.

Pertimbangan

Hal-hal penting yang perlu dipertimbangkan saat menggunakan adaptor dbt-fabric:

  • Tinjau batasan saat ini di pergudangan data Microsoft Fabric.

  • Fabric mendukung autentikasi MICROSOFT Entra ID (sebelumnya Azure Active Directory) untuk prinsipal pengguna, identitas pengguna, dan perwakilan layanan. Mode autentikasi yang direkomendasikan untuk bekerja secara interaktif pada gudang adalah CLI (antarmuka baris perintah) dan menggunakan perwakilan layanan untuk otomatisasi.

  • Tinjau perintah T-SQL (Transact-SQL) yang tidak didukung di Fabric Data Warehouse.

  • Beberapa perintah T-SQL didukung oleh adaptor dbt-fabric menggunakan Create Table as Select (CTAS), DROP, dan CREATE perintah, seperti ALTER TABLE ADD/ALTER/DROP COLUMN, MERGE, TRUNCATE. sp_rename

  • Tinjau Jenis data yang tidak didukung untuk mempelajari tentang jenis data yang didukung dan tidak didukung.

  • Anda dapat mencatat masalah pada adaptor dbt-fabric di GitHub dengan mengunjungi Masalah · microsoft/dbt-fabric · GitHub.

Langkah selanjutnya