Bagikan melalui


Konversikan jalur DLT menjadi proyek Bundel Aset Databricks

Artikel ini menunjukkan cara mengonversi alur DLT (DLT) yang ada menjadi proyek Bundel Aset Databricks. Bundel memungkinkan Anda menentukan dan mengelola konfigurasi pemrosesan data Azure Databricks dalam satu file YAML yang dikontrol sumber yang menyediakan pemeliharaan yang lebih mudah dan memungkinkan penyebaran otomatis ke lingkungan target.

Gambaran umum proses konversi

Diagram memperlihatkan langkah-langkah spesifik dalam mengonversi alur yang ada menjadi bundel

Langkah-langkah yang Anda ambil untuk mengonversi alur yang ada menjadi bundel adalah:

  1. Pastikan Anda memiliki akses ke alur yang dikonfigurasi sebelumnya yang ingin Anda konversi ke bundel.
  2. Buat atau siapkan folder (sebaiknya dalam hierarki yang dikontrol sumber) untuk menyimpan bundel.
  3. Buat konfigurasi untuk bundel dari pipeline yang ada, menggunakan Azure Databricks CLI.
  4. Tinjau konfigurasi bundel yang dihasilkan untuk memastikannya selesai.
  5. Tautkan bundel ke alur asli.
  6. Sebarkan alur ke ruang kerja target menggunakan konfigurasi bundel.

Persyaratan

Sebelum memulai, Anda harus memiliki:

Langkah 1: Siapkan folder untuk proyek bundel Anda

Anda harus memiliki akses ke repositori Git yang dikonfigurasi di Azure Databricks sebagai folder Git. Anda akan membuat proyek bundel di repositori ini, yang akan menerapkan kontrol sumber dan membuatnya tersedia untuk kolaborator lain melalui folder Git di ruang kerja Azure Databricks yang sesuai. (Untuk detail selengkapnya tentang folder Git, lihat integrasi Git untuk folder Databricks Git.)

  1. Pergi ke direktori root dari repositori Git yang telah dikloning di komputer lokal Anda.

  2. Di tempat yang sesuai dalam hierarki folder, buat folder khusus untuk proyek bundel Anda. Misalnya:

    mkdir - p ~/source/my-pipelines/ingestion/events/my-bundle
    
  3. Ubah direktori kerja Anda saat ini ke folder baru ini. Misalnya:

    cd ~/source/my-pipelines/ingestion/events/my-bundle
    
  4. Inisialisasi bundel baru dengan menjalankan databricks bundle init dan menjawab perintah. Setelah selesai, Anda akan memiliki file konfigurasi proyek bernama databricks.yml di folder beranda baru untuk proyek Anda. File ini diperlukan untuk menjalankan alur kerja Anda dari baris perintah. Untuk detail selengkapnya tentang file konfigurasi ini, lihat konfigurasi Bundel Aset Databricks .

Langkah 2: Hasilkan konfigurasi alur

Dari direktori baru ini di pohon folder repositori Git kloning Anda, jalankan bundel Azure Databricks CLI menghasilkan perintah, menyediakan ID alur DLT Anda sebagai <pipeline-id>:

databricks bundle generate pipeline --existing-pipeline-id <pipeline-id> --profile <profile-name>

Saat Anda menjalankan perintah generate, perintah tersebut membuat file konfigurasi bundel untuk pipeline Anda di folder resources bundel dan mengunduh artefak yang dirujuk ke dalam folder src. Bendera --profile (atau -p) bersifat opsional, tetapi jika Anda memiliki profil konfigurasi Databricks tertentu (ditentukan dalam file .databrickscfg yang dibuat saat Anda menginstal Azure Databricks CLI) yang lebih anda gunakan alih-alih profil default, berikan dalam perintah ini. Untuk informasi tentang profil konfigurasi Databricks, lihat profil konfigurasi Azure Databricks.

Langkah 3: Tinjau file proyek bundel

Ketika perintah bundle generate selesai, perintah tersebut akan membuat dua folder baru:

  • resources adalah subdirektori proyek yang berisi file konfigurasi proyek.
  • src adalah folder proyek tempat file sumber, seperti kueri dan buku catatan, disimpan.

Perintah ini juga membuat beberapa file tambahan:

  • *.pipeline.yml di bawah subdirektori resources. File ini berisi konfigurasi dan pengaturan khusus untuk alur DLT Anda.
  • File sumber seperti kueri SQL di bawah subdirektori src, disalin dari alur DLT yang ada.
├── databricks.yml                            # Project configuration file created with the bundle init command
├── resources/
│   └── {your-pipeline-name.pipeline}.yml     # Pipeline configuration
└── src/
    └── {SQl-query-retrieved-from-your-existing-pipeline}.sql # Your pipeline's declarative query

Langkah 4: Ikat alur bundel ke alur yang ada

Anda harus menautkan, atau menghubungkan, definisi alur kerja dalam bundel ke alur kerja yang ada untuk menjaganya tetap terbaru saat Anda membuat perubahan. Untuk melakukan ini, jalankan perintah ikatan penyebaran bundel Azure Databricks CLI :

databricks bundle deployment bind <pipeline-name> <pipeline-ID> --profile <profile-name>

<pipeline-name> adalah nama pipa. Nama ini harus sama dengan nilai string awalan nama file untuk konfigurasi alur di direktori resources baru Anda. Misalnya, jika Anda memiliki file konfigurasi alur bernama ingestion_data_pipeline.pipeline.yml di folder resources Anda, maka Anda harus memberikan ingestion_data_pipeline sebagai nama alur Anda.

<pipeline-ID> adalah ID untuk alur Anda. Ini sama dengan yang Anda salin sebagai bagian dari persyaratan untuk instruksi ini.

Langkah 5: Sebarkan alur Anda menggunakan bundel baru

Sekarang, sebarkan bundel alur Anda ke ruang kerja target menggunakan perintah `Azure Databricks CLI bundle deploy` :

databricks bundle deploy --target <target-name> --profile <profile-name>

Bendera --target diperlukan dan harus diatur ke string yang cocok dengan nama ruang kerja target yang dikonfigurasi, seperti development atau production.

Jika perintah ini berhasil, Anda sekarang memiliki konfigurasi alur DLT dalam proyek eksternal yang dapat dimuat ke ruang kerja lain dan dijalankan, dan dengan mudah dibagikan dengan pengguna Azure Databricks lainnya di akun Anda.

Pemecahan masalah

Masalah Solusi
Kesalahan "databricks.yml tidak ditemukan" saat menjalankan bundle generate Saat ini, perintah bundle generate tidak membuat file konfigurasi bundel (databricks.yml) secara otomatis. Anda harus membuat file menggunakan databricks bundle init atau secara manual.
Pengaturan alur yang ada tidak cocok dengan nilai dalam konfigurasi YAML alur yang dihasilkan ID alur tidak muncul dalam file YML konfigurasi bundel. Jika Anda melihat pengaturan lain yang hilang, Anda dapat menerapkannya secara manual.

Tips untuk sukses

  • Selalu gunakan kontrol versi. Jika Anda tidak menggunakan folder Databricks Git, simpan subdirektori dan file proyek Anda di Git atau repositori atau sistem file lain yang dikendalikan versi.
  • Uji alur Anda di lingkungan non-produksi (seperti lingkungan "pengembangan" atau "uji") sebelum menyebarkannya ke lingkungan produksi. Sangat mudah untuk memperkenalkan kesalahan konfigurasi secara tidak sengaja.

Sumber daya tambahan

Untuk informasi selengkapnya tentang menggunakan bundel untuk menentukan dan mengelola pemrosesan data, lihat: