Konversikan jalur DLT menjadi proyek Bundel Aset Databricks
Artikel ini menunjukkan cara mengonversi alur DLT (DLT) yang ada menjadi proyek Bundel Aset Databricks. Bundel memungkinkan Anda menentukan dan mengelola konfigurasi pemrosesan data Azure Databricks dalam satu file YAML yang dikontrol sumber yang menyediakan pemeliharaan yang lebih mudah dan memungkinkan penyebaran otomatis ke lingkungan target.
Gambaran umum proses konversi
Langkah-langkah yang Anda ambil untuk mengonversi alur yang ada menjadi bundel adalah:
- Pastikan Anda memiliki akses ke alur yang dikonfigurasi sebelumnya yang ingin Anda konversi ke bundel.
- Buat atau siapkan folder (sebaiknya dalam hierarki yang dikontrol sumber) untuk menyimpan bundel.
- Buat konfigurasi untuk bundel dari pipeline yang ada, menggunakan Azure Databricks CLI.
- Tinjau konfigurasi bundel yang dihasilkan untuk memastikannya selesai.
- Tautkan bundel ke alur asli.
- Sebarkan alur ke ruang kerja target menggunakan konfigurasi bundel.
Persyaratan
Sebelum memulai, Anda harus memiliki:
- Databricks CLI diinstal pada komputer pengembangan lokal Anda. Databricks CLI versi 0.218.0 atau lebih tinggi diperlukan untuk menggunakan Bundel Aset Databricks.
- ID pipeline DLT yang ada yang akan Anda kelola dengan paket. Untuk mempelajari cara Anda memperoleh ID ini, lihat Mendapatkan definisi alur pipa yang ada menggunakan UI.
- Otorisasi untuk ruang kerja Azure Databricks tempat alur DLT yang ada berjalan. Untuk mengonfigurasi autentikasi dan otorisasi untuk panggilan Azure Databricks CLI Anda, lihat Mengotorisasi akses ke sumber daya Azure Databricks.
Langkah 1: Siapkan folder untuk proyek bundel Anda
Anda harus memiliki akses ke repositori Git yang dikonfigurasi di Azure Databricks sebagai folder Git. Anda akan membuat proyek bundel di repositori ini, yang akan menerapkan kontrol sumber dan membuatnya tersedia untuk kolaborator lain melalui folder Git di ruang kerja Azure Databricks yang sesuai. (Untuk detail selengkapnya tentang folder Git, lihat integrasi Git untuk folder Databricks Git.)
Pergi ke direktori root dari repositori Git yang telah dikloning di komputer lokal Anda.
Di tempat yang sesuai dalam hierarki folder, buat folder khusus untuk proyek bundel Anda. Misalnya:
mkdir - p ~/source/my-pipelines/ingestion/events/my-bundle
Ubah direktori kerja Anda saat ini ke folder baru ini. Misalnya:
cd ~/source/my-pipelines/ingestion/events/my-bundle
Inisialisasi bundel baru dengan menjalankan
databricks bundle init
dan menjawab perintah. Setelah selesai, Anda akan memiliki file konfigurasi proyek bernamadatabricks.yml
di folder beranda baru untuk proyek Anda. File ini diperlukan untuk menjalankan alur kerja Anda dari baris perintah. Untuk detail selengkapnya tentang file konfigurasi ini, lihat konfigurasi Bundel Aset Databricks .
Langkah 2: Hasilkan konfigurasi alur
Dari direktori baru ini di pohon folder repositori Git kloning Anda, jalankan bundel Azure Databricks CLI menghasilkan perintah, menyediakan ID alur DLT Anda sebagai <pipeline-id>
:
databricks bundle generate pipeline --existing-pipeline-id <pipeline-id> --profile <profile-name>
Saat Anda menjalankan perintah generate
, perintah tersebut membuat file konfigurasi bundel untuk pipeline Anda di folder resources
bundel dan mengunduh artefak yang dirujuk ke dalam folder src
. Bendera --profile
(atau -p
) bersifat opsional, tetapi jika Anda memiliki profil konfigurasi Databricks tertentu (ditentukan dalam file .databrickscfg
yang dibuat saat Anda menginstal Azure Databricks CLI) yang lebih anda gunakan alih-alih profil default, berikan dalam perintah ini. Untuk informasi tentang profil konfigurasi Databricks, lihat profil konfigurasi Azure Databricks.
Langkah 3: Tinjau file proyek bundel
Ketika perintah bundle generate
selesai, perintah tersebut akan membuat dua folder baru:
-
resources
adalah subdirektori proyek yang berisi file konfigurasi proyek. -
src
adalah folder proyek tempat file sumber, seperti kueri dan buku catatan, disimpan.
Perintah ini juga membuat beberapa file tambahan:
-
*.pipeline.yml
di bawah subdirektoriresources
. File ini berisi konfigurasi dan pengaturan khusus untuk alur DLT Anda. - File sumber seperti kueri SQL di bawah subdirektori
src
, disalin dari alur DLT yang ada.
├── databricks.yml # Project configuration file created with the bundle init command
├── resources/
│ └── {your-pipeline-name.pipeline}.yml # Pipeline configuration
└── src/
└── {SQl-query-retrieved-from-your-existing-pipeline}.sql # Your pipeline's declarative query
Langkah 4: Ikat alur bundel ke alur yang ada
Anda harus menautkan, atau menghubungkan, definisi alur kerja dalam bundel ke alur kerja yang ada untuk menjaganya tetap terbaru saat Anda membuat perubahan. Untuk melakukan ini, jalankan perintah ikatan penyebaran bundel Azure Databricks CLI :
databricks bundle deployment bind <pipeline-name> <pipeline-ID> --profile <profile-name>
<pipeline-name>
adalah nama pipa. Nama ini harus sama dengan nilai string awalan nama file untuk konfigurasi alur di direktori resources
baru Anda. Misalnya, jika Anda memiliki file konfigurasi alur bernama ingestion_data_pipeline.pipeline.yml
di folder resources
Anda, maka Anda harus memberikan ingestion_data_pipeline
sebagai nama alur Anda.
<pipeline-ID>
adalah ID untuk alur Anda. Ini sama dengan yang Anda salin sebagai bagian dari persyaratan untuk instruksi ini.
Langkah 5: Sebarkan alur Anda menggunakan bundel baru
Sekarang, sebarkan bundel alur Anda ke ruang kerja target menggunakan perintah `Azure Databricks CLI bundle deploy` :
databricks bundle deploy --target <target-name> --profile <profile-name>
Bendera --target
diperlukan dan harus diatur ke string yang cocok dengan nama ruang kerja target yang dikonfigurasi, seperti development
atau production
.
Jika perintah ini berhasil, Anda sekarang memiliki konfigurasi alur DLT dalam proyek eksternal yang dapat dimuat ke ruang kerja lain dan dijalankan, dan dengan mudah dibagikan dengan pengguna Azure Databricks lainnya di akun Anda.
Pemecahan masalah
Masalah | Solusi |
---|---|
Kesalahan "databricks.yml tidak ditemukan" saat menjalankan bundle generate |
Saat ini, perintah bundle generate tidak membuat file konfigurasi bundel (databricks.yml ) secara otomatis. Anda harus membuat file menggunakan databricks bundle init atau secara manual. |
Pengaturan alur yang ada tidak cocok dengan nilai dalam konfigurasi YAML alur yang dihasilkan | ID alur tidak muncul dalam file YML konfigurasi bundel. Jika Anda melihat pengaturan lain yang hilang, Anda dapat menerapkannya secara manual. |
Tips untuk sukses
- Selalu gunakan kontrol versi. Jika Anda tidak menggunakan folder Databricks Git, simpan subdirektori dan file proyek Anda di Git atau repositori atau sistem file lain yang dikendalikan versi.
- Uji alur Anda di lingkungan non-produksi (seperti lingkungan "pengembangan" atau "uji") sebelum menyebarkannya ke lingkungan produksi. Sangat mudah untuk memperkenalkan kesalahan konfigurasi secara tidak sengaja.
Sumber daya tambahan
Untuk informasi selengkapnya tentang menggunakan bundel untuk menentukan dan mengelola pemrosesan data, lihat:
- Apa itu Bundel Aset Databricks?
- Mengembangkan alur DLT dengan Bundel Aset Databricks. Topik ini memberikan panduan mengenai pembuatan bundel untuk pipeline baru daripada yang sudah ada, menggunakan notebook yang terkontrol sumber untuk pemrosesan yang Anda sediakan.