Referensi properti DLT

Artikel
03/11/2025

Artikel ini menyediakan referensi untuk spesifikasi pengaturan DLT JSON dan properti tabel di Azure Databricks. Untuk detail selengkapnya tentang menggunakan berbagai properti dan konfigurasi ini, lihat artikel berikut ini:

konfigurasi jalur DLT

Bidang
`id` Jenis: `string` Pengidentifikasi unik global untuk pipa ini. Pengidentifikasi ditetapkan oleh sistem dan tidak dapat diubah.
`name` Jenis: `string` Nama yang mudah digunakan untuk alur ini. Nama dapat digunakan untuk mengidentifikasi pekerjaan pipeline di antarmuka pengguna.
`configuration` Jenis: `object` Daftar pengaturan opsional untuk ditambahkan ke konfigurasi Spark dari cluster yang akan menjalankan pipeline. Pengaturan ini dibaca oleh runtime DLT dan tersedia pada kueri pipeline melalui konfigurasi Spark. Elemen harus diformat sebagai pasangan `key:value`.
`libraries` Jenis: `array of objects` Sekumpulan notebook yang berisi kode pipeline dan artefak yang diperlukan.
`clusters` Jenis: `array of objects` Sekumpulan spesifikasi untuk kluster menjalankan jalur pemrosesan. Jika tidak ditentukan, pipeline akan memilih konfigurasi kluster default secara otomatis untuk alur tersebut.
`development` Jenis: `boolean` Indikator yang menunjukkan apakah akan menjalankan pipeline di mode `development` atau `production`. Nilai defaultnya adalah `true`
`notifications` Jenis: `array of objects` Array spesifikasi opsional untuk pemberitahuan email saat pembaruan pipeline selesai, gagal dengan kesalahan yang dapat diulang, gagal dengan kesalahan yang tidak dapat diulang, atau alur kerja gagal.
`continuous` Jenis: `boolean` Bendera yang menunjukkan apakah akan menjalankan pipeline secara terus-menerus. Nilai defaultnya adalah `false`.
`catalog` Jenis: `string` Nama katalog default untuk pipeline, di mana semua himpunan data dan metadata untuk pipeline tersebut diterbitkan. Mengatur nilai ini akan mengaktifkan Unity Catalog untuk pipeline. Jika dibiarkan tidak diatur, alur akan menerbitkan ke metastore Hive lama menggunakan lokasi yang ditentukan dalam `storage`. Dalam mode penerbitan lama, menentukan katalog yang berisi skema target di mana semua himpunan data dari alur kerja saat ini diterbitkan. Lihat skema LIVE (versi lama).
`schema` Jenis: `string` Nama skema default untuk pipa, di mana semua himpunan data dan metadata dalam skema default pipa diterbitkan secara default. Lihat Atur katalog target dan skema.
`target` (warisan) Jenis: `string` Nama skema target tempat semua himpunan data yang ditentukan dalam alur saat ini diterbitkan. Mengatur `target` alih-alih `schema` mengonfigurasi jalur untuk menggunakan mode penerbitan lama. Lihat skema LIVE (warisan).
`storage` (warisan) Jenis: `string` Lokasi di DBFS atau penyimpanan cloud tempat data output dan metadata yang diperlukan untuk eksekusi alur disimpan. Tabel dan metadata disimpan dalam subdirektori lokasi ini. Ketika pengaturan `storage` tidak ditentukan, sistem akan default ke lokasi di `dbfs:/pipelines/`. Pengaturan `storage` tidak dapat diubah setelah pipa saluran dibuat.
`channel` Jenis: `string` Versi runtime DLT yang akan digunakan. Nilai yang didukung adalah: `preview` untuk menguji alur Anda dengan perubahan yang akan datang pada versi runtime. `current` untuk menggunakan versi runtime saat ini. Bidang `channel` bersifat opsional. Nilai defaultnya adalah `current`. Databricks merekomendasikan penggunaan versi runtime saat ini untuk beban kerja produksi.
`edition` Ketik `string` Edisi produk DLT untuk menjalankan alur kerja. Pengaturan ini memungkinkan Anda memilih edisi produk terbaik berdasarkan persyaratan alur Anda: `CORE` untuk menjalankan beban kerja pengambilan data streaming. `PRO` untuk menjalankan beban kerja ingestion streaming dan penangkapan perubahan data (CDC). `ADVANCED` untuk menjalankan beban kerja ingest streaming, beban kerja CDC, dan beban kerja yang memerlukan ekspektasi DLT untuk memberlakukan batasan kualitas data. Bidang `edition` bersifat opsional. Nilai defaultnya adalah `ADVANCED`.
`photon` Jenis: `boolean` Sebuah indikator yang menunjukkan apakah akan menggunakan Apa itu Photon? untuk menjalankan pipeline. Photon adalah mesin Spark berperforma tinggi Azure Databricks. Saluran yang diaktifkan oleh Photon dikenai tarif yang berbeda dari saluran non-Photon. Bidang `photon` bersifat opsional. Nilai defaultnya adalah `false`.
`pipelines.maxFlowRetryAttempts` Jenis: `int` Jika kegagalan yang dapat diulang terjadi selama pembaruan alur, ini adalah jumlah maksimum kali untuk mencoba kembali alur sebelum gagal memperbarui alur Default: Dua kali percobaan ulang. Ketika terjadi kegagalan yang dapat diulang, runtime DLT mencoba menjalankan proses tersebut sebanyak tiga kali, termasuk percobaan awal.
`pipelines.numUpdateRetryAttempts` Jenis: `int` Jika kegagalan yang dapat diulang terjadi selama pembaruan, jumlah maksimum untuk mencoba kembali pembaruan sebelum pembaruan gagal secara permanen adalah sebagai berikut. Upaya ulang dilakukan sebagai pembaruan penuh. Parameter ini hanya berlaku untuk alur yang berjalan dalam mode produksi. Percobaan ulang tidak dicoba jika alur Anda berjalan dalam mode pengembangan atau saat Anda menjalankan pembaruan `Validate`. Bawaan Lima untuk pipeline yang dipicu. Tidak terbatas untuk alur berkelanjutan.

properti tabel DLT

Selain properti tabel yang didukung oleh Delta Lake, Anda bisa mengatur properti tabel berikut ini.

Properti tabel
`pipelines.autoOptimize.managed` Bawaan: `true` Mengaktifkan atau menonaktifkan pengoptimalan terjadwal tabel ini secara otomatis.
`pipelines.autoOptimize.zOrderCols` Standar: Tidak ada String opsional yang berisi daftar nama kolom yang dipisahkan dengan koma untuk mengurutkan tabel ini dengan z-order. Misalnya, `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` Bawaan: `true` Mengontrol apakah refresh penuh diizinkan untuk tabel ini.

Interval pemicu jalur kerja

Anda dapat menentukan interval pemicu alur untuk seluruh alur DLT atau sebagai bagian dari deklarasi himpunan data. Silakan lihat Menetapkan interval pemicu untuk alur pipa berkelanjutan.

`pipelines.trigger.interval`
Pengaturan bawaan didasarkan pada jenis alur. Lima detik untuk kueri streaming. Satu menit untuk kueri lengkap saat semua data input berasal dari sumber Delta. Diperlukan sepuluh menit untuk kueri lengkap ketika beberapa sumber data mungkin bukan Delta. Nilainya adalah angka ditambah unit waktu. Berikut ini adalah unit waktu yang valid: `second`, `seconds` `minute`, `minutes` `hour`, `hours` `day`, `days` Anda dapat menggunakan unit tunggal atau jamak saat menentukan nilai, misalnya: `{"pipelines.trigger.interval" : "1 hour"}` `{"pipelines.trigger.interval" : "10 seconds"}` `{"pipelines.trigger.interval" : "30 second"}` `{"pipelines.trigger.interval" : "1 minute"}` `{"pipelines.trigger.interval" : "10 minutes"}` `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

Pengaturan bawaan didasarkan pada jenis alur.

Lima detik untuk kueri streaming.
Satu menit untuk kueri lengkap saat semua data input berasal dari sumber Delta.
Diperlukan sepuluh menit untuk kueri lengkap ketika beberapa sumber data mungkin bukan Delta.

Nilainya adalah angka ditambah unit waktu. Berikut ini adalah unit waktu yang valid:

second, seconds
minute, minutes
hour, hours
day, days

Anda dapat menggunakan unit tunggal atau jamak saat menentukan nilai, misalnya:

{"pipelines.trigger.interval" : "1 hour"}
{"pipelines.trigger.interval" : "10 seconds"}
{"pipelines.trigger.interval" : "30 second"}
{"pipelines.trigger.interval" : "1 minute"}
{"pipelines.trigger.interval" : "10 minutes"}
{"pipelines.trigger.interval" : "10 minute"}

Atribut Kluster yang tidak dapat diatur pengguna

Karena DLT mengelola siklus hidup kluster, banyak pengaturan kluster diatur oleh DLT dan tidak dapat dikonfigurasi secara manual oleh pengguna, baik dalam konfigurasi alur atau dalam kebijakan kluster yang digunakan oleh alur. Tabel berikut mencantumkan pengaturan ini dan mengapa tidak dapat diatur secara manual.

Bidang
`cluster_name` DLT mengatur nama kluster yang digunakan untuk menjalankan pembaruan alur. Nama-nama ini tidak dapat digantikan.
`data_security_mode` `access_mode` Nilai-nilai ini secara otomatis diatur oleh sistem.
`spark_version` Kluster DLT berjalan pada versi kustom Databricks Runtime yang terus diperbarui untuk menyertakan fitur terbaru. Versi Spark sudah dibundel dengan versi Databricks Runtime dan tidak dapat diubah.
`autotermination_minutes` Karena DLT mengatur logika penghentian otomatis dan logika penggunaan ulang kluster, waktu penghentian otomatis kluster tidak dapat diubah.
`runtime_engine` Meskipun Anda dapat mengontrol bidang ini dengan mengaktifkan Photon untuk alur Anda, Anda tidak dapat mengatur nilai ini secara langsung.
`effective_spark_version` Nilai ini secara otomatis diatur oleh sistem.
`cluster_source` Bidang ini diatur oleh sistem dan hanya bisa dibaca.
`docker_image` Karena DLT mengelola siklus hidup kluster, Anda tidak dapat menggunakan kontainer kustom dengan kluster alur.
`workload_type` Nilai ini diatur oleh sistem dan tidak dapat digantikan.

Bagikan melalui

Referensi properti DLT

konfigurasi jalur DLT

properti tabel DLT

Interval pemicu jalur kerja

Atribut Kluster yang tidak dapat diatur pengguna

Saran dan Komentar

Sumber Daya Tambahan: