Mengonfigurasi alur DLT tanpa server
Artikel ini menjelaskan konfigurasi untuk alur DLT tanpa server.
Databricks merekomendasikan pengembangan alur baru menggunakan tanpa server. Beberapa beban kerja mungkin memerlukan konfigurasi komputasi klasik atau bekerja dengan metastore Hive warisan. Lihat Mengonfigurasi komputasi untuk alur DLT dan Menggunakan alur DLT dengan metastore pusaka Apache Hive.
Nota
- Alur tanpa server selalu menggunakan Katalog Unity. Katalog Unity untuk DLT berada di Pratinjau Umum dan memiliki beberapa batasan. Silakan lihat Gunakan Katalog Unity dengan alur DLT Anda.
- Untuk batasan komputasi tanpa server, lihat Batasan komputasi Tanpa Server.
- Anda tidak dapat menambahkan pengaturan komputasi secara manual dalam objek
clusters
dalam konfigurasi JSON untuk alur tanpa server. Mencoba melakukannya menghasilkan kesalahan.
- Jika Anda perlu menggunakan koneksi Azure Private Link dengan alur DLT tanpa server Anda, hubungi perwakilan Databricks Anda.
Persyaratan
- Ruang kerja Anda harus mengaktifkan Katalog Unity untuk menggunakan alur tanpa server.
- Ruang kerja Anda harus berada di wilayah yang diaktifkan tanpa server.
Konfigurasi yang direkomendasikan untuk alur tanpa server
Penting
Izin pembuatan kluster tidak diperlukan untuk mengonfigurasi alur tanpa server. Secara default, semua pengguna ruang kerja dapat menggunakan alur tanpa server.
Alur tanpa server menghapus sebagian besar opsi konfigurasi, karena Azure Databricks mengelola semua infrastruktur. Untuk mengonfigurasi alur tanpa server, lakukan hal berikut:
- Klik DLT di bilah samping.
- Klik Buat alur.
- Berikan nama Alur unik .
- Centang kotak di samping Tanpa Server.
- (Opsional) Gunakan Ikon Pemilih File
untuk mengonfigurasi buku catatan dan file ruang kerja sebagai kode sumber .
- Jika Anda tidak menambahkan kode sumber apa pun, akan dibuat buku catatan baru untuk pipeline. Buku catatan dibuat di direktori baru di direktori pengguna Anda, dan tautan untuk mengakses buku catatan ini diperlihatkan di bidang kode Sumber di panel detail Alur setelah Anda membuat alur.
- Tautan untuk mengakses buku catatan ini ada di bawah bidang kode sumber di panel detail pipeline setelah Anda membuat pipeline Anda.
- Gunakan tombol Tambahkan kode sumber untuk menambahkan aset kode sumber tambahan.
- Jika Anda tidak menambahkan kode sumber apa pun, akan dibuat buku catatan baru untuk pipeline. Buku catatan dibuat di direktori baru di direktori pengguna Anda, dan tautan untuk mengakses buku catatan ini diperlihatkan di bidang kode Sumber di panel detail Alur setelah Anda membuat alur.
- Pilih Katalog untuk menerbitkan data.
- Pilih Skema di katalog. Semua tabel streaming dan tampilan materialisasi yang ditentukan dalam alur dibuat dalam skema ini.
- Klik Buat.
Konfigurasi yang direkomendasikan ini membuat alur baru yang dikonfigurasi untuk dijalankan dalam mode yang dipicu dan saluran Saat Ini . Konfigurasi ini direkomendasikan untuk banyak kasus penggunaan, termasuk pengembangan dan pengujian, dan sangat cocok untuk beban kerja produksi yang harus berjalan sesuai jadwal. Untuk detail tentang penjadwalan alur, lihat tugas alur DLT untuk pekerjaan.
Anda juga dapat mengonversi alur yang ada yang dikonfigurasi dengan Unity Catalog untuk menggunakan tanpa server. Lihat Mengonversi alur yang ada untuk menggunakantanpa server .
Pertimbangan konfigurasi lainnya
Opsi konfigurasi berikut ini juga tersedia untuk alur tanpa server:
- Anda dapat memilih untuk menggunakan mode alur Berkelanjutan saat menjalankan alur dalam produksi. Lihat Dipicu vs. mode alur berkelanjutan.
- Tambahkan Pemberitahuan untuk pembaruan email berdasarkan kondisi sukses atau gagal. Lihat Menambahkan pemberitahuan email untuk peristiwa alur.
- Gunakan bidang Konfigurasi untuk mengatur pasangan kunci-nilai untuk pipeline. Konfigurasi ini melayani dua tujuan:
- Atur parameter arbitrer yang dapat Anda referensikan dalam kode sumber Anda. Lihat Gunakan parameter dengan alur DLT.
- Mengonfigurasi pengaturan alur dan konfigurasi Spark. Lihat referensi properti DLT .
- Gunakan saluran Pratinjau untuk menguji alur Anda terhadap perubahan runtime DLT yang tertunda dan fitur baru yang diujicobakan.
kebijakan anggaran
Penting
Fitur ini ada di Pratinjau Umum.
Kebijakan anggaran memungkinkan organisasi Anda menerapkan tag kustom pada penggunaan tanpa server untuk atribusi penagihan terperinci. Setelah Anda memilih kotak centang Tanpa Server, pengaturan kebijakan anggaran muncul di mana Anda dapat memilih kebijakan yang ingin Anda terapkan ke alur. Tag diwariskan dari kebijakan anggaran dan hanya dapat diedit oleh admin ruang kerja.
Nota
Setelah Anda diberi kebijakan anggaran, alur yang ada tidak secara otomatis ditandai dengan kebijakan Anda. Anda harus memperbarui pipeline yang ada secara manual jika Anda ingin melampirkan kebijakan ke pipeline itu.
Untuk informasi lebih lanjut tentang kebijakan anggaran, lihat Penggunaan tanpa server dalam kebijakan anggaran.
Fitur jalur tanpa server
Selain menyederhanakan konfigurasi, alur tanpa server memiliki fitur berikut:
- Refresh bertahap untuk tampilan materialisasi: Pembaruan untuk tampilan materialisasi diproses secara bertahap jika memungkinkan. Refresh inkremental memiliki hasil yang sama dengan komputasi ulang penuh. Pembaruan menggunakan refresh penuh jika hasil tidak dapat dihitung secara bertahap. Lihat Refresh inkremental untuk tampilan materialisasi.
- Pipelining aliran: Untuk meningkatkan pemanfaatan, throughput, dan latensi untuk beban kerja data streaming seperti penyerapan data, mikro-batch diproses secara pipelining . Dengan kata lain, alih-alih menjalankan mikrobatche secara berurutan seperti Spark Structured Streaming standar, alur DLT tanpa server berjalan mikrobatche secara bersamaan, meningkatkan pemanfaatan sumber daya komputasi. Stream pipelining diaktifkan secara default dalam alur DLT tanpa server.
- Penskalaan otomatis vertikal: alur DLT tanpa server ditambahkan ke penskalaan otomatis horizontal yang disediakan oleh penskalaan otomatis yang ditingkatkan Databricks dengan secara otomatis mengalokasikan jenis instans paling hemat biaya yang dapat menjalankan alur DLT Anda tanpa gagal karena kesalahan kehabisan memori. Lihat Apa itu autoscaling vertikal?
Apa yang dimaksud dengan autoscaling vertikal?
Penskalaan vertikal otomatis pada pipeline DLT tanpa server secara otomatis mengalokasikan jenis instance yang paling hemat biaya yang tersedia untuk menjalankan pembaruan pipeline DLT Anda tanpa gagal akibat kesalahan kehabisan memori. Skala otomatis vertikal meningkat ketika jenis instans yang lebih besar diperlukan untuk menjalankan pembaruan alur dan juga menurunkan skala ketika menentukan bahwa pembaruan dapat dijalankan dengan jenis instans yang lebih kecil. Autoscaling vertikal menentukan apakah simpul driver, simpul pekerja, atau simpul driver dan pekerja harus ditingkatkan atau diturunkan skalanya.
Penskalaan otomatis vertikal digunakan untuk semua alur DLT tanpa server, termasuk alur yang digunakan oleh tampilan materialisasi Databricks SQL dan tabel streaming.
Penskalaan otomatis vertikal berfungsi dengan mendeteksi pembaruan alur yang gagal karena kesalahan kehabisan memori. Penskalaan otomatis vertikal mengalokasikan tipe instans yang lebih besar ketika kegagalan ini terdeteksi berdasarkan data kehabisan memori yang dikumpulkan dari kegagalan pembaruan. Dalam mode produksi, pembaruan baru yang menggunakan sumber daya komputasi baru dimulai secara otomatis. Dalam mode pengembangan, sumber daya komputasi baru digunakan saat Anda memulai pembaruan baru secara manual.
Jika penskalaan otomatis vertikal mendeteksi bahwa memori instans yang dialokasikan secara konsisten kurang digunakan, itu akan menurunkan skala jenis instans untuk digunakan dalam pembaruan alur berikutnya.
Mengonversi alur yang ada untuk menggunakan tanpa server
Anda dapat mengonversi alur yang ada yang dikonfigurasi dengan Unity Catalog ke alur tanpa server. Selesaikan langkah-langkah berikut:
- Klik DLT di bilah samping.
- Klik nama alur yang diinginkan dalam daftar.
- Klik pengaturan .
- Centang kotak di samping Tanpa Server.
- Klik Simpan dan mulai.
Penting
Saat Anda mengaktifkan tanpa server, pengaturan komputasi apa pun yang telah Anda konfigurasi untuk alur akan dihapus. Jika Anda mengalihkan alur kembali ke pembaruan tanpa server, Anda harus mengonfigurasi ulang pengaturan komputasi yang diinginkan ke konfigurasi alur.
Bagaimana cara menemukan penggunaan DBU dari alur tanpa server?
Anda dapat menemukan penggunaan DBU dari alur DLT tanpa server dengan mengkueri tabel penggunaan yang dapat ditagih, bagian dari tabel sistem Azure Databricks. Lihat Apa konsumsi DBU dari alur DLT tanpa server?.