Bagikan melalui


Jalankan pekerjaan Azure Databricks Anda dengan komputasi tanpa server untuk alur kerja

Komputasi tanpa server untuk alur kerja memungkinkan Anda menjalankan pekerjaan Azure Databricks tanpa mengonfigurasi dan menyebarkan infrastruktur. Dengan komputasi tanpa server, Anda fokus pada penerapan alur pemrosesan dan analisis data Anda, dan Azure Databricks mengelola sumber daya komputasi secara efisien, termasuk mengoptimalkan dan menskalakan komputasi untuk beban kerja Anda. Penskalaan otomatis dan Photon diaktifkan secara otomatis untuk sumber daya komputasi yang digunakan menjalankan pekerjaan Anda.

Komputasi tanpa server untuk alur kerja secara otomatis dan terus mengoptimalkan infrastruktur, seperti jenis instans, memori, dan mesin pemrosesan, untuk memastikan performa terbaik berdasarkan persyaratan pemrosesan spesifik beban kerja Anda.

Databricks secara otomatis meningkatkan versi Databricks Runtime untuk mendukung peningkatan dan peningkatan ke platform sambil memastikan stabilitas pekerjaan Azure Databricks Anda. Untuk melihat versi Databricks Runtime saat ini yang digunakan oleh komputasi tanpa server untuk alur kerja, lihat Catatan rilis komputasi tanpa server.

Karena izin pembuatan kluster tidak diperlukan, semua pengguna ruang kerja dapat menggunakan komputasi tanpa server untuk menjalankan alur kerja mereka.

Artikel ini menjelaskan penggunaan UI Pekerjaan Azure Databricks untuk membuat dan menjalankan pekerjaan yang menggunakan komputasi tanpa server. Anda juga dapat mengotomatiskan pembuatan dan menjalankan pekerjaan yang menggunakan komputasi tanpa server dengan JOBS API, Bundel Aset Databricks, dan Databricks SDK untuk Python.

  • Untuk mempelajari tentang menggunakan JOBS API untuk membuat dan menjalankan pekerjaan yang menggunakan komputasi tanpa server, lihat Pekerjaan di referensi REST API.
  • Untuk mempelajari tentang menggunakan Bundel Aset Databricks untuk membuat dan menjalankan pekerjaan yang menggunakan komputasi tanpa server, lihat Mengembangkan pekerjaan di Azure Databricks menggunakan Bundel Aset Databricks.
  • Untuk mempelajari tentang menggunakan Databricks SDK untuk Python untuk membuat dan menjalankan pekerjaan yang menggunakan komputasi tanpa server, lihat Databricks SDK untuk Python.

Persyaratan

  • Ruang kerja Azure Databricks Anda harus mengaktifkan Unity Catalog.
  • Karena komputasi tanpa server untuk alur kerja menggunakan mode akses standar, beban kerja Anda harus mendukung mode akses ini.
  • Ruang kerja Databricks Anda harus berada di wilayah yang didukung. Lihat Fitur dengan ketersediaan regional terbatas.
  • Akun Azure Databricks Anda harus mengaktifkan komputasi tanpa server. Lihat Mengaktifkan komputasi tanpa server.

Membuat pekerjaan menggunakan komputasi tanpa server

Catatan

Karena komputasi tanpa server untuk alur kerja memastikan bahwa sumber daya yang memadai disediakan untuk menjalankan beban kerja Anda, Anda mungkin mengalami peningkatan waktu mulai saat menjalankan pekerjaan Azure Databricks yang membutuhkan memori dalam jumlah besar atau mencakup banyak tugas.

Komputasi tanpa server didukung dengan jenis tugas notebook, skrip Python, dbt, dan roda Python. Secara default, komputasi tanpa server dipilih sebagai jenis komputasi saat Anda membuat pekerjaan baru dan menambahkan salah satu jenis tugas yang didukung ini.

Membuat tugas tanpa server

Databricks merekomendasikan penggunaan komputasi tanpa server untuk semua tugas pekerjaan. Anda juga dapat menentukan jenis komputasi yang berbeda untuk tugas dalam pekerjaan, yang mungkin diperlukan jika jenis tugas tidak didukung oleh komputasi tanpa server untuk alur kerja.

Untuk mengelola koneksi jaringan keluar untuk pekerjaan Anda, lihat Apa itu kontrol keluar tanpa server?

Mengonfigurasi pekerjaan yang ada untuk menggunakan komputasi tanpa server

Anda dapat mengalihkan pekerjaan yang ada untuk menggunakan komputasi tanpa server untuk jenis tugas yang didukung saat Anda mengedit pekerjaan. Untuk beralih ke komputasi tanpa server, Anda dapat:

  • Di Detail pekerjaan panel samping klik Ganti di bawah Komputasi, klik Barumasukkan atau perbarui pengaturan apa pun, dan klik Perbarui.
  • Klik Panah Bawah di menu drop-down Compute dan pilih Tanpa Server.

Beralih tugas ke komputasi tanpa server

Menjadwalkan buku catatan menggunakan komputasi tanpa server

Selain menggunakan antarmuka pengguna Pekerjaan untuk membuat dan menjadwalkan pekerjaan menggunakan komputasi tanpa server, Anda dapat membuat dan menjalankan pekerjaan yang menggunakan komputasi tanpa server langsung dari buku catatan Databricks. Lihat Membuat dan mengelola pekerjaan buku catatan terjadwal.

Pilih kebijakan anggaran untuk penggunaan tanpa server Anda

Penting

Fitur ini ada di Pratinjau Publik.

Kebijakan anggaran memungkinkan organisasi Anda menerapkan tag kustom pada penggunaan tanpa server untuk atribusi penagihan terperinci.

Jika ruang kerja Anda menggunakan kebijakan anggaran untuk mengaitkan penggunaan tanpa server, Anda dapat memilih kebijakan anggaran untuk pekerjaan Anda menggunakan pengaturan Kebijakan Anggaran di antarmuka pengguna di detail pekerjaan. Jika Anda hanya ditetapkan ke satu-satunya kebijakan anggaran, kebijakan tersebut akan dipilih secara otomatis untuk pekerjaan baru Anda.

Catatan

Setelah Anda diberi kebijakan anggaran, pekerjaan yang ada tidak secara otomatis ditandai dengan kebijakan Anda. Anda harus memperbarui tugas yang ada secara manual jika Anda ingin menerapkan kebijakan pada tugas tersebut.

Untuk informasi selengkapnya tentang kebijakan anggaran, lihat Menetapkan penggunaan tanpa server dengan kebijakan anggaran.

Atur parameter konfigurasi Spark

Untuk mengotomatiskan konfigurasi Spark pada komputasi tanpa server, Databricks memungkinkan pengaturan hanya parameter konfigurasi Spark tertentu. Untuk daftar parameter yang diizinkan, lihat parameter konfigurasi Spark yang didukung .

Anda hanya dapat mengatur parameter konfigurasi Spark di tingkat sesi. Untuk melakukan ini, masukkan mereka ke dalam buku catatan dan tambahkan buku catatan tersebut ke dalam tugas yang termasuk dalam pekerjaan yang sama yang menggunakan parameter tersebut. Lihat Dapatkan dan setel properti konfigurasi Apache Spark di notebook.

Mengonfigurasi lingkungan dan dependensi

Untuk mempelajari cara menginstal pustaka dan dependensi buku catatan menggunakan komputasi tanpa server, lihat Instal dependensi buku catatan.

Mengonfigurasi memori tinggi untuk tugas buku catatan

Penting

Fitur ini ada di Pratinjau Publik.

Anda dapat mengonfigurasi tugas buku catatan untuk menggunakan ukuran memori yang lebih tinggi. Untuk melakukan ini, konfigurasikan pengaturan Memori di panel sisi Lingkungan pada notebook. Lihat Mengonfigurasi memori tinggi untuk beban kerja tanpa server Anda.

Memori tinggi hanya tersedia untuk jenis tugas notebook.

Mengonfigurasi pengoptimalan otomatis komputasi tanpa server untuk melarang percobaan ulang

Komputasi tanpa server untuk pengoptimalan otomatis alur kerja secara otomatis mengoptimalkan komputasi yang digunakan untuk menjalankan pekerjaan Anda dan mencoba kembali tugas yang gagal. Pengoptimalan otomatis diaktifkan secara default, dan Databricks merekomendasikan untuk membiarkannya diaktifkan untuk memastikan beban kerja penting berjalan dengan sukses setidaknya sekali. Namun, jika Anda memiliki beban kerja yang harus dijalankan paling banyak satu kali, misalnya, tugas yang tidak idempoten, Anda dapat menonaktifkan pengoptimalan otomatis saat menambahkan atau mengedit tugas.

  1. Di samping Coba Lagi, klik Tambahkan (atau Edit Icon jika kebijakan coba lagi sudah ada).
  2. Dalam dialog Kebijakan Coba Lagi, hapus centang Aktifkan pengoptimalan otomatis serverless (mungkin menyertakan percobaan ulang tambahan).
  3. Klik Konfirmasi.
  4. Jika Anda menambahkan tugas, klik Buat tugas. Jika Anda mengedit tugas, klik Simpan tugas.

Memantau biaya pekerjaan yang menggunakan komputasi tanpa server untuk alur kerja

Anda dapat memantau biaya pekerjaan yang menggunakan komputasi tanpa server untuk alur kerja dengan mengkueri tabel sistem penggunaan yang dapat ditagih . Tabel ini diperbarui untuk menyertakan atribut pengguna dan beban kerja tentang biaya tanpa server. Lihat referensi tabel sistem penggunaan yang dapat ditagih .

Untuk informasi tentang harga saat ini dan promosi apa pun, lihat halaman Harga Alur Kerja.

Melihat detail kueri untuk pelaksanaan tugas

Anda bisa menampilkan informasi runtime terperinci untuk pernyataan Spark Anda, seperti metrik dan rencana kueri.

Untuk mengakses detail kueri dari UI pekerjaan, gunakan langkah-langkah berikut:

  1. Klik Ikon Alur KerjaAlur Kerja di bilah samping.

  2. Klik nama pekerjaan yang ingin Anda lihat.

  3. Klik sesi yang ingin Anda lihat.

  4. Klik Garis Waktu untuk menampilkan eksekusi sebagai garis waktu, dibagi menjadi tugas individual.

  5. Klik panah di samping nama tugas untuk memperlihatkan pernyataan kueri dan runtimenya.

    Tugas dengan beberapa pernyataan kueri dan runtimenya dalam tampilan garis waktu dari antarmuka pengguna tugas.

  6. Klik kalimat untuk membuka panel detail kueri. Lihat Menampilkan detail kueri untuk mempelajari selengkapnya tentang informasi yang tersedia di panel ini.

Untuk menampilkan riwayat kueri untuk tugas:

  1. Di bagian Komputasi dari Task run panel sisi Tugas, klik Riwayat kueri.
  2. Anda dialihkan ke Riwayat Kueri, yang telah difilter berdasarkan ID eksekusi tugas tempat Anda berada.

Untuk informasi tentang menggunakan riwayat kueri, lihat akses riwayat kueri untuk pipeline DLT dan riwayat kueri .

Batasan

Untuk daftar komputasi tanpa server untuk batasan alur kerja, lihat Batasan komputasi tanpa server dalam catatan rilis komputasi tanpa server.