Spark Submit (warisan)
Jenis tugas Spark Submit adalah pola warisan untuk mengonfigurasi JAR sebagai tugas. Databricks merekomendasikan penggunaan tugas JAR . Lihat tugas JAR untuk pekerjaan.
Persyaratan
- Anda dapat menjalankan tugas spark-submit hanya di kluster baru.
- Anda harus mengunggah file JAR ke lokasi atau repositori Maven yang kompatibel dengan konfigurasi komputasi Anda. Lihat Dukungan pustaka Java dan Scala.
- Anda tidak dapat mengakses file JAR yang disimpan dalam volume.
- Spark-submit tidak mendukung penskalaan otomatis. Untuk mempelajari selengkapnya tentang penskalaan otomatis, lihat Penskalaan otomatis kluster.
- Spark-submit tidak mendukung referensi Utilitas Databricks (dbutils). Untuk menggunakan Utilitas Databricks, gunakan tugas JAR sebagai gantinya.
- Jika Anda menggunakan kluster yang mendukung Unity Catalog, spark-submit hanya didukung jika kluster menggunakan mode akses pengguna tunggal. Mode akses bersama tidak didukung. Lihat Mode akses.
- Pekerjaan Streaming Terstruktur tidak boleh memiliki jumlah eksekusi bersamaan maksimum yang ditetapkan lebih dari 1. Pekerjaan streaming harus diatur untuk dijalankan menggunakan ekspresi cron
"* * * * * ?"
(setiap menit). Karena tugas streaming berjalan terus menerus, tugas tersebut harus selalu menjadi tugas akhir dalam pekerjaan.
Mengonfigurasi tugas Spark Submit
Spark Submit
Tambahkan tugas dari tab Tugas di UI Pekerjaan dengan melakukan hal berikut:
- Di menu tarik-turun jenis , pilih
Spark Submit
. - Gunakan Komputasi untuk mengonfigurasi kluster yang mendukung logika dalam tugas Anda.
- Gunakan kotak teks Parameter
untuk menyediakan semua argumen dan konfigurasi yang diperlukan untuk menjalankan tugas Anda sebagai array string JSON. Tiga argumen pertama digunakan untuk mengidentifikasi kelas utama yang akan dijalankan dalam JAR pada jalur tertentu, seperti dalam contoh berikut:
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
Anda tidak dapat mengambil alih pengaturan ,
master
, dandeploy-mode
yang dikonfigurasiexecutor-cores
oleh Azure DatabricksGunakan
--jars
dan--py-files
untuk menambahkan pustaka Java, Scala, dan Python dependen.Gunakan
--conf
untuk mengatur konfigurasi Spark.Argumen
--jars
,--py-files
,--files
mendukung jalur DBFS.Secara default, pekerjaan pengiriman Spark menggunakan semua memori yang tersedia, tidak termasuk memori yang dicadangkan untuk layanan Azure Databricks. Anda dapat mengatur
--driver-memory
dan--executor-memory
ke nilai yang lebih kecil untuk meninggalkan beberapa ruang untuk penggunaan memori di luar heap.
- Klik Simpan tugas.