Bagikan melalui


Spark Submit (warisan)

Jenis tugas Spark Submit adalah pola warisan untuk mengonfigurasi JAR sebagai tugas. Databricks merekomendasikan penggunaan tugas JAR . Lihat tugas JAR untuk pekerjaan.

Persyaratan

  • Anda dapat menjalankan tugas spark-submit hanya di kluster baru.
  • Anda harus mengunggah file JAR ke lokasi atau repositori Maven yang kompatibel dengan konfigurasi komputasi Anda. Lihat Dukungan pustaka Java dan Scala.
  • Anda tidak dapat mengakses file JAR yang disimpan dalam volume.
  • Spark-submit tidak mendukung penskalaan otomatis. Untuk mempelajari selengkapnya tentang penskalaan otomatis, lihat Penskalaan otomatis kluster.
  • Spark-submit tidak mendukung referensi Utilitas Databricks (dbutils). Untuk menggunakan Utilitas Databricks, gunakan tugas JAR sebagai gantinya.
  • Jika Anda menggunakan kluster yang mendukung Unity Catalog, spark-submit hanya didukung jika kluster menggunakan mode akses pengguna tunggal. Mode akses bersama tidak didukung. Lihat Mode akses.
  • Pekerjaan Streaming Terstruktur tidak boleh memiliki jumlah eksekusi bersamaan maksimum yang ditetapkan lebih dari 1. Pekerjaan streaming harus diatur untuk dijalankan menggunakan ekspresi cron "* * * * * ?" (setiap menit). Karena tugas streaming berjalan terus menerus, tugas tersebut harus selalu menjadi tugas akhir dalam pekerjaan.

Mengonfigurasi tugas Spark Submit

Spark Submit Tambahkan tugas dari tab Tugas di UI Pekerjaan dengan melakukan hal berikut:

  1. Di menu tarik-turun jenis , pilih Spark Submit.
  2. Gunakan Komputasi untuk mengonfigurasi kluster yang mendukung logika dalam tugas Anda.
  3. Gunakan kotak teks Parameter untuk menyediakan semua argumen dan konfigurasi yang diperlukan untuk menjalankan tugas Anda sebagai array string JSON.
    • Tiga argumen pertama digunakan untuk mengidentifikasi kelas utama yang akan dijalankan dalam JAR pada jalur tertentu, seperti dalam contoh berikut:

      ["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
      
    • Anda tidak dapat mengambil alih pengaturan , master, dan deploy-mode yang dikonfigurasi executor-coresoleh Azure Databricks

    • Gunakan --jars dan --py-files untuk menambahkan pustaka Java, Scala, dan Python dependen.

    • Gunakan --conf untuk mengatur konfigurasi Spark.

    • Argumen --jars, --py-files, --files mendukung jalur DBFS.

    • Secara default, pekerjaan pengiriman Spark menggunakan semua memori yang tersedia, tidak termasuk memori yang dicadangkan untuk layanan Azure Databricks. Anda dapat mengatur --driver-memorydan --executor-memory ke nilai yang lebih kecil untuk meninggalkan beberapa ruang untuk penggunaan memori di luar heap.

  4. Klik Simpan tugas.