Mengatur properti konfigurasi Spark di Azure Databricks

Artikel
03/06/2025

Anda dapat mengatur properti konfigurasi Spark (Spark confs) untuk menyesuaikan pengaturan di lingkungan komputasi Anda.

Databricks umumnya merekomendasikan untuk tidak mengonfigurasi sebagian besar properti Spark. Terutama saat bermigrasi dari Apache Spark sumber terbuka atau meningkatkan versi Databricks Runtime, konfigurasi Spark warisan dapat mengambil alih perilaku default baru yang mengoptimalkan beban kerja.

Untuk banyak perilaku yang dikontrol oleh properti Spark, Azure Databricks juga menyediakan opsi untuk mengaktifkan perilaku pada tingkat tabel atau untuk mengonfigurasi perilaku kustom sebagai bagian dari operasi tulis. Misalnya, evolusi skema sebelumnya dikendalikan oleh properti Spark, tetapi sekarang memiliki cakupan dalam SQL, Python, dan Scala. Lihat sintaks evolusi Skema untuk menggabungkan.

Mengonfigurasi properti Spark untuk buku catatan dan pekerjaan

Anda bisa mengatur properti Spark untuk buku catatan dan pekerjaan. Cakupan konfigurasi tergantung pada cara Anda mengaturnya.

Pengaturan telah dikonfigurasi:	Berlaku untuk:
Menggunakan konfigurasi komputasi	Semua buku catatan dan pekerjaan berjalan dengan sumber daya komputasi.
Dalam buku catatan	Hanya SparkSession untuk notebook saat ini.

Untuk petunjuk tentang mengonfigurasi properti Spark di tingkat komputasi, lihat Konfigurasi Spark.

Untuk mengatur properti Spark dalam buku catatan, gunakan sintaks berikut:

SQL

SET spark.sql.ansi.enabled = true

Python

spark.conf.set("spark.sql.ansi.enabled", "true")

Scala

spark.conf.set("spark.sql.ansi.enabled", "true")

Mengonfigurasi properti Spark di Databricks SQL

Databricks SQL memungkinkan admin mengonfigurasi properti Spark untuk akses data di menu pengaturan ruang kerja. Lihat konfigurasi akses data

Selain konfigurasi akses data, Databricks SQL hanya memungkinkan beberapa konfigurasi Spark, yang telah diberi nama alias yang lebih pendek untuk mempermudah. Lihat parameter konfigurasi .

Untuk konfigurasi SQL yang paling didukung, Anda dapat mengambil alih perilaku global dalam sesi Anda saat ini. Contoh berikut menonaktifkan mode ANSI:

SET ANSI_MODE = false

Mengonfigurasi properti Spark untuk alur DLT

DLT memungkinkan Anda mengonfigurasi properti Spark untuk alur pemrosesan, untuk satu sumber daya komputasi yang dikonfigurasi untuk alur pemrosesan, atau untuk alur pemrosesan individual, tampilan materialisasi, atau tabel streaming.

Anda dapat mengatur properti alur dan komputasi Spark menggunakan UI atau JSON. Lihat Konfigurasi alur DLT.

Gunakan opsi spark_conf dalam fungsi dekorator DLT untuk mengonfigurasi properti Spark untuk alur, tampilan, atau tabel. Lihat properti Python DLT .

Mengonfigurasi properti Spark untuk buku catatan dan pekerjaan tanpa server

Komputasi tanpa server tidak mendukung pengaturan sebagian besar properti Spark untuk notebook atau pekerjaan. Berikut ini adalah properti yang bisa Anda konfigurasi:

Harta benda	Bawaan	Deskripsi
`spark.databricks.execution.timeout`	`9000`	Batas waktu eksekusi, dalam detik, untuk kueri Spark Connect. Nilai default hanya berlaku untuk notebook yang berjalan pada komputasi tanpa server. Untuk pekerjaan yang berjalan pada komputasi tanpa server dan komputasi dengan mode akses standar, tidak ada batas waktu kecuali properti ini diatur.
`spark.sql.legacy.timeParserPolicy`	`EXCEPTION`	Kebijakan pengurai waktu.
`spark.sql.session.timeZone`	`Etc/UTC`	ID zona waktu lokal untuk sesi dalam format ID zona berbasis wilayah atau offset zona.
`spark.sql.shuffle.partitions`	`auto`	Jumlah partisi default yang digunakan ketika mendistribusikan ulang data untuk gabungan atau agregasi.
`spark.sql.ansi.enabled`	`true`	Jika benar, Spark SQL menggunakan dialek yang sesuai dengan standar ANSI sebagai ganti dialek yang sesuai dengan Hive.

Dapatkan pengaturan saat ini untuk konfigurasi Spark

Gunakan sintaks berikut untuk meninjau pengaturan konfigurasi Spark saat ini:

spark.conf.get("configuration_name")

Bagikan melalui