Bagikan melalui


Mengatur properti konfigurasi Spark di Azure Databricks

Anda dapat mengatur properti konfigurasi Spark (Spark confs) untuk menyesuaikan pengaturan di lingkungan komputasi Anda.

Databricks umumnya merekomendasikan untuk tidak mengonfigurasi sebagian besar properti Spark. Terutama saat bermigrasi dari Apache Spark sumber terbuka atau meningkatkan versi Databricks Runtime, konfigurasi Spark warisan dapat mengambil alih perilaku default baru yang mengoptimalkan beban kerja.

Untuk banyak perilaku yang dikontrol oleh properti Spark, Azure Databricks juga menyediakan opsi untuk mengaktifkan perilaku pada tingkat tabel atau untuk mengonfigurasi perilaku kustom sebagai bagian dari operasi tulis. Misalnya, evolusi skema sebelumnya dikendalikan oleh properti Spark, tetapi sekarang memiliki cakupan dalam SQL, Python, dan Scala. Lihat sintaks evolusi Skema untuk menggabungkan.

Mengonfigurasi properti Spark untuk buku catatan dan pekerjaan

Anda bisa mengatur properti Spark untuk buku catatan dan pekerjaan. Cakupan konfigurasi tergantung pada cara Anda mengaturnya.

Pengaturan telah dikonfigurasi: Berlaku untuk:
Menggunakan konfigurasi komputasi Semua buku catatan dan pekerjaan berjalan dengan sumber daya komputasi.
Dalam buku catatan Hanya SparkSession untuk notebook saat ini.

Untuk petunjuk tentang mengonfigurasi properti Spark di tingkat komputasi, lihat Konfigurasi Spark.

Untuk mengatur properti Spark dalam buku catatan, gunakan sintaks berikut:

SQL

SET spark.sql.ansi.enabled = true

Python

spark.conf.set("spark.sql.ansi.enabled", "true")

Scala

spark.conf.set("spark.sql.ansi.enabled", "true")

Mengonfigurasi properti Spark di Databricks SQL

Databricks SQL memungkinkan admin mengonfigurasi properti Spark untuk akses data di menu pengaturan ruang kerja. Lihat konfigurasi akses data

Selain konfigurasi akses data, Databricks SQL hanya memungkinkan beberapa konfigurasi Spark, yang telah diberi nama alias yang lebih pendek untuk mempermudah. Lihat parameter konfigurasi .

Untuk konfigurasi SQL yang paling didukung, Anda dapat mengambil alih perilaku global dalam sesi Anda saat ini. Contoh berikut menonaktifkan mode ANSI:

SET ANSI_MODE = false

Mengonfigurasi properti Spark untuk alur DLT

DLT memungkinkan Anda mengonfigurasi properti Spark untuk alur pemrosesan, untuk satu sumber daya komputasi yang dikonfigurasi untuk alur pemrosesan, atau untuk alur pemrosesan individual, tampilan materialisasi, atau tabel streaming.

Anda dapat mengatur properti alur dan komputasi Spark menggunakan UI atau JSON. Lihat Konfigurasi alur DLT.

Gunakan opsi spark_conf dalam fungsi dekorator DLT untuk mengonfigurasi properti Spark untuk alur, tampilan, atau tabel. Lihat properti Python DLT .

Mengonfigurasi properti Spark untuk buku catatan dan pekerjaan tanpa server

Komputasi tanpa server tidak mendukung pengaturan sebagian besar properti Spark untuk notebook atau pekerjaan. Berikut ini adalah properti yang bisa Anda konfigurasi:

Harta benda Bawaan Deskripsi
spark.databricks.execution.timeout 9000 Batas waktu eksekusi, dalam detik, untuk kueri Spark Connect. Nilai default hanya berlaku untuk notebook yang berjalan pada komputasi tanpa server. Untuk pekerjaan yang berjalan pada komputasi tanpa server dan komputasi dengan mode akses standar, tidak ada batas waktu kecuali properti ini diatur.
spark.sql.legacy.timeParserPolicy EXCEPTION Kebijakan pengurai waktu.
spark.sql.session.timeZone Etc/UTC ID zona waktu lokal untuk sesi dalam format ID zona berbasis wilayah atau offset zona.
spark.sql.shuffle.partitions auto Jumlah partisi default yang digunakan ketika mendistribusikan ulang data untuk gabungan atau agregasi.
spark.sql.ansi.enabled true Jika benar, Spark SQL menggunakan dialek yang sesuai dengan standar ANSI sebagai ganti dialek yang sesuai dengan Hive.

Dapatkan pengaturan saat ini untuk konfigurasi Spark

Gunakan sintaks berikut untuk meninjau pengaturan konfigurasi Spark saat ini:

spark.conf.get("configuration_name")