Nastavení vlastností konfigurace Sparku v Azure Databricks

Článek
03/05/2025

Vlastnosti konfigurace Sparku (Confs Sparku) můžete nastavit tak, aby se přizpůsobila nastavení ve výpočetním prostředí.

Databricks obecně nedoporučuje konfigurovat většinu vlastností Sparku. Zvláště když migrujete z opensourcového Apache Sparku nebo upgradujete verze Databricks Runtime, starší konfigurace Sparku můžou přepsat nové výchozí chování, které optimalizuje úlohy.

U mnoha chování řízených vlastnostmi Sparku poskytuje Azure Databricks také možnosti povolení chování na úrovni tabulky nebo konfiguraci vlastního chování v rámci operace zápisu. Vývoj schématu byl například dříve řízen vlastností Sparku, ale nyní má pokrytí v SQL, Pythonu a Scala. Viz syntaxe vývoje schématu pro sloučení.

Konfigurace vlastností Sparku pro poznámkové bloky a úlohy

Vlastnosti Sparku můžete nastavit pro poznámkové bloky a úlohy. Rozsah konfigurace závisí na tom, jak ji nastavíte.

Nakonfigurované vlastnosti:	Platí pro:
Použití konfigurace výpočetních prostředků	Všechny poznámkové bloky a úlohy běží s výpočetním prostředkem.
V poznámkovém bloku	Pouze SparkSession pro aktuální poznámkový blok.

Pokyny ke konfiguraci vlastností Sparku na úrovni výpočetních prostředků najdete v tématu Konfigurace Sparku.

K nastavení vlastnosti Spark v poznámkovém bloku použijte následující syntaxi:

SQL

SET spark.sql.ansi.enabled = true

Python

spark.conf.set("spark.sql.ansi.enabled", "true")

Scala

spark.conf.set("spark.sql.ansi.enabled", "true")

Konfigurace vlastností Sparku v Databricks SQL

Databricks SQL umožňuje správcům konfigurovat vlastnosti Sparku pro přístup k datům v nabídce nastavení pracovního prostoru. Viz konfigurace přístupu k datům

Kromě konfigurací přístupu k datům umožňuje Databricks SQL jen několik málo konfigurací Sparku, které byly pro zjednodušení přejmenovány na kratší názvy. Viz parametry konfigurace .

U většiny podporovaných konfigurací SQL můžete přepsat globální chování v aktuální relaci. Následující příklad vypne režim ANSI:

SET ANSI_MODE = false

Konfigurace vlastností Sparku pro kanály DLT

DLT umožňuje nakonfigurovat vlastnosti Sparku pro kanál, jeden výpočetní prostředek nakonfigurovaný pro kanál nebo pro jednotlivé toky, materializovaná zobrazení nebo streamované tabulky.

Vlastnosti kanálu a výpočetního Sparku můžete nastavit pomocí uživatelského rozhraní nebo JSON. Viz Konfigurace kanálu DLT.

Pomocí možnosti spark_conf ve funkcích dekorátoru DLT můžete nakonfigurovat vlastnosti Sparku pro toky, zobrazení nebo tabulky. Viz vlastnosti Python DLT.

Konfigurace vlastností Sparku pro bezserverové poznámkové bloky a úlohy

Výpočetní prostředí bez serveru nepodporuje nastavení většiny vlastností Sparku pro poznámkové bloky nebo úlohy. Níže jsou uvedené vlastnosti, které můžete nakonfigurovat:

Vlastnost	Výchozí	Popis
`spark.databricks.execution.timeout`	`9000`	Časový limit spuštění dotazů Spark Connect v sekundách. Výchozí hodnota je použitelná jenom pro poznámkové bloky spuštěné na bezserverových výpočetních prostředcích. Pro úlohy spuštěné na bezserverových výpočetních prostředcích a výpočetních prostředcích se standardním režimem přístupu neexistuje žádný časový limit, pokud není tato vlastnost nastavená.
`spark.sql.legacy.timeParserPolicy`	`EXCEPTION`	Zásady analyzátoru času.
`spark.sql.session.timeZone`	`Etc/UTC`	ID místního časového pásma relace ve formátu ID zón podle regionu nebo offsetů zóny.
`spark.sql.shuffle.partitions`	`auto`	Výchozí nastavení počtu oddílů, které se mají použít při přesouvání dat pro spojení nebo agregace.
`spark.sql.ansi.enabled`	`true`	Pokud je pravda, Spark SQL místo toho, aby byl kompatibilní s Hivem, používá dialekt kompatibilní se standardem ANSI.

Získání aktuálního nastavení konfigurace Sparku

Pomocí následující syntaxe zkontrolujte aktuální nastavení konfigurace Sparku:

spark.conf.get("configuration_name")

Sdílet prostřednictvím