Nastavení vlastností konfigurace Sparku v Azure Databricks
Vlastnosti konfigurace Sparku (Confs Sparku) můžete nastavit tak, aby se přizpůsobila nastavení ve výpočetním prostředí.
Databricks obecně nedoporučuje konfigurovat většinu vlastností Sparku. Zvláště když migrujete z opensourcového Apache Sparku nebo upgradujete verze Databricks Runtime, starší konfigurace Sparku můžou přepsat nové výchozí chování, které optimalizuje úlohy.
U mnoha chování řízených vlastnostmi Sparku poskytuje Azure Databricks také možnosti povolení chování na úrovni tabulky nebo konfiguraci vlastního chování v rámci operace zápisu. Vývoj schématu byl například dříve řízen vlastností Sparku, ale nyní má pokrytí v SQL, Pythonu a Scala. Viz syntaxe vývoje schématu pro sloučení.
Konfigurace vlastností Sparku pro poznámkové bloky a úlohy
Vlastnosti Sparku můžete nastavit pro poznámkové bloky a úlohy. Rozsah konfigurace závisí na tom, jak ji nastavíte.
Nakonfigurované vlastnosti: | Platí pro: |
---|---|
Použití konfigurace výpočetních prostředků | Všechny poznámkové bloky a úlohy běží s výpočetním prostředkem. |
V poznámkovém bloku | Pouze SparkSession pro aktuální poznámkový blok. |
Pokyny ke konfiguraci vlastností Sparku na úrovni výpočetních prostředků najdete v tématu Konfigurace Sparku.
K nastavení vlastnosti Spark v poznámkovém bloku použijte následující syntaxi:
SQL
SET spark.sql.ansi.enabled = true
Python
spark.conf.set("spark.sql.ansi.enabled", "true")
Scala
spark.conf.set("spark.sql.ansi.enabled", "true")
Konfigurace vlastností Sparku v Databricks SQL
Databricks SQL umožňuje správcům konfigurovat vlastnosti Sparku pro přístup k datům v nabídce nastavení pracovního prostoru. Viz konfigurace přístupu k datům
Kromě konfigurací přístupu k datům umožňuje Databricks SQL jen několik málo konfigurací Sparku, které byly pro zjednodušení přejmenovány na kratší názvy. Viz parametry konfigurace .
U většiny podporovaných konfigurací SQL můžete přepsat globální chování v aktuální relaci. Následující příklad vypne režim ANSI:
SET ANSI_MODE = false
Konfigurace vlastností Sparku pro kanály DLT
DLT umožňuje nakonfigurovat vlastnosti Sparku pro kanál, jeden výpočetní prostředek nakonfigurovaný pro kanál nebo pro jednotlivé toky, materializovaná zobrazení nebo streamované tabulky.
Vlastnosti kanálu a výpočetního Sparku můžete nastavit pomocí uživatelského rozhraní nebo JSON. Viz Konfigurace kanálu DLT.
Pomocí možnosti spark_conf
ve funkcích dekorátoru DLT můžete nakonfigurovat vlastnosti Sparku pro toky, zobrazení nebo tabulky. Viz vlastnosti Python DLT.
Konfigurace vlastností Sparku pro bezserverové poznámkové bloky a úlohy
Výpočetní prostředí bez serveru nepodporuje nastavení většiny vlastností Sparku pro poznámkové bloky nebo úlohy. Níže jsou uvedené vlastnosti, které můžete nakonfigurovat:
Vlastnost | Výchozí | Popis |
---|---|---|
spark.databricks.execution.timeout |
9000 |
Časový limit spuštění dotazů Spark Connect v sekundách. Výchozí hodnota je použitelná jenom pro poznámkové bloky spuštěné na bezserverových výpočetních prostředcích. Pro úlohy spuštěné na bezserverových výpočetních prostředcích a výpočetních prostředcích se standardním režimem přístupu neexistuje žádný časový limit, pokud není tato vlastnost nastavená. |
spark.sql.legacy.timeParserPolicy |
EXCEPTION |
Zásady analyzátoru času. |
spark.sql.session.timeZone |
Etc/UTC |
ID místního časového pásma relace ve formátu ID zón podle regionu nebo offsetů zóny. |
spark.sql.shuffle.partitions |
auto |
Výchozí nastavení počtu oddílů, které se mají použít při přesouvání dat pro spojení nebo agregace. |
spark.sql.ansi.enabled |
true |
Pokud je pravda, Spark SQL místo toho, aby byl kompatibilní s Hivem, používá dialekt kompatibilní se standardem ANSI. |
Získání aktuálního nastavení konfigurace Sparku
Pomocí následující syntaxe zkontrolujte aktuální nastavení konfigurace Sparku:
spark.conf.get("configuration_name")