Spark-konfigurációs tulajdonságok beállítása az Azure Databricksben

Cikk
03/06/2025

Beállíthatja a Spark konfigurációs tulajdonságait (Spark confs) a számítási környezet beállításainak testreszabásához.

A Databricks általában nem javasolja a legtöbb Spark-tulajdonság konfigurálását. Különösen a nyílt forráskódú Apache Sparkból való migráláskor vagy a Databricks Runtime-verziók frissítésekor az örökölt Spark-konfigurációk felülbírálhatják a számítási feladatokat optimalizáló új alapértelmezett viselkedéseket.

A Spark-tulajdonságok által szabályozott számos viselkedés esetén az Azure Databricks emellett lehetőséget biztosít a táblaszintű viselkedés engedélyezésére vagy az egyéni viselkedés írási művelet részeként történő konfigurálására. A sémafejlődést például korábban egy Spark-tulajdonság szabályozta, de most már az SQL, a Python és a Scala is rendelkezik lefedettséggel. Nézd meg a séma evolúció szintaxisát azegyesítéshez.

Spark-tulajdonságok konfigurálása jegyzetfüzetekhez és feladatokhoz

Beállíthatja a Spark-tulajdonságokat a jegyzetfüzetekhez és feladatokhoz. A konfiguráció hatóköre a beállítás módjától függ.

Konfigurált tulajdonságok:	Vonatkozik:
Számítási konfiguráció használata	Minden jegyzetfüzet és feladat a számítási erőforrással fut.
Jegyzetfüzeten belül	Csak az aktuális jegyzetfüzethez tartozó SparkSession-példány.

A Spark-tulajdonságok számítási szinten történő konfigurálásával kapcsolatos utasításokért lásd a Spark konfigurációját.

Ha spark-tulajdonságot szeretne beállítani egy jegyzetfüzetben, használja a következő szintaxist:

SQL

SET spark.sql.ansi.enabled = true

Python

spark.conf.set("spark.sql.ansi.enabled", "true")

Scala

spark.conf.set("spark.sql.ansi.enabled", "true")

Spark-tulajdonságok konfigurálása a Databricks SQL-ben

A Databricks SQL lehetővé teszi a rendszergazdák számára, hogy a Munkaterület beállításai menüben konfigurálják a Spark-tulajdonságokat az adathozzáféréshez. Lásd adatelérési konfigurációkat

Az adatelérési konfigurációkon kívül a Databricks SQL csak néhány Spark beállítást tesz lehetővé, amelyeket az egyszerűség kedvéért rövidebb nevekre átneveztek. Lásd konfigurációs paramétereket.

A legtöbb támogatott SQL-konfiguráció esetében felülbírálhatja az aktuális munkamenet globális viselkedését. Az alábbi példa kikapcsolja az ANSI-módot:

SET ANSI_MODE = false

Spark-tulajdonságok konfigurálása DLT-folyamatokhoz

A DLT lehetővé teszi a Spark-tulajdonságok konfigurálását egy folyamathoz, egy folyamathoz konfigurált számítási erőforráshoz vagy az egyes folyamatokhoz, materializált nézetekhez vagy streamelési táblákhoz.

A folyamat- és számítási Spark-tulajdonságokat a felhasználói felületen vagy a JSON-ban állíthatja be. Lásd: Egy DLT-folyamat konfigurálása.

Használja a spark_conf lehetőséget a DLT dekorátorfüggvényekben a Spark-tulajdonságok konfigurálásához adatfolyamokhoz, nézetekhez vagy táblákhoz. Lásd Python DLT-tulajdonságokat.

Spark-tulajdonságok konfigurálása kiszolgáló nélküli jegyzetfüzetekhez és feladatokhoz

A megszakítás nélküli számítás nem támogatja a legtöbb Spark-tulajdonság beállítását jegyzetfüzetekhez vagy feladatokhoz. A következő tulajdonságokat konfigurálhatja:

Ingatlan	Alapértelmezett	Leírás
`spark.databricks.execution.timeout`	`9000`	A Spark Connect-lekérdezések végrehajtási időtúllépése másodpercben. Az alapértelmezett érték csak a kiszolgáló nélküli számításon futó jegyzetfüzetekre érvényes. A kiszolgáló nélküli számítási és számítási feladatok normál hozzáférési módban való futtatása esetén nincs időtúllépés, kivéve, ha ez a tulajdonság be van állítva.
`spark.sql.legacy.timeParserPolicy`	`EXCEPTION`	Az időelemző politika.
`spark.sql.session.timeZone`	`Etc/UTC`	A munkamenet helyi időzónájának azonosítója régióalapú zónaazonosítók vagy zónaeltolások formájában.
`spark.sql.shuffle.partitions`	`auto`	Az illesztések vagy aggregációk adatainak összevonásakor használandó partíciók alapértelmezett száma.
`spark.sql.ansi.enabled`	`true`	Ha igaz, a Spark SQL ANSI-kompatibilis dialektust használ a Hive-kompatibilis helyett.

Spark-konfiguráció aktuális beállításának lekérése

A Spark-konfiguráció aktuális beállításának áttekintéséhez használja az alábbi szintaxist:

spark.conf.get("configuration_name")

Megosztás a következőn keresztül: