Spark-konfigurációs tulajdonságok beállítása az Azure Databricksben
Beállíthatja a Spark konfigurációs tulajdonságait (Spark confs) a számítási környezet beállításainak testreszabásához.
A Databricks általában nem javasolja a legtöbb Spark-tulajdonság konfigurálását. Különösen a nyílt forráskódú Apache Sparkból való migráláskor vagy a Databricks Runtime-verziók frissítésekor az örökölt Spark-konfigurációk felülbírálhatják a számítási feladatokat optimalizáló új alapértelmezett viselkedéseket.
A Spark-tulajdonságok által szabályozott számos viselkedés esetén az Azure Databricks emellett lehetőséget biztosít a táblaszintű viselkedés engedélyezésére vagy az egyéni viselkedés írási művelet részeként történő konfigurálására. A sémafejlődést például korábban egy Spark-tulajdonság szabályozta, de most már az SQL, a Python és a Scala is rendelkezik lefedettséggel. Nézd meg a séma evolúció szintaxisát azegyesítéshez.
Spark-tulajdonságok konfigurálása jegyzetfüzetekhez és feladatokhoz
Beállíthatja a Spark-tulajdonságokat a jegyzetfüzetekhez és feladatokhoz. A konfiguráció hatóköre a beállítás módjától függ.
Konfigurált tulajdonságok: | Vonatkozik: |
---|---|
Számítási konfiguráció használata | Minden jegyzetfüzet és feladat a számítási erőforrással fut. |
Jegyzetfüzeten belül | Csak az aktuális jegyzetfüzethez tartozó SparkSession-példány. |
A Spark-tulajdonságok számítási szinten történő konfigurálásával kapcsolatos utasításokért lásd a Spark konfigurációját.
Ha spark-tulajdonságot szeretne beállítani egy jegyzetfüzetben, használja a következő szintaxist:
SQL
SET spark.sql.ansi.enabled = true
Python
spark.conf.set("spark.sql.ansi.enabled", "true")
Scala
spark.conf.set("spark.sql.ansi.enabled", "true")
Spark-tulajdonságok konfigurálása a Databricks SQL-ben
A Databricks SQL lehetővé teszi a rendszergazdák számára, hogy a Munkaterület beállításai menüben konfigurálják a Spark-tulajdonságokat az adathozzáféréshez. Lásd adatelérési konfigurációkat
Az adatelérési konfigurációkon kívül a Databricks SQL csak néhány Spark beállítást tesz lehetővé, amelyeket az egyszerűség kedvéért rövidebb nevekre átneveztek. Lásd konfigurációs paramétereket.
A legtöbb támogatott SQL-konfiguráció esetében felülbírálhatja az aktuális munkamenet globális viselkedését. Az alábbi példa kikapcsolja az ANSI-módot:
SET ANSI_MODE = false
Spark-tulajdonságok konfigurálása DLT-folyamatokhoz
A DLT lehetővé teszi a Spark-tulajdonságok konfigurálását egy folyamathoz, egy folyamathoz konfigurált számítási erőforráshoz vagy az egyes folyamatokhoz, materializált nézetekhez vagy streamelési táblákhoz.
A folyamat- és számítási Spark-tulajdonságokat a felhasználói felületen vagy a JSON-ban állíthatja be. Lásd: Egy DLT-folyamat konfigurálása.
Használja a spark_conf
lehetőséget a DLT dekorátorfüggvényekben a Spark-tulajdonságok konfigurálásához adatfolyamokhoz, nézetekhez vagy táblákhoz. Lásd Python DLT-tulajdonságokat.
Spark-tulajdonságok konfigurálása kiszolgáló nélküli jegyzetfüzetekhez és feladatokhoz
A megszakítás nélküli számítás nem támogatja a legtöbb Spark-tulajdonság beállítását jegyzetfüzetekhez vagy feladatokhoz. A következő tulajdonságokat konfigurálhatja:
Ingatlan | Alapértelmezett | Leírás |
---|---|---|
spark.databricks.execution.timeout |
9000 |
A Spark Connect-lekérdezések végrehajtási időtúllépése másodpercben. Az alapértelmezett érték csak a kiszolgáló nélküli számításon futó jegyzetfüzetekre érvényes. A kiszolgáló nélküli számítási és számítási feladatok normál hozzáférési módban való futtatása esetén nincs időtúllépés, kivéve, ha ez a tulajdonság be van állítva. |
spark.sql.legacy.timeParserPolicy |
EXCEPTION |
Az időelemző politika. |
spark.sql.session.timeZone |
Etc/UTC |
A munkamenet helyi időzónájának azonosítója régióalapú zónaazonosítók vagy zónaeltolások formájában. |
spark.sql.shuffle.partitions |
auto |
Az illesztések vagy aggregációk adatainak összevonásakor használandó partíciók alapértelmezett száma. |
spark.sql.ansi.enabled |
true |
Ha igaz, a Spark SQL ANSI-kompatibilis dialektust használ a Hive-kompatibilis helyett. |
Spark-konfiguráció aktuális beállításának lekérése
A Spark-konfiguráció aktuális beállításának áttekintéséhez használja az alábbi szintaxist:
spark.conf.get("configuration_name")