DLT-tulajdonságok referenciája

Cikk
03/11/2025

Ez a cikk az Azure Databricks DLT JSON-beállítási specifikációjának és táblázattulajdonságainak ismertetését tartalmazza. A különböző tulajdonságok és konfigurációk használatáról az alábbi cikkekben olvashat bővebben:

DLT-folyamatkonfigurációk

Mezők
`id` Típus: `string` Ennek a csővezetéknek a globálisan egyedi azonosítója. Az azonosítót a rendszer rendeli hozzá, és nem módosítható.
`name` Típus: `string` A felhasználóbarát név ehhez a csővezetékhez. A név a folyamatfeladatok azonosítására használható a felhasználói felületen.
`configuration` Típus: `object` A folyamatot futtató fürt Spark-konfigurációjához hozzáadandó beállítások választható listája. Ezeket a beállításokat a DLT-futtatókörnyezet olvassa be, és a Spark-konfiguráción keresztül futtathatja a lekérdezéseket. Az elemeket `key:value` párként kell formázni.
`libraries` Típus: `array of objects` A folyamatkódot és a szükséges összetevőket tartalmazó jegyzetfüzetek tömbje.
`clusters` Típus: `array of objects` A csővezeték futtatásához szükséges fürtspecifikációk tömbje. Ha ez nincs megadva, a pipelinek automatikusan kiválasztják az alapértelmezett fürtkonfigurációt a pipeline-hoz.
`development` Típus: `boolean` Egy jelző, amely azt jelzi, hogy a pipeline-t futtatni kell-e vagy sem. `development` vagy `production` mód. Az alapértelmezett érték a `true`
`notifications` Típus: `array of objects` Egy opcionális specifikációkat tartalmazó tömb e-mail értesítésekhez, amikor egy folyamatfrissítés befejeződik, újrapróbálható hibával meghiúsul, nem újrapróbálható hibával meghiúsul, vagy egy folyamat kudarcot vall.
`continuous` Típus: `boolean` Azt jelző zászló, hogy a csővezeték folyamatosan fusson-e. Az alapértelmezett érték a `false`.
`catalog` Típus: `string` A folyamat alapértelmezett katalógusának neve, ahol a folyamat összes adathalmaza és metaadatai közzé lesznek téve. Ennek az értéknek a beállítása lehetővé teszi a Unity Catalog használatát a folyamathoz. Ha nincs beállítva, a csővezeték a `storage` helyen található régi Hive metaadattárban teszi közzé. Örökölt közzétételi módban adja meg a célsémát tartalmazó katalógust, amelyben az aktuális folyamat összes adathalmaza közzé lesz téve. Lásd: LIVE séma (régi változat).
`schema` Típus: `string` A folyamat alapértelmezett sémájának neve, amelyben a folyamat összes adathalmaza és metaadatai alapértelmezés szerint közzé vannak téve. Lásd: Célkatalógus és sémabeállítása.
`target` (örökölt) Típus: `string` Annak a célsémanak a neve, amelyben az aktuális folyamatban definiált összes adathalmaz közzé lesz téve. A `target` beállítása `schema` helyett az örökölt közzétételi mód használatára konfigurálja a folyamatot. Lásd: LIVE séma (örökölt).
`storage` (örökölt) Típus: `string` Egy hely a DBFS-en vagy a felhőbeli tárolóban, ahol a folyamat végrehajtásához szükséges kimeneti adatok és metaadatok tárolódnak. A táblák és metaadatok ennek a helynek az alkönyvtáraiban vannak tárolva. Ha a `storage` beállítás nincs megadva, a rendszer alapértelmezés szerint a `dbfs:/pipelines/`egy helyét választja ki. A `storage` beállítás nem módosítható a pipeline létrehozása után.
`channel` Típus: `string` A használni kívánt DLT-futtatókörnyezet verziója. A támogatott értékek a következők: `preview` a folyamatláncot tesztelni a futtatókörnyezet verziójának közelgő változásaival. `current` az aktuális futtatókörnyezeti verzió használatára. A `channel` mező megadása nem kötelező. Az alapértelmezett érték a következő: `current`. A Databricks az aktuális futtatókörnyezeti verzió használatát javasolja éles számítási feladatokhoz.
`edition` Írja be `string` A folyamat futtatásához szükséges DLT-termékverzió. Ezzel a beállítással a folyamat követelményei alapján kiválaszthatja a legjobb termékkiadást: `CORE` a folyamatos adatbeolvasási feladatok futtatásához. `PRO` streameléses betöltési és változáskövető adatrögzítési (CDC) számítási feladatok futtatásához. `ADVANCED` adatfolyam betöltési számítási feladatok, CDC alapú számítási feladatok és olyan számítási feladatok futtatásához, amelyek DLT-elvárásokat igényelnek az adatminőségi korlátozások kikényszerítéséhez. A `edition` mező megadása nem kötelező. Az alapértelmezett érték a következő: `ADVANCED`.
`photon` Típus: `boolean` Egy zászló, amely jelzi, hogy a csővezeték futtatásához használjuk-e a Mi az a Photon?-t. A Photon az Azure Databricks nagy teljesítményű Spark-motorja. A Photon-funkcióval rendelkező csővezetékek más tarifával kerülnek számlázásra, mint a nem Photon csővezetékek. A `photon` mező megadása nem kötelező. Az alapértelmezett érték a `false`.
`pipelines.maxFlowRetryAttempts` Típus: `int` Ha egy újrapróbálkozási hiba történik a pipeline frissítése során, ez a maximális újrapróbálkozások száma a pipeline frissítés sikertelensége előtt. Alapértelmezett: Két újrapróbálkozási kísérlet. Újrapróbálkozási hiba esetén a DLT-futtatókörnyezet háromszor próbálja meg futtatni a folyamatot, beleértve az eredeti kísérletet is.
`pipelines.numUpdateRetryAttempts` Típus: `int` Ha egy frissítés során újrapróbálkozási hiba történik, ez a maximális számú alkalom, amikor újrapróbálkozza a frissítést, mielőtt véglegesen meghiúsul a frissítés. Az újrapróbálkozás teljes frissítésként fut. Ez a paraméter csak termelési módban futó csővezetékekre vonatkozik. Az újrapróbálkozások nem kísérelhetők meg, ha a folyamat fejlesztési módban vagy `Validate` frissítés futtatásakor fut. Alapértelmezett: Öt az aktivált csővezetékekhez. Korlátlan a folyamatos csővezetékekhez.

DLT-tábla tulajdonságai

Az Delta Lakeáltal támogatott táblatulajdonságok mellett az alábbi táblázattulajdonságokat is beállíthatja.

Tábla tulajdonságok
`pipelines.autoOptimize.managed` Alapértelmezett: `true` Engedélyezi vagy letiltja a tábla automatikusan ütemezett optimalizálását.
`pipelines.autoOptimize.zOrderCols` Alapértelmezett: Nincs Nem kötelező karakterlánc, amely az oszlopnevek vesszővel tagolt listáját tartalmazza, a táblázat z-sorrendbe rendezéséhez. Például `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` Alapértelmezett: `true` Azt szabályozza, hogy a tábla teljes frissítése engedélyezett-e.

csővezetékek eseményindító időköze

A teljes DLT-folyamathoz vagy adatkészlet-deklaráció részeként megadhatja a folyamat triggerintervallumát. Lásd: Folyamatos folyamatok eseményindító-időközének beállítása.

`pipelines.trigger.interval`
Az alapértelmezett érték a folyamat típusán alapul: Öt másodperc a streamelési lekérdezésekhez. Egy perc a teljes lekérdezésekhez, ha az összes bemeneti adat Delta-forrásokból származik. Tíz perc a teljes lekérdezésekhez, ha egyes adatforrások nem delta jellegűek. Az érték egy szám és az időegység. Az érvényes időegységek a következők: `second`, `seconds` `minute`, `minutes` `hour`, `hours` `day`, `days` Az érték meghatározásakor használhatja a többes vagy többes számegységet, például: `{"pipelines.trigger.interval" : "1 hour"}` `{"pipelines.trigger.interval" : "10 seconds"}` `{"pipelines.trigger.interval" : "30 second"}` `{"pipelines.trigger.interval" : "1 minute"}` `{"pipelines.trigger.interval" : "10 minutes"}` `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

Az alapértelmezett érték a folyamat típusán alapul:

Öt másodperc a streamelési lekérdezésekhez.
Egy perc a teljes lekérdezésekhez, ha az összes bemeneti adat Delta-forrásokból származik.
Tíz perc a teljes lekérdezésekhez, ha egyes adatforrások nem delta jellegűek.

Az érték egy szám és az időegység. Az érvényes időegységek a következők:

second, seconds
minute, minutes
hour, hours
day, days

Az érték meghatározásakor használhatja a többes vagy többes számegységet, például:

{"pipelines.trigger.interval" : "1 hour"}
{"pipelines.trigger.interval" : "10 seconds"}
{"pipelines.trigger.interval" : "30 second"}
{"pipelines.trigger.interval" : "1 minute"}
{"pipelines.trigger.interval" : "10 minutes"}
{"pipelines.trigger.interval" : "10 minute"}

nem felhasználó által beállítható klaszter attribútumok

Mivel a DLT kezeli a fürtök életciklusait, a fürt számos beállítását a DLT határozza meg, és a felhasználók sem a csővezeték konfigurációjában, sem a csővezeték által használt fürtszabályzatban nem tudják ezeket manuálisan beállítani. Az alábbi táblázat felsorolja ezeket a beállításokat, és hogy miért nem állíthatók be manuálisan.

Mezők
`cluster_name` A DLT beállítja a folyamatfrissítések futtatásához használt fürtök nevét. Ezek a nevek nem bírálhatók felül.
`data_security_mode` `access_mode` Ezeket az értékeket a rendszer automatikusan beállítja.
`spark_version` A DLT-fürtök a Databricks Runtime egyéni verzióján futnak, amely folyamatosan frissül a legújabb funkciókkal. A Spark verziója a Databricks Runtime-verzióval van csomagolva, és nem bírálható felül.
`autotermination_minutes` Mivel a DLT kezeli a fürt automatikus leállítását és az újrafelhasználási logikát, a fürt automatikus leállási ideje nem bírálható felül.
`runtime_engine` Bár ezt a mezőt úgy szabályozhatja, hogy engedélyezi a Photon funkciót a folyamat során, ezt az értéket nem állíthatja be közvetlenül.
`effective_spark_version` Ezt az értéket a rendszer automatikusan beállítja.
`cluster_source` Ezt a mezőt a rendszer állítja be, és írásvédett.
`docker_image` Mivel a DLT kezeli a fürtök életciklusát, nem használhat egyéni konténert csővezeték-fürtökkel.
`workload_type` Ezt az értéket a rendszer állítja be, és nem bírálható felül.

Megosztás a következőn keresztül:

DLT-tulajdonságok referenciája

DLT-folyamatkonfigurációk

DLT-tábla tulajdonságai

csővezetékek eseményindító időköze

nem felhasználó által beállítható klaszter attribútumok

Visszajelzés

További források