Megosztás a következőn keresztül:


DLT-tulajdonságok referenciája

Ez a cikk az Azure Databricks DLT JSON-beállítási specifikációjának és táblázattulajdonságainak ismertetését tartalmazza. A különböző tulajdonságok és konfigurációk használatáról az alábbi cikkekben olvashat bővebben:

DLT-folyamatkonfigurációk

Mezők
id
Típus: string
Ennek a csővezetéknek a globálisan egyedi azonosítója. Az azonosítót a rendszer rendeli hozzá, és nem módosítható.
name
Típus: string
A felhasználóbarát név ehhez a csővezetékhez. A név a folyamatfeladatok azonosítására használható a felhasználói felületen.
configuration
Típus: object
A folyamatot futtató fürt Spark-konfigurációjához hozzáadandó beállítások választható listája. Ezeket a beállításokat a DLT-futtatókörnyezet olvassa be, és a Spark-konfiguráción keresztül futtathatja a lekérdezéseket.
Az elemeket key:value párként kell formázni.
libraries
Típus: array of objects
A folyamatkódot és a szükséges összetevőket tartalmazó jegyzetfüzetek tömbje.
clusters
Típus: array of objects
A csővezeték futtatásához szükséges fürtspecifikációk tömbje.
Ha ez nincs megadva, a pipelinek automatikusan kiválasztják az alapértelmezett fürtkonfigurációt a pipeline-hoz.
development
Típus: boolean
Egy jelző, amely azt jelzi, hogy a pipeline-t futtatni kell-e vagy sem.
development vagy production mód.
Az alapértelmezett érték a true
notifications
Típus: array of objects
Egy opcionális specifikációkat tartalmazó tömb e-mail értesítésekhez, amikor egy folyamatfrissítés befejeződik, újrapróbálható hibával meghiúsul, nem újrapróbálható hibával meghiúsul, vagy egy folyamat kudarcot vall.
continuous
Típus: boolean
Azt jelző zászló, hogy a csővezeték folyamatosan fusson-e.
Az alapértelmezett érték a false.
catalog
Típus: string
A folyamat alapértelmezett katalógusának neve, ahol a folyamat összes adathalmaza és metaadatai közzé lesznek téve. Ennek az értéknek a beállítása lehetővé teszi a Unity Catalog használatát a folyamathoz.
Ha nincs beállítva, a csővezeték a storage helyen található régi Hive metaadattárban teszi közzé.
Örökölt közzétételi módban adja meg a célsémát tartalmazó katalógust, amelyben az aktuális folyamat összes adathalmaza közzé lesz téve. Lásd: LIVE séma (régi változat).
schema
Típus: string
A folyamat alapértelmezett sémájának neve, amelyben a folyamat összes adathalmaza és metaadatai alapértelmezés szerint közzé vannak téve. Lásd: Célkatalógus és sémabeállítása.
target (örökölt)
Típus: string
Annak a célsémanak a neve, amelyben az aktuális folyamatban definiált összes adathalmaz közzé lesz téve.
A target beállítása schema helyett az örökölt közzétételi mód használatára konfigurálja a folyamatot. Lásd: LIVE séma (örökölt).
storage (örökölt)
Típus: string
Egy hely a DBFS-en vagy a felhőbeli tárolóban, ahol a folyamat végrehajtásához szükséges kimeneti adatok és metaadatok tárolódnak. A táblák és metaadatok ennek a helynek az alkönyvtáraiban vannak tárolva.
Ha a storage beállítás nincs megadva, a rendszer alapértelmezés szerint a dbfs:/pipelines/egy helyét választja ki.
A storage beállítás nem módosítható a pipeline létrehozása után.
channel
Típus: string
A használni kívánt DLT-futtatókörnyezet verziója. A támogatott értékek a következők:
  • preview a folyamatláncot tesztelni a futtatókörnyezet verziójának közelgő változásaival.
  • current az aktuális futtatókörnyezeti verzió használatára.

A channel mező megadása nem kötelező. Az alapértelmezett érték a következő:
current. A Databricks az aktuális futtatókörnyezeti verzió használatát javasolja éles számítási feladatokhoz.
edition
Írja be string
A folyamat futtatásához szükséges DLT-termékverzió. Ezzel a beállítással a folyamat követelményei alapján kiválaszthatja a legjobb termékkiadást:
  • CORE a folyamatos adatbeolvasási feladatok futtatásához.
  • PRO streameléses betöltési és változáskövető adatrögzítési (CDC) számítási feladatok futtatásához.
  • ADVANCED adatfolyam betöltési számítási feladatok, CDC alapú számítási feladatok és olyan számítási feladatok futtatásához, amelyek DLT-elvárásokat igényelnek az adatminőségi korlátozások kikényszerítéséhez.

A edition mező megadása nem kötelező. Az alapértelmezett érték a következő:
ADVANCED.
photon
Típus: boolean
Egy zászló, amely jelzi, hogy a csővezeték futtatásához használjuk-e a Mi az a Photon?-t. A Photon az Azure Databricks nagy teljesítményű Spark-motorja. A Photon-funkcióval rendelkező csővezetékek más tarifával kerülnek számlázásra, mint a nem Photon csővezetékek.
A photon mező megadása nem kötelező. Az alapértelmezett érték a false.
pipelines.maxFlowRetryAttempts
Típus: int
Ha egy újrapróbálkozási hiba történik a pipeline frissítése során, ez a maximális újrapróbálkozások száma a pipeline frissítés sikertelensége előtt.
Alapértelmezett: Két újrapróbálkozási kísérlet. Újrapróbálkozási hiba esetén a DLT-futtatókörnyezet háromszor próbálja meg futtatni a folyamatot, beleértve az eredeti kísérletet is.
pipelines.numUpdateRetryAttempts
Típus: int
Ha egy frissítés során újrapróbálkozási hiba történik, ez a maximális számú alkalom, amikor újrapróbálkozza a frissítést, mielőtt véglegesen meghiúsul a frissítés. Az újrapróbálkozás teljes frissítésként fut.
Ez a paraméter csak termelési módban futó csővezetékekre vonatkozik. Az újrapróbálkozások nem kísérelhetők meg, ha a folyamat fejlesztési módban vagy Validate frissítés futtatásakor fut.
Alapértelmezett:
  • Öt az aktivált csővezetékekhez.
  • Korlátlan a folyamatos csővezetékekhez.

DLT-tábla tulajdonságai

Az Delta Lakeáltal támogatott táblatulajdonságok mellett az alábbi táblázattulajdonságokat is beállíthatja.

Tábla tulajdonságok
pipelines.autoOptimize.managed
Alapértelmezett: true
Engedélyezi vagy letiltja a tábla automatikusan ütemezett optimalizálását.
pipelines.autoOptimize.zOrderCols
Alapértelmezett: Nincs
Nem kötelező karakterlánc, amely az oszlopnevek vesszővel tagolt listáját tartalmazza, a táblázat z-sorrendbe rendezéséhez. Például pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed
Alapértelmezett: true
Azt szabályozza, hogy a tábla teljes frissítése engedélyezett-e.

csővezetékek eseményindító időköze

A teljes DLT-folyamathoz vagy adatkészlet-deklaráció részeként megadhatja a folyamat triggerintervallumát. Lásd: Folyamatos folyamatok eseményindító-időközének beállítása.

pipelines.trigger.interval
Az alapértelmezett érték a folyamat típusán alapul:
  • Öt másodperc a streamelési lekérdezésekhez.
  • Egy perc a teljes lekérdezésekhez, ha az összes bemeneti adat Delta-forrásokból származik.
  • Tíz perc a teljes lekérdezésekhez, ha egyes adatforrások nem delta jellegűek.

Az érték egy szám és az időegység. Az érvényes időegységek a következők:
  • second, seconds
  • minute, minutes
  • hour, hours
  • day, days

Az érték meghatározásakor használhatja a többes vagy többes számegységet, például:
  • {"pipelines.trigger.interval" : "1 hour"}
  • {"pipelines.trigger.interval" : "10 seconds"}
  • {"pipelines.trigger.interval" : "30 second"}
  • {"pipelines.trigger.interval" : "1 minute"}
  • {"pipelines.trigger.interval" : "10 minutes"}
  • {"pipelines.trigger.interval" : "10 minute"}

nem felhasználó által beállítható klaszter attribútumok

Mivel a DLT kezeli a fürtök életciklusait, a fürt számos beállítását a DLT határozza meg, és a felhasználók sem a csővezeték konfigurációjában, sem a csővezeték által használt fürtszabályzatban nem tudják ezeket manuálisan beállítani. Az alábbi táblázat felsorolja ezeket a beállításokat, és hogy miért nem állíthatók be manuálisan.

Mezők
cluster_name
A DLT beállítja a folyamatfrissítések futtatásához használt fürtök nevét. Ezek a nevek nem bírálhatók felül.
data_security_mode
access_mode
Ezeket az értékeket a rendszer automatikusan beállítja.
spark_version
A DLT-fürtök a Databricks Runtime egyéni verzióján futnak, amely folyamatosan frissül a legújabb funkciókkal. A Spark verziója a Databricks Runtime-verzióval van csomagolva, és nem bírálható felül.
autotermination_minutes
Mivel a DLT kezeli a fürt automatikus leállítását és az újrafelhasználási logikát, a fürt automatikus leállási ideje nem bírálható felül.
runtime_engine
Bár ezt a mezőt úgy szabályozhatja, hogy engedélyezi a Photon funkciót a folyamat során, ezt az értéket nem állíthatja be közvetlenül.
effective_spark_version
Ezt az értéket a rendszer automatikusan beállítja.
cluster_source
Ezt a mezőt a rendszer állítja be, és írásvédett.
docker_image
Mivel a DLT kezeli a fürtök életciklusát, nem használhat egyéni konténert csővezeték-fürtökkel.
workload_type
Ezt az értéket a rendszer állítja be, és nem bírálható felül.