DLT-tulajdonságok referenciája
Ez a cikk az Azure Databricks DLT JSON-beállítási specifikációjának és táblázattulajdonságainak ismertetését tartalmazza. A különböző tulajdonságok és konfigurációk használatáról az alábbi cikkekben olvashat bővebben:
DLT-folyamatkonfigurációk
Mezők |
---|
id Típus: string Ennek a csővezetéknek a globálisan egyedi azonosítója. Az azonosítót a rendszer rendeli hozzá, és nem módosítható. |
name Típus: string A felhasználóbarát név ehhez a csővezetékhez. A név a folyamatfeladatok azonosítására használható a felhasználói felületen. |
configuration Típus: object A folyamatot futtató fürt Spark-konfigurációjához hozzáadandó beállítások választható listája. Ezeket a beállításokat a DLT-futtatókörnyezet olvassa be, és a Spark-konfiguráción keresztül futtathatja a lekérdezéseket. Az elemeket key:value párként kell formázni. |
libraries Típus: array of objects A folyamatkódot és a szükséges összetevőket tartalmazó jegyzetfüzetek tömbje. |
clusters Típus: array of objects A csővezeték futtatásához szükséges fürtspecifikációk tömbje. Ha ez nincs megadva, a pipelinek automatikusan kiválasztják az alapértelmezett fürtkonfigurációt a pipeline-hoz. |
development Típus: boolean Egy jelző, amely azt jelzi, hogy a pipeline-t futtatni kell-e vagy sem. development vagy production mód.Az alapértelmezett érték a true |
notifications Típus: array of objects Egy opcionális specifikációkat tartalmazó tömb e-mail értesítésekhez, amikor egy folyamatfrissítés befejeződik, újrapróbálható hibával meghiúsul, nem újrapróbálható hibával meghiúsul, vagy egy folyamat kudarcot vall. |
continuous Típus: boolean Azt jelző zászló, hogy a csővezeték folyamatosan fusson-e. Az alapértelmezett érték a false . |
catalog Típus: string A folyamat alapértelmezett katalógusának neve, ahol a folyamat összes adathalmaza és metaadatai közzé lesznek téve. Ennek az értéknek a beállítása lehetővé teszi a Unity Catalog használatát a folyamathoz. Ha nincs beállítva, a csővezeték a storage helyen található régi Hive metaadattárban teszi közzé.Örökölt közzétételi módban adja meg a célsémát tartalmazó katalógust, amelyben az aktuális folyamat összes adathalmaza közzé lesz téve. Lásd: LIVE séma (régi változat). |
schema Típus: string A folyamat alapértelmezett sémájának neve, amelyben a folyamat összes adathalmaza és metaadatai alapértelmezés szerint közzé vannak téve. Lásd: Célkatalógus és sémabeállítása. |
target (örökölt)Típus: string Annak a célsémanak a neve, amelyben az aktuális folyamatban definiált összes adathalmaz közzé lesz téve. A target beállítása schema helyett az örökölt közzétételi mód használatára konfigurálja a folyamatot. Lásd: LIVE séma (örökölt). |
storage (örökölt)Típus: string Egy hely a DBFS-en vagy a felhőbeli tárolóban, ahol a folyamat végrehajtásához szükséges kimeneti adatok és metaadatok tárolódnak. A táblák és metaadatok ennek a helynek az alkönyvtáraiban vannak tárolva. Ha a storage beállítás nincs megadva, a rendszer alapértelmezés szerint a dbfs:/pipelines/ egy helyét választja ki.A storage beállítás nem módosítható a pipeline létrehozása után. |
channel Típus: string A használni kívánt DLT-futtatókörnyezet verziója. A támogatott értékek a következők:
A channel mező megadása nem kötelező. Az alapértelmezett érték a következő:current . A Databricks az aktuális futtatókörnyezeti verzió használatát javasolja éles számítási feladatokhoz. |
edition Írja be string A folyamat futtatásához szükséges DLT-termékverzió. Ezzel a beállítással a folyamat követelményei alapján kiválaszthatja a legjobb termékkiadást:
A edition mező megadása nem kötelező. Az alapértelmezett érték a következő:ADVANCED . |
photon Típus: boolean Egy zászló, amely jelzi, hogy a csővezeték futtatásához használjuk-e a Mi az a Photon?-t. A Photon az Azure Databricks nagy teljesítményű Spark-motorja. A Photon-funkcióval rendelkező csővezetékek más tarifával kerülnek számlázásra, mint a nem Photon csővezetékek. A photon mező megadása nem kötelező. Az alapértelmezett érték a false . |
pipelines.maxFlowRetryAttempts Típus: int Ha egy újrapróbálkozási hiba történik a pipeline frissítése során, ez a maximális újrapróbálkozások száma a pipeline frissítés sikertelensége előtt. Alapértelmezett: Két újrapróbálkozási kísérlet. Újrapróbálkozási hiba esetén a DLT-futtatókörnyezet háromszor próbálja meg futtatni a folyamatot, beleértve az eredeti kísérletet is. |
pipelines.numUpdateRetryAttempts Típus: int Ha egy frissítés során újrapróbálkozási hiba történik, ez a maximális számú alkalom, amikor újrapróbálkozza a frissítést, mielőtt véglegesen meghiúsul a frissítés. Az újrapróbálkozás teljes frissítésként fut. Ez a paraméter csak termelési módban futó csővezetékekre vonatkozik. Az újrapróbálkozások nem kísérelhetők meg, ha a folyamat fejlesztési módban vagy Validate frissítés futtatásakor fut.Alapértelmezett:
|
DLT-tábla tulajdonságai
Az Delta Lakeáltal támogatott táblatulajdonságok mellett az alábbi táblázattulajdonságokat is beállíthatja.
Tábla tulajdonságok |
---|
pipelines.autoOptimize.managed Alapértelmezett: true Engedélyezi vagy letiltja a tábla automatikusan ütemezett optimalizálását. |
pipelines.autoOptimize.zOrderCols Alapértelmezett: Nincs Nem kötelező karakterlánc, amely az oszlopnevek vesszővel tagolt listáját tartalmazza, a táblázat z-sorrendbe rendezéséhez. Például pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Alapértelmezett: true Azt szabályozza, hogy a tábla teljes frissítése engedélyezett-e. |
csővezetékek eseményindító időköze
A teljes DLT-folyamathoz vagy adatkészlet-deklaráció részeként megadhatja a folyamat triggerintervallumát. Lásd: Folyamatos folyamatok eseményindító-időközének beállítása.
pipelines.trigger.interval |
---|
Az alapértelmezett érték a folyamat típusán alapul:
Az érték egy szám és az időegység. Az érvényes időegységek a következők:
Az érték meghatározásakor használhatja a többes vagy többes számegységet, például:
|
nem felhasználó által beállítható klaszter attribútumok
Mivel a DLT kezeli a fürtök életciklusait, a fürt számos beállítását a DLT határozza meg, és a felhasználók sem a csővezeték konfigurációjában, sem a csővezeték által használt fürtszabályzatban nem tudják ezeket manuálisan beállítani. Az alábbi táblázat felsorolja ezeket a beállításokat, és hogy miért nem állíthatók be manuálisan.
Mezők |
---|
cluster_name A DLT beállítja a folyamatfrissítések futtatásához használt fürtök nevét. Ezek a nevek nem bírálhatók felül. |
data_security_mode access_mode Ezeket az értékeket a rendszer automatikusan beállítja. |
spark_version A DLT-fürtök a Databricks Runtime egyéni verzióján futnak, amely folyamatosan frissül a legújabb funkciókkal. A Spark verziója a Databricks Runtime-verzióval van csomagolva, és nem bírálható felül. |
autotermination_minutes Mivel a DLT kezeli a fürt automatikus leállítását és az újrafelhasználási logikát, a fürt automatikus leállási ideje nem bírálható felül. |
runtime_engine Bár ezt a mezőt úgy szabályozhatja, hogy engedélyezi a Photon funkciót a folyamat során, ezt az értéket nem állíthatja be közvetlenül. |
effective_spark_version Ezt az értéket a rendszer automatikusan beállítja. |
cluster_source Ezt a mezőt a rendszer állítja be, és írásvédett. |
docker_image Mivel a DLT kezeli a fürtök életciklusát, nem használhat egyéni konténert csővezeték-fürtökkel. |
workload_type Ezt az értéket a rendszer állítja be, és nem bírálható felül. |