Odkaz na vlastnosti DLT

Článek
03/12/2025

Tento článek obsahuje referenční informace o specifikaci nastavení DLT JSON a vlastnostech tabulky v Azure Databricks. Další podrobnosti o používání těchto různých vlastností a konfigurací najdete v následujících článcích:

Nastavit datový tok DLT
Pipelines rozhraní REST API

konfigurace kanálů DLT

Pole
`id` Typ: `string` Globálně jedinečný identifikátor pro tento kanál. Identifikátor je přiřazen systémem a nelze ho změnit.
`name` Typ: `string` Uživatelsky přívětivý název tohoto kanálu. Název lze použít k identifikaci úloh kanálu v uživatelském rozhraní.
`configuration` Typ: `object` Volitelný seznam nastavení, která mají být přidána do konfigurace Sparku clusteru, jenž bude spouštět datový tok. Toto nastavení čte modul runtime DLT a jsou k dispozici pro dotazy potrubí prostřednictvím konfigurace Sparku. Prvky musí být formátované jako dvojice znaků `key:value`.
`libraries` Typ: `array of objects` Pole poznámkových bloků obsahující kód kanálu a požadované artefakty.
`clusters` Typ: `array of objects` Pole specifikací pro clustery ke spuštění kanálu. Pokud není zadaný, kanály automaticky vyberou výchozí konfiguraci clusteru pro kanál.
`development` Typ: `boolean` Příznak označující, zda se má potrubí spustit v `development` nebo `production` režim. Výchozí hodnota je `true`
`notifications` Typ: `array of objects` Volitelné pole specifikací pro e-mailová oznámení, pokud se aktualizace pipeline dokončí, selže s chybou, kterou lze opakovat, selže s chybou, kterou nelze opakovat, nebo pokud selže tok.
`continuous` Typ: `boolean` Příznak udávající, zda má být pipeline provozována nepřetržitě. Výchozí hodnota je `false`.
`catalog` Typ: `string` Název výchozího katalogu pro kanál, kde jsou publikovány všechny datové sady a metadata kanálu. Nastavením této hodnoty povolíte katalog Unity pro datový tok. Pokud není nastaveno, datový tok se publikuje do zastaralého metastore Hive pomocí umístění zadaného v `storage`. V režimu původního publikování určuje katalog obsahující cílové schéma, kde jsou publikovány všechny datové sady z aktuální pipeliny. Viz LIVE schema (starší verze).
`schema` Typ: `string` Název výchozího schématu kanálu, kde jsou ve výchozím nastavení publikovány všechny datové sady a metadata kanálu. Viz Nastavení cílového katalogu a schématu.
`target` (starší verze) Typ: `string` Název cílového schématu, ve kterém jsou publikovány všechny datové sady definované v aktuálním potrubí. Nastavení `target` místo `schema` nakonfiguruje kanál tak, aby používal starší režim publikování. Viz LIVE schema (starší verze).
`storage` (starší verze) Typ: `string` Umístění v DBFS nebo cloudovém úložišti, kde se ukládají výstupní data a metadata požadovaná ke spuštění kanálu. Tabulky a metadata jsou uloženy v podadresářích tohoto umístění. Pokud není zadáno nastavení `storage`, systém nastaví výchozí umístění v `dbfs:/pipelines/`. Nastavení `storage` nelze po vytvoření pipeline změnit.
`channel` Typ: `string` Verze modulu runtime DLT, který se má použít. Podporované hodnoty jsou: `preview` otestovat řetězec s nadcházejícími změnami verze prostředí runtime. `current` pro použití aktuální verze runtime. Pole `channel` je volitelné. Výchozí hodnota je `current`. Databricks doporučuje použít aktuální verzi modulu runtime pro produkční úlohy.
`edition` Typ `string` Edice produktu DLT ke spuštění kanálu. Toto nastavení umožňuje zvolit nejlepší edici produktu na základě požadavků vašeho kanálu: `CORE` pro spouštění úloh zpracování datového proudu. `PRO` ke spouštění úloh pro ingestování streamování a zachytávání změn v datech (CDC). `ADVANCED` ke spouštění streamingových požadavků na ingestování, úloh CDC a operací, které vyžadují DLT očekávání pro vynucení omezení kvality dat. Pole `edition` je volitelné. Výchozí hodnota je `ADVANCED`.
`photon` Typ: `boolean` Příznak oznamující, zda použít Co je Photon? pro spuštění potrubí. Photon je vysoce výkonný modul Spark pro Azure Databricks. Kanály s podporou foton se účtují jinou sazbou než kanály bez foton. Pole `photon` je volitelné. Výchozí hodnota je `false`.
`pipelines.maxFlowRetryAttempts` Typ: `int` Pokud během aktualizace kanálu dojde k opakovanému selhání, je to maximální počet opakování toku před selháním aktualizace kanálu. Výchozí nastavení: Dva pokusy o opakování. Pokud dojde k chybě, kterou lze opakovat, modul runtime DLT se pokusí proces spustit třikrát, včetně původního pokusu.
`pipelines.numUpdateRetryAttempts` Typ: `int` Pokud během aktualizace dojde k opakovanému selhání, je to maximální počet opakování aktualizace před trvalým selháním aktualizace. Opakování se spustí jako úplná aktualizace. Tento parametr platí jenom pro kanály spuštěné v produkčním režimu. Opakování nejsou prováděna, pokud se potrubí spustí v režimu vývoje nebo při spuštění aktualizace `Validate`. Výchozí: Pět pro aktivované kanály. Neomezené pro průběžné kanály.

vlastnosti tabulky DLT

Kromě vlastností tabulky podporovaných Delta Lakemůžete nastavit následující vlastnosti tabulky.

Vlastnosti tabulky
`pipelines.autoOptimize.managed` Výchozí: `true` Povolí nebo zakáže automatickou plánovanou optimalizaci této tabulky.
`pipelines.autoOptimize.zOrderCols` Žádné výchozí nastavení Volitelný řetězec obsahující čárkami oddělený seznam názvů sloupců, podle kterých se tato tabulka řadí. Například `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` Výchozí: `true` Určuje, jestli je pro tuto tabulku povolená úplná aktualizace.

Interval spuštění potrubí

Můžete zadat interval spuštění pro celé DLT potrubí nebo jako součást deklarace datové sady. Viz Nastavení intervalu triggeru pro průběžné kanály.

`pipelines.trigger.interval`
Výchozí hodnota je založená na typu toku: Pět sekund na streamovací dotazy. Minuta pro úplné dotazy, když jsou všechna vstupní data ze zdrojů Delta. Deset minut na úplné dotazy, kdy některé zdroje dat mohou být nedelta. Hodnota je číslo plus časová jednotka. Toto jsou platné časové jednotky: `second`, `seconds` `minute`, `minutes` `hour`, `hours` `day`, `days` Při definování hodnoty můžete použít jednotné číslo nebo jednotku množného čísla, například: `{"pipelines.trigger.interval" : "1 hour"}` `{"pipelines.trigger.interval" : "10 seconds"}` `{"pipelines.trigger.interval" : "30 second"}` `{"pipelines.trigger.interval" : "1 minute"}` `{"pipelines.trigger.interval" : "10 minutes"}` `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

Výchozí hodnota je založená na typu toku:

Pět sekund na streamovací dotazy.
Minuta pro úplné dotazy, když jsou všechna vstupní data ze zdrojů Delta.
Deset minut na úplné dotazy, kdy některé zdroje dat mohou být nedelta.

Hodnota je číslo plus časová jednotka. Toto jsou platné časové jednotky:

second, seconds
minute, minutes
hour, hours
day, days

Při definování hodnoty můžete použít jednotné číslo nebo jednotku množného čísla, například:

{"pipelines.trigger.interval" : "1 hour"}
{"pipelines.trigger.interval" : "10 seconds"}
{"pipelines.trigger.interval" : "30 second"}
{"pipelines.trigger.interval" : "1 minute"}
{"pipelines.trigger.interval" : "10 minutes"}
{"pipelines.trigger.interval" : "10 minute"}

atributy clusteru, které nejsou nastavené uživatelem

Vzhledem k tomu, že DLT spravuje životní cyklus clusteru, mnoho nastavení clusteru je nastaveno knihovnou DLT a uživatelé je nemůžou konfigurovat ručně, a to buď v konfiguraci kanálu, nebo v zásadách clusteru používaných kanálem. Následující tabulka uvádí tato nastavení a důvody, proč je nelze nastavit ručně.

Pole
`cluster_name` DLT nastaví názvy clusterů používaných ke spouštění aktualizací kanálu. Tyto názvy nelze přepsat.
`data_security_mode` `access_mode` Tyto hodnoty jsou automaticky nastaveny systémem.
`spark_version` Clustery DLT běží na vlastní verzi databricks Runtime, která se průběžně aktualizuje tak, aby zahrnovala nejnovější funkce. Verze Sparku je součástí verze Databricks Runtime a nedá se přepsat.
`autotermination_minutes` Vzhledem k tomu, že DLT spravuje automatické ukončení clusteru a logiku opakovaného použití, nelze přepsat čas automatického ukončení clusteru.
`runtime_engine` I když toto pole můžete řídit povolením Funkce Photon pro kanál, nemůžete tuto hodnotu nastavit přímo.
`effective_spark_version` Tato hodnota je automaticky nastavena systémem.
`cluster_source` Toto pole je nastaveno systémem a je jen pro čtení.
`docker_image` Vzhledem k tomu, že DLT spravuje životní cyklus clusteru, nemůžete použít vlastní kontejner s clustery kanálů.
`workload_type` Tato hodnota je nastavena systémem a nelze ji přepsat.

Sdílet prostřednictvím

Odkaz na vlastnosti DLT

konfigurace kanálů DLT

vlastnosti tabulky DLT

Interval spuštění potrubí

atributy clusteru, které nejsou nastavené uživatelem

Váš názor

Další materiály