Sdílet prostřednictvím


Odkaz na vlastnosti DLT

Tento článek obsahuje referenční informace o specifikaci nastavení DLT JSON a vlastnostech tabulky v Azure Databricks. Další podrobnosti o používání těchto různých vlastností a konfigurací najdete v následujících článcích:

konfigurace kanálů DLT

Pole
id
Typ: string
Globálně jedinečný identifikátor pro tento kanál. Identifikátor je přiřazen systémem a nelze ho změnit.
name
Typ: string
Uživatelsky přívětivý název tohoto kanálu. Název lze použít k identifikaci úloh kanálu v uživatelském rozhraní.
configuration
Typ: object
Volitelný seznam nastavení, která mají být přidána do konfigurace Sparku clusteru, jenž bude spouštět datový tok. Toto nastavení čte modul runtime DLT a jsou k dispozici pro dotazy potrubí prostřednictvím konfigurace Sparku.
Prvky musí být formátované jako dvojice znaků key:value.
libraries
Typ: array of objects
Pole poznámkových bloků obsahující kód kanálu a požadované artefakty.
clusters
Typ: array of objects
Pole specifikací pro clustery ke spuštění kanálu.
Pokud není zadaný, kanály automaticky vyberou výchozí konfiguraci clusteru pro kanál.
development
Typ: boolean
Příznak označující, zda se má potrubí spustit v
development nebo production režim.
Výchozí hodnota je true
notifications
Typ: array of objects
Volitelné pole specifikací pro e-mailová oznámení, pokud se aktualizace pipeline dokončí, selže s chybou, kterou lze opakovat, selže s chybou, kterou nelze opakovat, nebo pokud selže tok.
continuous
Typ: boolean
Příznak udávající, zda má být pipeline provozována nepřetržitě.
Výchozí hodnota je false.
catalog
Typ: string
Název výchozího katalogu pro kanál, kde jsou publikovány všechny datové sady a metadata kanálu. Nastavením této hodnoty povolíte katalog Unity pro datový tok.
Pokud není nastaveno, datový tok se publikuje do zastaralého metastore Hive pomocí umístění zadaného v storage.
V režimu původního publikování určuje katalog obsahující cílové schéma, kde jsou publikovány všechny datové sady z aktuální pipeliny. Viz LIVE schema (starší verze).
schema
Typ: string
Název výchozího schématu kanálu, kde jsou ve výchozím nastavení publikovány všechny datové sady a metadata kanálu. Viz Nastavení cílového katalogu a schématu.
target (starší verze)
Typ: string
Název cílového schématu, ve kterém jsou publikovány všechny datové sady definované v aktuálním potrubí.
Nastavení target místo schema nakonfiguruje kanál tak, aby používal starší režim publikování. Viz LIVE schema (starší verze).
storage (starší verze)
Typ: string
Umístění v DBFS nebo cloudovém úložišti, kde se ukládají výstupní data a metadata požadovaná ke spuštění kanálu. Tabulky a metadata jsou uloženy v podadresářích tohoto umístění.
Pokud není zadáno nastavení storage, systém nastaví výchozí umístění v dbfs:/pipelines/.
Nastavení storage nelze po vytvoření pipeline změnit.
channel
Typ: string
Verze modulu runtime DLT, který se má použít. Podporované hodnoty jsou:
  • preview otestovat řetězec s nadcházejícími změnami verze prostředí runtime.
  • current pro použití aktuální verze runtime.

Pole channel je volitelné. Výchozí hodnota je
current. Databricks doporučuje použít aktuální verzi modulu runtime pro produkční úlohy.
edition
Typ string
Edice produktu DLT ke spuštění kanálu. Toto nastavení umožňuje zvolit nejlepší edici produktu na základě požadavků vašeho kanálu:
  • CORE pro spouštění úloh zpracování datového proudu.
  • PRO ke spouštění úloh pro ingestování streamování a zachytávání změn v datech (CDC).
  • ADVANCED ke spouštění streamingových požadavků na ingestování, úloh CDC a operací, které vyžadují DLT očekávání pro vynucení omezení kvality dat.

Pole edition je volitelné. Výchozí hodnota je
ADVANCED.
photon
Typ: boolean
Příznak oznamující, zda použít Co je Photon? pro spuštění potrubí. Photon je vysoce výkonný modul Spark pro Azure Databricks. Kanály s podporou foton se účtují jinou sazbou než kanály bez foton.
Pole photon je volitelné. Výchozí hodnota je false.
pipelines.maxFlowRetryAttempts
Typ: int
Pokud během aktualizace kanálu dojde k opakovanému selhání, je to maximální počet opakování toku před selháním aktualizace kanálu.
Výchozí nastavení: Dva pokusy o opakování. Pokud dojde k chybě, kterou lze opakovat, modul runtime DLT se pokusí proces spustit třikrát, včetně původního pokusu.
pipelines.numUpdateRetryAttempts
Typ: int
Pokud během aktualizace dojde k opakovanému selhání, je to maximální počet opakování aktualizace před trvalým selháním aktualizace. Opakování se spustí jako úplná aktualizace.
Tento parametr platí jenom pro kanály spuštěné v produkčním režimu. Opakování nejsou prováděna, pokud se potrubí spustí v režimu vývoje nebo při spuštění aktualizace Validate.
Výchozí:
  • Pět pro aktivované kanály.
  • Neomezené pro průběžné kanály.

vlastnosti tabulky DLT

Kromě vlastností tabulky podporovaných Delta Lakemůžete nastavit následující vlastnosti tabulky.

Vlastnosti tabulky
pipelines.autoOptimize.managed
Výchozí: true
Povolí nebo zakáže automatickou plánovanou optimalizaci této tabulky.
pipelines.autoOptimize.zOrderCols
Žádné výchozí nastavení
Volitelný řetězec obsahující čárkami oddělený seznam názvů sloupců, podle kterých se tato tabulka řadí. Například pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed
Výchozí: true
Určuje, jestli je pro tuto tabulku povolená úplná aktualizace.

Interval spuštění potrubí

Můžete zadat interval spuštění pro celé DLT potrubí nebo jako součást deklarace datové sady. Viz Nastavení intervalu triggeru pro průběžné kanály.

pipelines.trigger.interval
Výchozí hodnota je založená na typu toku:
  • Pět sekund na streamovací dotazy.
  • Minuta pro úplné dotazy, když jsou všechna vstupní data ze zdrojů Delta.
  • Deset minut na úplné dotazy, kdy některé zdroje dat mohou být nedelta.

Hodnota je číslo plus časová jednotka. Toto jsou platné časové jednotky:
  • second, seconds
  • minute, minutes
  • hour, hours
  • day, days

Při definování hodnoty můžete použít jednotné číslo nebo jednotku množného čísla, například:
  • {"pipelines.trigger.interval" : "1 hour"}
  • {"pipelines.trigger.interval" : "10 seconds"}
  • {"pipelines.trigger.interval" : "30 second"}
  • {"pipelines.trigger.interval" : "1 minute"}
  • {"pipelines.trigger.interval" : "10 minutes"}
  • {"pipelines.trigger.interval" : "10 minute"}

atributy clusteru, které nejsou nastavené uživatelem

Vzhledem k tomu, že DLT spravuje životní cyklus clusteru, mnoho nastavení clusteru je nastaveno knihovnou DLT a uživatelé je nemůžou konfigurovat ručně, a to buď v konfiguraci kanálu, nebo v zásadách clusteru používaných kanálem. Následující tabulka uvádí tato nastavení a důvody, proč je nelze nastavit ručně.

Pole
cluster_name
DLT nastaví názvy clusterů používaných ke spouštění aktualizací kanálu. Tyto názvy nelze přepsat.
data_security_mode
access_mode
Tyto hodnoty jsou automaticky nastaveny systémem.
spark_version
Clustery DLT běží na vlastní verzi databricks Runtime, která se průběžně aktualizuje tak, aby zahrnovala nejnovější funkce. Verze Sparku je součástí verze Databricks Runtime a nedá se přepsat.
autotermination_minutes
Vzhledem k tomu, že DLT spravuje automatické ukončení clusteru a logiku opakovaného použití, nelze přepsat čas automatického ukončení clusteru.
runtime_engine
I když toto pole můžete řídit povolením Funkce Photon pro kanál, nemůžete tuto hodnotu nastavit přímo.
effective_spark_version
Tato hodnota je automaticky nastavena systémem.
cluster_source
Toto pole je nastaveno systémem a je jen pro čtení.
docker_image
Vzhledem k tomu, že DLT spravuje životní cyklus clusteru, nemůžete použít vlastní kontejner s clustery kanálů.
workload_type
Tato hodnota je nastavena systémem a nelze ji přepsat.