Odkaz na vlastnosti DLT
Tento článek obsahuje referenční informace o specifikaci nastavení DLT JSON a vlastnostech tabulky v Azure Databricks. Další podrobnosti o používání těchto různých vlastností a konfigurací najdete v následujících článcích:
- Nastavit datový tok DLT
- Pipelines rozhraní REST API
konfigurace kanálů DLT
Pole |
---|
id Typ: string Globálně jedinečný identifikátor pro tento kanál. Identifikátor je přiřazen systémem a nelze ho změnit. |
name Typ: string Uživatelsky přívětivý název tohoto kanálu. Název lze použít k identifikaci úloh kanálu v uživatelském rozhraní. |
configuration Typ: object Volitelný seznam nastavení, která mají být přidána do konfigurace Sparku clusteru, jenž bude spouštět datový tok. Toto nastavení čte modul runtime DLT a jsou k dispozici pro dotazy potrubí prostřednictvím konfigurace Sparku. Prvky musí být formátované jako dvojice znaků key:value . |
libraries Typ: array of objects Pole poznámkových bloků obsahující kód kanálu a požadované artefakty. |
clusters Typ: array of objects Pole specifikací pro clustery ke spuštění kanálu. Pokud není zadaný, kanály automaticky vyberou výchozí konfiguraci clusteru pro kanál. |
development Typ: boolean Příznak označující, zda se má potrubí spustit v development nebo production režim.Výchozí hodnota je true |
notifications Typ: array of objects Volitelné pole specifikací pro e-mailová oznámení, pokud se aktualizace pipeline dokončí, selže s chybou, kterou lze opakovat, selže s chybou, kterou nelze opakovat, nebo pokud selže tok. |
continuous Typ: boolean Příznak udávající, zda má být pipeline provozována nepřetržitě. Výchozí hodnota je false . |
catalog Typ: string Název výchozího katalogu pro kanál, kde jsou publikovány všechny datové sady a metadata kanálu. Nastavením této hodnoty povolíte katalog Unity pro datový tok. Pokud není nastaveno, datový tok se publikuje do zastaralého metastore Hive pomocí umístění zadaného v storage .V režimu původního publikování určuje katalog obsahující cílové schéma, kde jsou publikovány všechny datové sady z aktuální pipeliny. Viz LIVE schema (starší verze). |
schema Typ: string Název výchozího schématu kanálu, kde jsou ve výchozím nastavení publikovány všechny datové sady a metadata kanálu. Viz Nastavení cílového katalogu a schématu. |
target (starší verze)Typ: string Název cílového schématu, ve kterém jsou publikovány všechny datové sady definované v aktuálním potrubí. Nastavení target místo schema nakonfiguruje kanál tak, aby používal starší režim publikování. Viz LIVE schema (starší verze). |
storage (starší verze)Typ: string Umístění v DBFS nebo cloudovém úložišti, kde se ukládají výstupní data a metadata požadovaná ke spuštění kanálu. Tabulky a metadata jsou uloženy v podadresářích tohoto umístění. Pokud není zadáno nastavení storage , systém nastaví výchozí umístění v dbfs:/pipelines/ .Nastavení storage nelze po vytvoření pipeline změnit. |
channel Typ: string Verze modulu runtime DLT, který se má použít. Podporované hodnoty jsou:
Pole channel je volitelné. Výchozí hodnota jecurrent . Databricks doporučuje použít aktuální verzi modulu runtime pro produkční úlohy. |
edition Typ string Edice produktu DLT ke spuštění kanálu. Toto nastavení umožňuje zvolit nejlepší edici produktu na základě požadavků vašeho kanálu:
Pole edition je volitelné. Výchozí hodnota jeADVANCED . |
photon Typ: boolean Příznak oznamující, zda použít Co je Photon? pro spuštění potrubí. Photon je vysoce výkonný modul Spark pro Azure Databricks. Kanály s podporou foton se účtují jinou sazbou než kanály bez foton. Pole photon je volitelné. Výchozí hodnota je false . |
pipelines.maxFlowRetryAttempts Typ: int Pokud během aktualizace kanálu dojde k opakovanému selhání, je to maximální počet opakování toku před selháním aktualizace kanálu. Výchozí nastavení: Dva pokusy o opakování. Pokud dojde k chybě, kterou lze opakovat, modul runtime DLT se pokusí proces spustit třikrát, včetně původního pokusu. |
pipelines.numUpdateRetryAttempts Typ: int Pokud během aktualizace dojde k opakovanému selhání, je to maximální počet opakování aktualizace před trvalým selháním aktualizace. Opakování se spustí jako úplná aktualizace. Tento parametr platí jenom pro kanály spuštěné v produkčním režimu. Opakování nejsou prováděna, pokud se potrubí spustí v režimu vývoje nebo při spuštění aktualizace Validate .Výchozí:
|
vlastnosti tabulky DLT
Kromě vlastností tabulky podporovaných Delta Lakemůžete nastavit následující vlastnosti tabulky.
Vlastnosti tabulky |
---|
pipelines.autoOptimize.managed Výchozí: true Povolí nebo zakáže automatickou plánovanou optimalizaci této tabulky. |
pipelines.autoOptimize.zOrderCols Žádné výchozí nastavení Volitelný řetězec obsahující čárkami oddělený seznam názvů sloupců, podle kterých se tato tabulka řadí. Například pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Výchozí: true Určuje, jestli je pro tuto tabulku povolená úplná aktualizace. |
Interval spuštění potrubí
Můžete zadat interval spuštění pro celé DLT potrubí nebo jako součást deklarace datové sady. Viz Nastavení intervalu triggeru pro průběžné kanály.
pipelines.trigger.interval |
---|
Výchozí hodnota je založená na typu toku:
Hodnota je číslo plus časová jednotka. Toto jsou platné časové jednotky:
Při definování hodnoty můžete použít jednotné číslo nebo jednotku množného čísla, například:
|
atributy clusteru, které nejsou nastavené uživatelem
Vzhledem k tomu, že DLT spravuje životní cyklus clusteru, mnoho nastavení clusteru je nastaveno knihovnou DLT a uživatelé je nemůžou konfigurovat ručně, a to buď v konfiguraci kanálu, nebo v zásadách clusteru používaných kanálem. Následující tabulka uvádí tato nastavení a důvody, proč je nelze nastavit ručně.
Pole |
---|
cluster_name DLT nastaví názvy clusterů používaných ke spouštění aktualizací kanálu. Tyto názvy nelze přepsat. |
data_security_mode access_mode Tyto hodnoty jsou automaticky nastaveny systémem. |
spark_version Clustery DLT běží na vlastní verzi databricks Runtime, která se průběžně aktualizuje tak, aby zahrnovala nejnovější funkce. Verze Sparku je součástí verze Databricks Runtime a nedá se přepsat. |
autotermination_minutes Vzhledem k tomu, že DLT spravuje automatické ukončení clusteru a logiku opakovaného použití, nelze přepsat čas automatického ukončení clusteru. |
runtime_engine I když toto pole můžete řídit povolením Funkce Photon pro kanál, nemůžete tuto hodnotu nastavit přímo. |
effective_spark_version Tato hodnota je automaticky nastavena systémem. |
cluster_source Toto pole je nastaveno systémem a je jen pro čtení. |
docker_image Vzhledem k tomu, že DLT spravuje životní cyklus clusteru, nemůžete použít vlastní kontejner s clustery kanálů. |
workload_type Tato hodnota je nastavena systémem a nelze ji přepsat. |