Referens för DLT-egenskaper

Artikel
03/11/2025

Den här artikeln innehåller en referens för DLT JSON-inställningsspecifikation och tabellegenskaper i Azure Databricks. Mer information om hur du använder dessa olika egenskaper och konfigurationer finns i följande artiklar:

DLT-pipelinekonfigurationer

Fält
`id` Typ: `string` En globalt unik identifierare för den här pipelinen. Identifieraren tilldelas av systemet och kan inte ändras.
`name` Typ: `string` Ett användarvänligt namn för den här pipelinen. Namnet kan användas för att identifiera pipelinejobb i användargränssnittet.
`configuration` Typ: `object` En valfri lista med inställningar som ska läggas till i Spark-konfigurationen för klustret som ska köra pipelinen. De här inställningarna läss av DLT-körningen och är tillgängliga för pipelinefrågor via Spark-konfigurationen. Elementen måste formateras som `key:value`-par.
`libraries` Typ: `array of objects` En samling av notebooks som innehåller pipelinekoden och nödvändiga artefakter.
`clusters` Typ: `array of objects` En matris med specifikationer för de kluster som ska köra pipelinen. Om detta inte anges väljer pipelines automatiskt en standardklusterkonfiguration för pipelinen.
`development` Typ: `boolean` Ett flagga som anger om man ska köra pipelinen i `development` eller `production` modus. Standardvärdet är `true`
`notifications` Typ: `array of objects` En valfri matris med specifikationer för e-postmeddelanden när en pipelineuppdatering slutförs, misslyckas med ett nytt försöksfel, misslyckas med ett fel som inte kan försökas igen eller om ett flöde misslyckas.
`continuous` Typ: `boolean` En flagga som anger om pipelinen ska köras kontinuerligt. Standardvärdet är `false`.
`catalog` Typ: `string` Namnet på standardkatalogen för pipelinen, där alla datauppsättningar och metadata för pipeline publiceras. Om du anger det här värdet aktiveras Unity Catalog för pipelinen. Om den lämnas oangiven publiceras pipelinen till det äldre Hive-metadatalagret med hjälp av den plats som anges i `storage`. I äldre publiceringsläge anger du katalogen som innehåller målschemat där alla datauppsättningar från den aktuella pipelinen publiceras. Se LIVE-schemat (äldre).
`schema` Typ: `string` Namnet på standardschemat för pipelinen, där alla datauppsättningar och metadata för pipelinen publiceras som standard. Se Ange målkatalogen och schemat.
`target` (äldre) Typ: `string` Namnet på målschemat där alla datauppsättningar som definierats i den aktuella pipelinen publiceras. Om du anger `target` i stället för `schema` konfigureras pipelinen så att den använder äldre publiceringsläge. Se LIVE-schemat (äldre).
`storage` (äldre) Typ: `string` En plats i DBFS eller molnlagring där utdata och metadata som krävs för pipelinekörning lagras. Tabeller och metadata lagras i underkataloger på den här platsen. När inställningen `storage` inte har angetts kommer systemet att per automatik välja en plats i `dbfs:/pipelines/`. Det går inte att ändra inställningen `storage` när en pipeline har skapats.
`channel` Typ: `string` Den version av DLT-runtime som ska användas. De värden som stöds är: `preview` för att testa din pipeline med kommande ändringar i körmiljön. `current` för att använda den aktuella körmiljöversionen. Fältet `channel` är valfritt. Standardvärdet är `current`. Databricks rekommenderar att du använder den aktuella körningsversionen för produktionsarbetsbelastningar.
`edition` Skriv `string` DLT-produktutgåvan för att köra pipelinen. Med den här inställningen kan du välja den bästa produktutgåvan baserat på kraven för din pipeline: `CORE` för att köra strömmande inmatningsarbetsflöden. `PRO` för att köra strömmande inmatningsprocesser och ändringsdatafångst (CDC). `ADVANCED` för att köra strömmande inmatningsarbetsbelastningar, CDC-arbetsbelastningar och arbetsbelastningar som kräver DLT-förväntningar för att framtvinga datakvalitetsbegränsningar. Fältet `edition` är valfritt. Standardvärdet är `ADVANCED`.
`photon` Typ: `boolean` En flagga som anger om du vill använda Vad är Foton? för att köra pipelinen. Photon är Spark-motorn med höga prestanda i Azure Databricks. Photon-aktiverade pipelines faktureras till olika taxa än pipelines utan Photon. Fältet `photon` är valfritt. Standardvärdet är `false`.
`pipelines.maxFlowRetryAttempts` Typ: `int` Om ett återförsöksbart fel inträffar under en pipelineuppdatering är detta det maximala antalet gånger som ett flöde försöker igen innan pipelineuppdateringen misslyckas Standard: Två återförsök. När ett återförsöksbart fel inträffar försöker DLT-systemet starta flödet tre gånger, inklusive det ursprungliga försöket.
`pipelines.numUpdateRetryAttempts` Typ: `int` Om ett återförsöksbart fel inträffar under en uppdatering är detta det maximala antalet gånger som uppdateringen ska försöka igen innan uppdateringen misslyckas permanent. Återförsöket körs som en fullständig uppdatering. Den här parametern gäller endast för pipelines som körs i produktionsläge. Återförsök görs inte om pipelinen körs i utvecklingsläge eller när du kör en `Validate` uppdatering. Standard: Fem för aktiverade pipelines. Obegränsat för kontinuerliga pipelines.

DLT-tabellegenskaper

Förutom de tabellegenskaper som stöds av Delta Lakekan du ange följande tabellegenskaper.

Tabellegenskaper
`pipelines.autoOptimize.managed` Standardvärde: `true` Aktiverar eller inaktiverar automatiskt schemalagd optimering av den här tabellen.
`pipelines.autoOptimize.zOrderCols` Standard: Ingen En valfri sträng som innehåller en kommaavgränsad lista med kolumnnamn för att z-beställa tabellen efter. Till exempel `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` Standardvärde: `true` Styr om en fullständig uppdatering tillåts för den här tabellen.

utlösarintervall för rörledningar

Du kan ange ett intervall för pipelineutlösare för hela DLT-pipelinen eller som en del av en datamängdsdeklaration. Se avsnittet Ange utlösarintervall för kontinuerliga pipelines.

`pipelines.trigger.interval`
Standardvärdet baseras på flödestyp: Fem sekunder för strömmande förfrågningar. En minut för fullständiga frågor när alla indata kommer från Delta-källor. Tio minuter för fullständiga frågor när vissa datakällor kan vara icke-Delta. Värdet är ett tal plus tidsenheten. Följande är giltiga tidsenheter: `second`, `seconds` `minute`, `minutes` `hour`, `hours` `day`, `days` Du kan använda singular- eller pluralenheten när du definierar värdet, till exempel: `{"pipelines.trigger.interval" : "1 hour"}` `{"pipelines.trigger.interval" : "10 seconds"}` `{"pipelines.trigger.interval" : "30 second"}` `{"pipelines.trigger.interval" : "1 minute"}` `{"pipelines.trigger.interval" : "10 minutes"}` `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

Standardvärdet baseras på flödestyp:

Fem sekunder för strömmande förfrågningar.
En minut för fullständiga frågor när alla indata kommer från Delta-källor.
Tio minuter för fullständiga frågor när vissa datakällor kan vara icke-Delta.

Värdet är ett tal plus tidsenheten. Följande är giltiga tidsenheter:

second, seconds
minute, minutes
hour, hours
day, days

Du kan använda singular- eller pluralenheten när du definierar värdet, till exempel:

{"pipelines.trigger.interval" : "1 hour"}
{"pipelines.trigger.interval" : "10 seconds"}
{"pipelines.trigger.interval" : "30 second"}
{"pipelines.trigger.interval" : "1 minute"}
{"pipelines.trigger.interval" : "10 minutes"}
{"pipelines.trigger.interval" : "10 minute"}

klusterattribut som inte kan ställas in av användaren

Eftersom DLT hanterar klusterlivscykler anges många klusterinställningar av DLT och kan inte konfigureras manuellt av användare, antingen i en pipelinekonfiguration eller i en klusterprincip som används av en pipeline. I följande tabell visas de här inställningarna och varför de inte kan anges manuellt.

Fält
`cluster_name` DLT anger namnen på de kluster som används för att köra pipelineuppdateringar. Dessa namn kan inte åsidosättas.
`data_security_mode` `access_mode` Dessa värden anges automatiskt av systemet.
`spark_version` DLT-kluster körs på en anpassad version av Databricks Runtime som uppdateras kontinuerligt för att inkludera de senaste funktionerna. Versionen av Spark paketeras med Databricks Runtime-versionen och kan inte åsidosättas.
`autotermination_minutes` Eftersom DLT hanterar logik för automatisk avslutning och återanvändning av kluster kan inte klustrets automatiska avslutningstid åsidosättas.
`runtime_engine` Även om du kan styra det här fältet genom att aktivera Photon för din pipeline kan du inte ange det här värdet direkt.
`effective_spark_version` Det här värdet anges automatiskt av systemet.
`cluster_source` Det här fältet skapas av systemet och är skrivskyddat.
`docker_image` Eftersom DLT hanterar klusterlivscykeln kan du inte använda en anpassad container med pipelinekluster.
`workload_type` Det här värdet anges av systemet och kan inte åsidosättas.

Dela via

Referens för DLT-egenskaper

DLT-pipelinekonfigurationer

DLT-tabellegenskaper

utlösarintervall för rörledningar

klusterattribut som inte kan ställas in av användaren

Feedback

Ytterligare resurser