Dela via


Referens för DLT-egenskaper

Den här artikeln innehåller en referens för DLT JSON-inställningsspecifikation och tabellegenskaper i Azure Databricks. Mer information om hur du använder dessa olika egenskaper och konfigurationer finns i följande artiklar:

DLT-pipelinekonfigurationer

Fält
id
Typ: string
En globalt unik identifierare för den här pipelinen. Identifieraren tilldelas av systemet och kan inte ändras.
name
Typ: string
Ett användarvänligt namn för den här pipelinen. Namnet kan användas för att identifiera pipelinejobb i användargränssnittet.
configuration
Typ: object
En valfri lista med inställningar som ska läggas till i Spark-konfigurationen för klustret som ska köra pipelinen. De här inställningarna läss av DLT-körningen och är tillgängliga för pipelinefrågor via Spark-konfigurationen.
Elementen måste formateras som key:value-par.
libraries
Typ: array of objects
En samling av notebooks som innehåller pipelinekoden och nödvändiga artefakter.
clusters
Typ: array of objects
En matris med specifikationer för de kluster som ska köra pipelinen.
Om detta inte anges väljer pipelines automatiskt en standardklusterkonfiguration för pipelinen.
development
Typ: boolean
Ett flagga som anger om man ska köra pipelinen i
development eller production modus.
Standardvärdet är true
notifications
Typ: array of objects
En valfri matris med specifikationer för e-postmeddelanden när en pipelineuppdatering slutförs, misslyckas med ett nytt försöksfel, misslyckas med ett fel som inte kan försökas igen eller om ett flöde misslyckas.
continuous
Typ: boolean
En flagga som anger om pipelinen ska köras kontinuerligt.
Standardvärdet är false.
catalog
Typ: string
Namnet på standardkatalogen för pipelinen, där alla datauppsättningar och metadata för pipeline publiceras. Om du anger det här värdet aktiveras Unity Catalog för pipelinen.
Om den lämnas oangiven publiceras pipelinen till det äldre Hive-metadatalagret med hjälp av den plats som anges i storage.
I äldre publiceringsläge anger du katalogen som innehåller målschemat där alla datauppsättningar från den aktuella pipelinen publiceras. Se LIVE-schemat (äldre).
schema
Typ: string
Namnet på standardschemat för pipelinen, där alla datauppsättningar och metadata för pipelinen publiceras som standard. Se Ange målkatalogen och schemat.
target (äldre)
Typ: string
Namnet på målschemat där alla datauppsättningar som definierats i den aktuella pipelinen publiceras.
Om du anger target i stället för schema konfigureras pipelinen så att den använder äldre publiceringsläge. Se LIVE-schemat (äldre).
storage (äldre)
Typ: string
En plats i DBFS eller molnlagring där utdata och metadata som krävs för pipelinekörning lagras. Tabeller och metadata lagras i underkataloger på den här platsen.
När inställningen storage inte har angetts kommer systemet att per automatik välja en plats i dbfs:/pipelines/.
Det går inte att ändra inställningen storage när en pipeline har skapats.
channel
Typ: string
Den version av DLT-runtime som ska användas. De värden som stöds är:
  • preview för att testa din pipeline med kommande ändringar i körmiljön.
  • current för att använda den aktuella körmiljöversionen.

Fältet channel är valfritt. Standardvärdet är
current. Databricks rekommenderar att du använder den aktuella körningsversionen för produktionsarbetsbelastningar.
edition
Skriv string
DLT-produktutgåvan för att köra pipelinen. Med den här inställningen kan du välja den bästa produktutgåvan baserat på kraven för din pipeline:
  • CORE för att köra strömmande inmatningsarbetsflöden.
  • PRO för att köra strömmande inmatningsprocesser och ändringsdatafångst (CDC).
  • ADVANCED för att köra strömmande inmatningsarbetsbelastningar, CDC-arbetsbelastningar och arbetsbelastningar som kräver DLT-förväntningar för att framtvinga datakvalitetsbegränsningar.

Fältet edition är valfritt. Standardvärdet är
ADVANCED.
photon
Typ: boolean
En flagga som anger om du vill använda Vad är Foton? för att köra pipelinen. Photon är Spark-motorn med höga prestanda i Azure Databricks. Photon-aktiverade pipelines faktureras till olika taxa än pipelines utan Photon.
Fältet photon är valfritt. Standardvärdet är false.
pipelines.maxFlowRetryAttempts
Typ: int
Om ett återförsöksbart fel inträffar under en pipelineuppdatering är detta det maximala antalet gånger som ett flöde försöker igen innan pipelineuppdateringen misslyckas
Standard: Två återförsök. När ett återförsöksbart fel inträffar försöker DLT-systemet starta flödet tre gånger, inklusive det ursprungliga försöket.
pipelines.numUpdateRetryAttempts
Typ: int
Om ett återförsöksbart fel inträffar under en uppdatering är detta det maximala antalet gånger som uppdateringen ska försöka igen innan uppdateringen misslyckas permanent. Återförsöket körs som en fullständig uppdatering.
Den här parametern gäller endast för pipelines som körs i produktionsläge. Återförsök görs inte om pipelinen körs i utvecklingsläge eller när du kör en Validate uppdatering.
Standard:
  • Fem för aktiverade pipelines.
  • Obegränsat för kontinuerliga pipelines.

DLT-tabellegenskaper

Förutom de tabellegenskaper som stöds av Delta Lakekan du ange följande tabellegenskaper.

Tabellegenskaper
pipelines.autoOptimize.managed
Standardvärde: true
Aktiverar eller inaktiverar automatiskt schemalagd optimering av den här tabellen.
pipelines.autoOptimize.zOrderCols
Standard: Ingen
En valfri sträng som innehåller en kommaavgränsad lista med kolumnnamn för att z-beställa tabellen efter. Till exempel pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed
Standardvärde: true
Styr om en fullständig uppdatering tillåts för den här tabellen.

utlösarintervall för rörledningar

Du kan ange ett intervall för pipelineutlösare för hela DLT-pipelinen eller som en del av en datamängdsdeklaration. Se avsnittet Ange utlösarintervall för kontinuerliga pipelines.

pipelines.trigger.interval
Standardvärdet baseras på flödestyp:
  • Fem sekunder för strömmande förfrågningar.
  • En minut för fullständiga frågor när alla indata kommer från Delta-källor.
  • Tio minuter för fullständiga frågor när vissa datakällor kan vara icke-Delta.

Värdet är ett tal plus tidsenheten. Följande är giltiga tidsenheter:
  • second, seconds
  • minute, minutes
  • hour, hours
  • day, days

Du kan använda singular- eller pluralenheten när du definierar värdet, till exempel:
  • {"pipelines.trigger.interval" : "1 hour"}
  • {"pipelines.trigger.interval" : "10 seconds"}
  • {"pipelines.trigger.interval" : "30 second"}
  • {"pipelines.trigger.interval" : "1 minute"}
  • {"pipelines.trigger.interval" : "10 minutes"}
  • {"pipelines.trigger.interval" : "10 minute"}

klusterattribut som inte kan ställas in av användaren

Eftersom DLT hanterar klusterlivscykler anges många klusterinställningar av DLT och kan inte konfigureras manuellt av användare, antingen i en pipelinekonfiguration eller i en klusterprincip som används av en pipeline. I följande tabell visas de här inställningarna och varför de inte kan anges manuellt.

Fält
cluster_name
DLT anger namnen på de kluster som används för att köra pipelineuppdateringar. Dessa namn kan inte åsidosättas.
data_security_mode
access_mode
Dessa värden anges automatiskt av systemet.
spark_version
DLT-kluster körs på en anpassad version av Databricks Runtime som uppdateras kontinuerligt för att inkludera de senaste funktionerna. Versionen av Spark paketeras med Databricks Runtime-versionen och kan inte åsidosättas.
autotermination_minutes
Eftersom DLT hanterar logik för automatisk avslutning och återanvändning av kluster kan inte klustrets automatiska avslutningstid åsidosättas.
runtime_engine
Även om du kan styra det här fältet genom att aktivera Photon för din pipeline kan du inte ange det här värdet direkt.
effective_spark_version
Det här värdet anges automatiskt av systemet.
cluster_source
Det här fältet skapas av systemet och är skrivskyddat.
docker_image
Eftersom DLT hanterar klusterlivscykeln kan du inte använda en anpassad container med pipelinekluster.
workload_type
Det här värdet anges av systemet och kan inte åsidosättas.