Referens för DLT-egenskaper
Den här artikeln innehåller en referens för DLT JSON-inställningsspecifikation och tabellegenskaper i Azure Databricks. Mer information om hur du använder dessa olika egenskaper och konfigurationer finns i följande artiklar:
DLT-pipelinekonfigurationer
Fält |
---|
id Typ: string En globalt unik identifierare för den här pipelinen. Identifieraren tilldelas av systemet och kan inte ändras. |
name Typ: string Ett användarvänligt namn för den här pipelinen. Namnet kan användas för att identifiera pipelinejobb i användargränssnittet. |
configuration Typ: object En valfri lista med inställningar som ska läggas till i Spark-konfigurationen för klustret som ska köra pipelinen. De här inställningarna läss av DLT-körningen och är tillgängliga för pipelinefrågor via Spark-konfigurationen. Elementen måste formateras som key:value -par. |
libraries Typ: array of objects En samling av notebooks som innehåller pipelinekoden och nödvändiga artefakter. |
clusters Typ: array of objects En matris med specifikationer för de kluster som ska köra pipelinen. Om detta inte anges väljer pipelines automatiskt en standardklusterkonfiguration för pipelinen. |
development Typ: boolean Ett flagga som anger om man ska köra pipelinen i development eller production modus.Standardvärdet är true |
notifications Typ: array of objects En valfri matris med specifikationer för e-postmeddelanden när en pipelineuppdatering slutförs, misslyckas med ett nytt försöksfel, misslyckas med ett fel som inte kan försökas igen eller om ett flöde misslyckas. |
continuous Typ: boolean En flagga som anger om pipelinen ska köras kontinuerligt. Standardvärdet är false . |
catalog Typ: string Namnet på standardkatalogen för pipelinen, där alla datauppsättningar och metadata för pipeline publiceras. Om du anger det här värdet aktiveras Unity Catalog för pipelinen. Om den lämnas oangiven publiceras pipelinen till det äldre Hive-metadatalagret med hjälp av den plats som anges i storage .I äldre publiceringsläge anger du katalogen som innehåller målschemat där alla datauppsättningar från den aktuella pipelinen publiceras. Se LIVE-schemat (äldre). |
schema Typ: string Namnet på standardschemat för pipelinen, där alla datauppsättningar och metadata för pipelinen publiceras som standard. Se Ange målkatalogen och schemat. |
target (äldre)Typ: string Namnet på målschemat där alla datauppsättningar som definierats i den aktuella pipelinen publiceras. Om du anger target i stället för schema konfigureras pipelinen så att den använder äldre publiceringsläge. Se LIVE-schemat (äldre). |
storage (äldre)Typ: string En plats i DBFS eller molnlagring där utdata och metadata som krävs för pipelinekörning lagras. Tabeller och metadata lagras i underkataloger på den här platsen. När inställningen storage inte har angetts kommer systemet att per automatik välja en plats i dbfs:/pipelines/ .Det går inte att ändra inställningen storage när en pipeline har skapats. |
channel Typ: string Den version av DLT-runtime som ska användas. De värden som stöds är:
Fältet channel är valfritt. Standardvärdet ärcurrent . Databricks rekommenderar att du använder den aktuella körningsversionen för produktionsarbetsbelastningar. |
edition Skriv string DLT-produktutgåvan för att köra pipelinen. Med den här inställningen kan du välja den bästa produktutgåvan baserat på kraven för din pipeline:
Fältet edition är valfritt. Standardvärdet ärADVANCED . |
photon Typ: boolean En flagga som anger om du vill använda Vad är Foton? för att köra pipelinen. Photon är Spark-motorn med höga prestanda i Azure Databricks. Photon-aktiverade pipelines faktureras till olika taxa än pipelines utan Photon. Fältet photon är valfritt. Standardvärdet är false . |
pipelines.maxFlowRetryAttempts Typ: int Om ett återförsöksbart fel inträffar under en pipelineuppdatering är detta det maximala antalet gånger som ett flöde försöker igen innan pipelineuppdateringen misslyckas Standard: Två återförsök. När ett återförsöksbart fel inträffar försöker DLT-systemet starta flödet tre gånger, inklusive det ursprungliga försöket. |
pipelines.numUpdateRetryAttempts Typ: int Om ett återförsöksbart fel inträffar under en uppdatering är detta det maximala antalet gånger som uppdateringen ska försöka igen innan uppdateringen misslyckas permanent. Återförsöket körs som en fullständig uppdatering. Den här parametern gäller endast för pipelines som körs i produktionsläge. Återförsök görs inte om pipelinen körs i utvecklingsläge eller när du kör en Validate uppdatering.Standard:
|
DLT-tabellegenskaper
Förutom de tabellegenskaper som stöds av Delta Lakekan du ange följande tabellegenskaper.
Tabellegenskaper |
---|
pipelines.autoOptimize.managed Standardvärde: true Aktiverar eller inaktiverar automatiskt schemalagd optimering av den här tabellen. |
pipelines.autoOptimize.zOrderCols Standard: Ingen En valfri sträng som innehåller en kommaavgränsad lista med kolumnnamn för att z-beställa tabellen efter. Till exempel pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Standardvärde: true Styr om en fullständig uppdatering tillåts för den här tabellen. |
utlösarintervall för rörledningar
Du kan ange ett intervall för pipelineutlösare för hela DLT-pipelinen eller som en del av en datamängdsdeklaration. Se avsnittet Ange utlösarintervall för kontinuerliga pipelines.
pipelines.trigger.interval |
---|
Standardvärdet baseras på flödestyp:
Värdet är ett tal plus tidsenheten. Följande är giltiga tidsenheter:
Du kan använda singular- eller pluralenheten när du definierar värdet, till exempel:
|
klusterattribut som inte kan ställas in av användaren
Eftersom DLT hanterar klusterlivscykler anges många klusterinställningar av DLT och kan inte konfigureras manuellt av användare, antingen i en pipelinekonfiguration eller i en klusterprincip som används av en pipeline. I följande tabell visas de här inställningarna och varför de inte kan anges manuellt.
Fält |
---|
cluster_name DLT anger namnen på de kluster som används för att köra pipelineuppdateringar. Dessa namn kan inte åsidosättas. |
data_security_mode access_mode Dessa värden anges automatiskt av systemet. |
spark_version DLT-kluster körs på en anpassad version av Databricks Runtime som uppdateras kontinuerligt för att inkludera de senaste funktionerna. Versionen av Spark paketeras med Databricks Runtime-versionen och kan inte åsidosättas. |
autotermination_minutes Eftersom DLT hanterar logik för automatisk avslutning och återanvändning av kluster kan inte klustrets automatiska avslutningstid åsidosättas. |
runtime_engine Även om du kan styra det här fältet genom att aktivera Photon för din pipeline kan du inte ange det här värdet direkt. |
effective_spark_version Det här värdet anges automatiskt av systemet. |
cluster_source Det här fältet skapas av systemet och är skrivskyddat. |
docker_image Eftersom DLT hanterar klusterlivscykeln kan du inte använda en anpassad container med pipelinekluster. |
workload_type Det här värdet anges av systemet och kan inte åsidosättas. |