Naslaginformatie over DLT-eigenschappen

Artikel
03/11/2025

Dit artikel bevat een verwijzing naar de specificatie en tabeleigenschappen van DLT JSON-instellingen in Azure Databricks. Zie de volgende artikelen voor meer informatie over het gebruik van deze verschillende eigenschappen en configuraties:

DLT-pijplijnconfiguraties

Velden
`id` Type: `string` Een wereldwijd unieke id voor deze pijplijn. De id wordt toegewezen door het systeem en kan niet worden gewijzigd.
`name` Type: `string` Een gebruiksvriendelijke naam voor deze pijplijn. De naam kan worden gebruikt om pijplijntaken in de gebruikersinterface te identificeren.
`configuration` Typ: `object` Een optionele lijst met instellingen die moeten worden toegevoegd aan de Spark-configuratie van het cluster waarop de pijplijn wordt uitgevoerd. Deze instellingen worden gelezen door de DLT-runtime en zijn beschikbaar voor pijplijnquery's via de Spark-configuratie. Elementen moeten worden opgemaakt als paren van `key:value`.
`libraries` Type: `array of objects` Een matrix van notebooks met de pijplijncode en vereiste artefacten.
`clusters` Type: `array of objects` Een reeks specificaties voor de clusters die de pijplijn uitvoeren. Als dit niet is opgegeven, selecteren pijplijnen automatisch een standaardclusterconfiguratie voor de pijplijn.
`development` Type: `boolean` Een vlag die aangeeft of de pijplijn moet worden uitgevoerd in `development`- of `production` modus. De standaardwaarde is `true`
`notifications` Type: `array of objects` Een optionele reeks specificaties voor e-mailmeldingen wanneer een pijplijnupdate is voltooid, mislukt met een herstelbare fout, mislukt met een niet-herstelbare fout, of een proces mislukt.
`continuous` Type: `boolean` Een indicator die aangeeft of de pijplijn ononderbroken moet draaien. De standaardwaarde is `false`.
`catalog` Type: `string` De naam van de standaardcatalogus voor de pijplijn, waar alle gegevenssets en metagegevens voor de pijplijn worden gepubliceerd. Als u deze waarde instelt, wordt Unity Catalog ingeschakeld voor de pijplijn. Als deze niet is ingesteld, wordt de pijplijn gepubliceerd naar de oude Hive-metastore met behulp van de locatie die is opgegeven in `storage`. In de verouderde publicatiemodus geeft u de catalogus op die het doelschema bevat waarin alle gegevenssets uit de huidige pijplijn worden gepubliceerd. Zie LIVE-schema (verouderd).
`schema` Type: `string` De naam van het standaardschema voor de pijplijn, waarbij alle gegevenssets en metagegevens voor de pijplijn standaard worden gepubliceerd. Zie De doelcatalogus en het schema instellen.
`target` (verouderd) Type: `string` De naam van het doelschema waarin alle gegevenssets die in de huidige pijplijn zijn gedefinieerd, worden gepubliceerd. Als u `target` instelt in plaats van `schema` configureert u de pijplijn zodanig dat de verouderde publicatiemodus wordt gebruikt. Zie LIVE-schema (verouderd).
`storage` (verouderd) Typ: `string` Een locatie in DBFS of cloudopslag waar uitvoergegevens en metagegevens die vereist zijn voor pijplijnuitvoering, worden opgeslagen. Tabellen en metagegevens worden opgeslagen in submappen van deze locatie. Wanneer de `storage`-instelling niet is opgegeven, wordt het systeem standaard ingesteld op een locatie in `dbfs:/pipelines/`. De `storage`-instelling kan niet worden gewijzigd nadat een pijplijn is gemaakt.
`channel` Type: `string` De versie van de DLT-runtime die moet worden gebruikt. De ondersteunde waarden zijn: `preview` om uw pijplijn te testen met toekomstige wijzigingen in de runtimeversie. `current` om de huidige runtimeversie te gebruiken. Het `channel` veld is optioneel. De standaardwaarde is `current`. Databricks raadt aan om de huidige runtimeversie voor productieworkloads te gebruiken.
`edition` Typ `string` De producteditie van DLT voor het uitvoeren van de pijplijn. Met deze instelling kunt u de beste producteditie kiezen op basis van de vereisten van uw pijplijn: `CORE` om streaming ingestietaken uit te voeren. `PRO` voor het uitvoeren van streaming-opname- en wijzigingsgegevensopnameworkloads (CDC). `ADVANCED` voor het uitvoeren van streaming-opnameworkloads, CDC-workloads en workloads waarvoor DLT-verwachtingen nodig zijn om beperkingen voor gegevenskwaliteit af te dwingen. Het `edition` veld is optioneel. De standaardwaarde is `ADVANCED`.
`photon` Type: `boolean` Een vlag die aangeeft of Wat is Photon? moet worden gebruikt om de pijplijn uit te voeren. Photon is de Krachtige Spark-engine van Azure Databricks. Pijplijnen met foton worden gefactureerd tegen een ander tarief dan niet-Photon-pijplijnen. Het `photon` veld is optioneel. De standaardwaarde is `false`.
`pipelines.maxFlowRetryAttempts` Type: `int` Als er een fout optreedt die opnieuw kan worden geprobeerd tijdens een pijplijnupdate, is dit het maximum aantal keren dat een stroom opnieuw moet worden geprobeerd voordat de pijplijnupdate mislukt Standaard: twee nieuwe pogingen. Wanneer er een fout optreedt die opnieuw kan worden geprobeerd, probeert de DLT-runtime de stroom drie keer uit te voeren, inclusief de oorspronkelijke poging.
`pipelines.numUpdateRetryAttempts` Type: `int` Als er een fout optreedt die opnieuw kan worden geprobeerd tijdens een update, is dit het maximum aantal keren dat de update opnieuw moet worden uitgevoerd voordat de update permanent mislukt. De nieuwe poging wordt uitgevoerd als een volledige update. Deze parameter is alleen van toepassing op pijplijnen die worden uitgevoerd in de productiemodus. Herhalingen vinden niet plaats als uw pijplijn in de ontwikkelingsmodus draait of wanneer u een `Validate` update uitvoert. Standaard: Vijf voor geactiveerde pijplijnen. Onbeperkt voor continue pijplijnen.

eigenschappen van de DLT-tabel

Naast de tabeleigenschappen die worden ondersteund door Delta Lake, kunt u de volgende tabeleigenschappen instellen.

Tabeleigenschappen
`pipelines.autoOptimize.managed` Standaard: `true` Hiermee schakelt u automatisch geplande optimalisatie van deze tabel in of uit.
`pipelines.autoOptimize.zOrderCols` Standaard: Geen Een optionele tekenreeks met een door komma's gescheiden lijst met kolomnamen om deze tabel op z-volgorde te orden. Bijvoorbeeld `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` Standaard: `true` Hiermee bepaalt u of een volledige vernieuwing is toegestaan voor deze tabel.

triggerinterval voor pijplijnen

U kunt een pijplijntriggerinterval opgeven voor de volledige DLT-pijplijn of als onderdeel van een gegevenssetdeclaratie. Zie Triggerinterval instellen voor continue pijplijnen.

`pipelines.trigger.interval`
De standaardwaarde is gebaseerd op het stroomtype: Vijf seconden voor streamingquery's. Eén minuut voor volledige query's wanneer alle invoergegevens afkomstig zijn uit Delta-bronnen. Tien minuten voor volledige query's wanneer sommige gegevensbronnen mogelijk niet-Delta zijn. De waarde is een getal plus de tijdseenheid. Hier volgen de geldige tijdseenheden: `second`, `seconds` `minute`, `minutes` `hour`, `hours` `day`, `days` U kunt de enkelvoudige of meervoudseenheid gebruiken bij het definiëren van de waarde, bijvoorbeeld: `{"pipelines.trigger.interval" : "1 hour"}` `{"pipelines.trigger.interval" : "10 seconds"}` `{"pipelines.trigger.interval" : "30 second"}` `{"pipelines.trigger.interval" : "1 minute"}` `{"pipelines.trigger.interval" : "10 minutes"}` `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

De standaardwaarde is gebaseerd op het stroomtype:

Vijf seconden voor streamingquery's.
Eén minuut voor volledige query's wanneer alle invoergegevens afkomstig zijn uit Delta-bronnen.
Tien minuten voor volledige query's wanneer sommige gegevensbronnen mogelijk niet-Delta zijn.

De waarde is een getal plus de tijdseenheid. Hier volgen de geldige tijdseenheden:

second, seconds
minute, minutes
hour, hours
day, days

U kunt de enkelvoudige of meervoudseenheid gebruiken bij het definiëren van de waarde, bijvoorbeeld:

{"pipelines.trigger.interval" : "1 hour"}
{"pipelines.trigger.interval" : "10 seconds"}
{"pipelines.trigger.interval" : "30 second"}
{"pipelines.trigger.interval" : "1 minute"}
{"pipelines.trigger.interval" : "10 minutes"}
{"pipelines.trigger.interval" : "10 minute"}

clusterkenmerken die geen gebruikerssettabel zijn

Omdat DLT de levenscyclus van clusters beheert, worden veel clusterinstellingen ingesteld door DLT en kunnen ze niet handmatig worden geconfigureerd in een pijplijnconfiguratie of in een clusterbeleid dat wordt gebruikt door een pijplijn. De volgende tabel bevat deze instellingen en waarom ze niet handmatig kunnen worden ingesteld.

Velden
`cluster_name` DLT stelt de namen in van de clusters die worden gebruikt om pijplijnupdates uit te voeren. Deze namen kunnen niet worden overschreven.
`data_security_mode` `access_mode` Deze waarden worden automatisch ingesteld door het systeem.
`spark_version` DLT-clusters worden uitgevoerd op een aangepaste versie van Databricks Runtime die voortdurend wordt bijgewerkt met de nieuwste functies. De versie van Spark is gebundeld met de Databricks Runtime-versie en kan niet worden overschreven.
`autotermination_minutes` Omdat DLT automatische beëindiging van clusters beheert en logica opnieuw gebruikt, kan de tijd voor automatische beëindiging van het cluster niet worden overschreven.
`runtime_engine` Hoewel u dit veld kunt beheren door Photon in te schakelen voor uw pijplijn, kunt u deze waarde niet rechtstreeks instellen.
`effective_spark_version` Deze waarde wordt automatisch ingesteld door het systeem.
`cluster_source` Dit veld wordt ingesteld door het systeem en heeft het kenmerk Alleen-lezen.
`docker_image` Omdat DLT de levenscyclus van het cluster beheert, kunt u geen aangepaste container met pijplijnclusters gebruiken.
`workload_type` Deze waarde wordt ingesteld door het systeem en kan niet worden overschreven.

Delen via

Naslaginformatie over DLT-eigenschappen

DLT-pijplijnconfiguraties

eigenschappen van de DLT-tabel

triggerinterval voor pijplijnen

clusterkenmerken die geen gebruikerssettabel zijn

Feedback

Aanvullende resources