Naslaginformatie over DLT-eigenschappen
Dit artikel bevat een verwijzing naar de specificatie en tabeleigenschappen van DLT JSON-instellingen in Azure Databricks. Zie de volgende artikelen voor meer informatie over het gebruik van deze verschillende eigenschappen en configuraties:
DLT-pijplijnconfiguraties
Velden |
---|
id Type: string Een wereldwijd unieke id voor deze pijplijn. De id wordt toegewezen door het systeem en kan niet worden gewijzigd. |
name Type: string Een gebruiksvriendelijke naam voor deze pijplijn. De naam kan worden gebruikt om pijplijntaken in de gebruikersinterface te identificeren. |
configuration Typ: object Een optionele lijst met instellingen die moeten worden toegevoegd aan de Spark-configuratie van het cluster waarop de pijplijn wordt uitgevoerd. Deze instellingen worden gelezen door de DLT-runtime en zijn beschikbaar voor pijplijnquery's via de Spark-configuratie. Elementen moeten worden opgemaakt als paren van key:value . |
libraries Type: array of objects Een matrix van notebooks met de pijplijncode en vereiste artefacten. |
clusters Type: array of objects Een reeks specificaties voor de clusters die de pijplijn uitvoeren. Als dit niet is opgegeven, selecteren pijplijnen automatisch een standaardclusterconfiguratie voor de pijplijn. |
development Type: boolean Een vlag die aangeeft of de pijplijn moet worden uitgevoerd in development - of production modus.De standaardwaarde is true |
notifications Type: array of objects Een optionele reeks specificaties voor e-mailmeldingen wanneer een pijplijnupdate is voltooid, mislukt met een herstelbare fout, mislukt met een niet-herstelbare fout, of een proces mislukt. |
continuous Type: boolean Een indicator die aangeeft of de pijplijn ononderbroken moet draaien. De standaardwaarde is false . |
catalog Type: string De naam van de standaardcatalogus voor de pijplijn, waar alle gegevenssets en metagegevens voor de pijplijn worden gepubliceerd. Als u deze waarde instelt, wordt Unity Catalog ingeschakeld voor de pijplijn. Als deze niet is ingesteld, wordt de pijplijn gepubliceerd naar de oude Hive-metastore met behulp van de locatie die is opgegeven in storage .In de verouderde publicatiemodus geeft u de catalogus op die het doelschema bevat waarin alle gegevenssets uit de huidige pijplijn worden gepubliceerd. Zie LIVE-schema (verouderd). |
schema Type: string De naam van het standaardschema voor de pijplijn, waarbij alle gegevenssets en metagegevens voor de pijplijn standaard worden gepubliceerd. Zie De doelcatalogus en het schema instellen. |
target (verouderd)Type: string De naam van het doelschema waarin alle gegevenssets die in de huidige pijplijn zijn gedefinieerd, worden gepubliceerd. Als u target instelt in plaats van schema configureert u de pijplijn zodanig dat de verouderde publicatiemodus wordt gebruikt. Zie LIVE-schema (verouderd). |
storage (verouderd)Typ: string Een locatie in DBFS of cloudopslag waar uitvoergegevens en metagegevens die vereist zijn voor pijplijnuitvoering, worden opgeslagen. Tabellen en metagegevens worden opgeslagen in submappen van deze locatie. Wanneer de storage -instelling niet is opgegeven, wordt het systeem standaard ingesteld op een locatie in dbfs:/pipelines/ .De storage -instelling kan niet worden gewijzigd nadat een pijplijn is gemaakt. |
channel Type: string De versie van de DLT-runtime die moet worden gebruikt. De ondersteunde waarden zijn:
Het channel veld is optioneel. De standaardwaarde iscurrent . Databricks raadt aan om de huidige runtimeversie voor productieworkloads te gebruiken. |
edition Typ string De producteditie van DLT voor het uitvoeren van de pijplijn. Met deze instelling kunt u de beste producteditie kiezen op basis van de vereisten van uw pijplijn:
Het edition veld is optioneel. De standaardwaarde isADVANCED . |
photon Type: boolean Een vlag die aangeeft of Wat is Photon? moet worden gebruikt om de pijplijn uit te voeren. Photon is de Krachtige Spark-engine van Azure Databricks. Pijplijnen met foton worden gefactureerd tegen een ander tarief dan niet-Photon-pijplijnen. Het photon veld is optioneel. De standaardwaarde is false . |
pipelines.maxFlowRetryAttempts Type: int Als er een fout optreedt die opnieuw kan worden geprobeerd tijdens een pijplijnupdate, is dit het maximum aantal keren dat een stroom opnieuw moet worden geprobeerd voordat de pijplijnupdate mislukt Standaard: twee nieuwe pogingen. Wanneer er een fout optreedt die opnieuw kan worden geprobeerd, probeert de DLT-runtime de stroom drie keer uit te voeren, inclusief de oorspronkelijke poging. |
pipelines.numUpdateRetryAttempts Type: int Als er een fout optreedt die opnieuw kan worden geprobeerd tijdens een update, is dit het maximum aantal keren dat de update opnieuw moet worden uitgevoerd voordat de update permanent mislukt. De nieuwe poging wordt uitgevoerd als een volledige update. Deze parameter is alleen van toepassing op pijplijnen die worden uitgevoerd in de productiemodus. Herhalingen vinden niet plaats als uw pijplijn in de ontwikkelingsmodus draait of wanneer u een Validate update uitvoert.Standaard:
|
eigenschappen van de DLT-tabel
Naast de tabeleigenschappen die worden ondersteund door Delta Lake, kunt u de volgende tabeleigenschappen instellen.
Tabeleigenschappen |
---|
pipelines.autoOptimize.managed Standaard: true Hiermee schakelt u automatisch geplande optimalisatie van deze tabel in of uit. |
pipelines.autoOptimize.zOrderCols Standaard: Geen Een optionele tekenreeks met een door komma's gescheiden lijst met kolomnamen om deze tabel op z-volgorde te orden. Bijvoorbeeld pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Standaard: true Hiermee bepaalt u of een volledige vernieuwing is toegestaan voor deze tabel. |
triggerinterval voor pijplijnen
U kunt een pijplijntriggerinterval opgeven voor de volledige DLT-pijplijn of als onderdeel van een gegevenssetdeclaratie. Zie Triggerinterval instellen voor continue pijplijnen.
pipelines.trigger.interval |
---|
De standaardwaarde is gebaseerd op het stroomtype:
De waarde is een getal plus de tijdseenheid. Hier volgen de geldige tijdseenheden:
U kunt de enkelvoudige of meervoudseenheid gebruiken bij het definiëren van de waarde, bijvoorbeeld:
|
clusterkenmerken die geen gebruikerssettabel zijn
Omdat DLT de levenscyclus van clusters beheert, worden veel clusterinstellingen ingesteld door DLT en kunnen ze niet handmatig worden geconfigureerd in een pijplijnconfiguratie of in een clusterbeleid dat wordt gebruikt door een pijplijn. De volgende tabel bevat deze instellingen en waarom ze niet handmatig kunnen worden ingesteld.
Velden |
---|
cluster_name DLT stelt de namen in van de clusters die worden gebruikt om pijplijnupdates uit te voeren. Deze namen kunnen niet worden overschreven. |
data_security_mode access_mode Deze waarden worden automatisch ingesteld door het systeem. |
spark_version DLT-clusters worden uitgevoerd op een aangepaste versie van Databricks Runtime die voortdurend wordt bijgewerkt met de nieuwste functies. De versie van Spark is gebundeld met de Databricks Runtime-versie en kan niet worden overschreven. |
autotermination_minutes Omdat DLT automatische beëindiging van clusters beheert en logica opnieuw gebruikt, kan de tijd voor automatische beëindiging van het cluster niet worden overschreven. |
runtime_engine Hoewel u dit veld kunt beheren door Photon in te schakelen voor uw pijplijn, kunt u deze waarde niet rechtstreeks instellen. |
effective_spark_version Deze waarde wordt automatisch ingesteld door het systeem. |
cluster_source Dit veld wordt ingesteld door het systeem en heeft het kenmerk Alleen-lezen. |
docker_image Omdat DLT de levenscyclus van het cluster beheert, kunt u geen aangepaste container met pijplijnclusters gebruiken. |
workload_type Deze waarde wordt ingesteld door het systeem en kan niet worden overschreven. |