Compartilhar via


Referência de propriedades DLT

Este artigo fornece uma referência à especificação de configuração de JSON do DLT e propriedades de tabela no Azure Databricks. Para obter mais detalhes sobre como usar essas várias propriedades e configurações, consulte os seguintes artigos:

configurações de processo DLT

Campos
id
Tipo: string
Um identificador global exclusivo para esse pipeline. O identificador é atribuído pelo sistema e não pode ser alterado.
name
Tipo: string
Um nome amigável para esse pipeline. O nome pode ser usado para identificar processos de pipeline na interface.
configuration
Tipo: object
Uma lista opcional de configurações a serem adicionadas à configuração do Spark do cluster que executará o pipeline. Essas configurações são lidas pelo runtime DLT e estão disponíveis para consultas do pipeline por meio da configuração do Spark.
Os elementos devem ser formatados como key:value pares.
libraries
Tipo: array of objects
Uma coleção de notebooks que contêm o código do pipeline e os artefatos necessários.
clusters
Tipo: array of objects
Uma matriz de especificações para os clusters executarem o pipeline.
Se isto não for especificado, os pipelines selecionarão automaticamente uma configuração de cluster padrão para o pipeline.
development
Tipo: boolean
Um indicador que indica se o pipeline deve ser executado em
modo development ou production.
O valor padrão é true
notifications
Tipo: array of objects
Uma lista opcional de especificações para notificações por e-mail quando uma atualização de pipeline é concluída, falha com um erro repetível, falha com um erro não repetível, ou quando um fluxo falha.
continuous
Tipo: boolean
Um indicador que indica se o pipeline deve ser executado continuamente.
O valor padrão é false.
catalog
Tipo: string
O nome do catálogo padrão para a pipeline, onde todos os conjuntos de dados e metadados para a pipeline são publicados. A definição desse valor habilita o Unity Catalog para o pipeline.
Caso não esteja configurado, o pipeline publica no metastore antigo do Hive usando o local especificado em storage.
No modo de publicação herdado, especifica o catálogo que contém o esquema de destino onde todos os conjuntos de dados do pipeline atual são publicados. Consulte esquema LIVE (legado).
schema
Tipo: string
O nome do esquema padrão para o pipeline, onde todos os conjuntos de dados e metadados para o pipeline são publicados por padrão. Consulte Defina o catálogo de destino e o esquema.
target (legado)
Tipo: string
O nome do esquema de destino onde todos os conjuntos de dados definidos no pipeline atual são publicados.
Definir target em vez de schema configura o pipeline para usar o modo de publicação herdado. Veja o esquema LIVE (legado) .
storage (legado)
Tipo: string
Um local no DBFS ou armazenamento em nuvem onde os dados de saída e metadados necessários para a execução do pipeline são armazenados. Tabelas e metadados são armazenados em subdiretórios deste local.
Quando a configuração storage não for especificada, o sistema assumirá como padrão um local em dbfs:/pipelines/.
A configuração storage não pode ser alterada depois que um pipeline é criado.
channel
Tipo: string
A versão do tempo de execução do DLT a ser utilizada. Os valores suportados são:
  • preview para testar o seu pipeline com alterações futuras na versão de runtime.
  • current para usar a versão atual do ambiente de execução.

O campo channel é opcional. O valor padrão é
current. O Databricks recomenda utilizar a versão atual do runtime para cargas de trabalho de produção.
edition
Tipo string
A edição do produto DLT para executar a cadeia de processamento. Essa configuração permite que você escolha a melhor edição do produto com base nos requisitos do seu pipeline:
  • CORE para executar cargas de trabalho de captura em streaming.
  • PRO para executar cargas de trabalho de ingestão contínua e captura de dados alterados (CDC).
  • ADVANCED executar cargas de trabalho de ingestão de streaming, cargas de trabalho CDC e cargas de trabalho que exigem expectativas de DLT para impor restrições de qualidade de dados.

O campo edition é opcional. O valor padrão é
ADVANCED.
photon
Tipo: boolean
Um indicador que indica se deve usar What is Photon? para executar o pipeline. Photon é o mecanismo Spark de alto desempenho do Azure Databricks. Os pipelines com Photon são cobrados a uma tarifa diferente dos pipelines sem Photon.
O campo photon é opcional. O valor padrão é false.
pipelines.maxFlowRetryAttempts
Tipo: int
Se ocorrer uma falha repetida durante uma atualização de pipeline, esse é o número máximo de vezes para repetir um fluxo antes de falhar na atualização do pipeline
Padrão: duas tentativas de nova tentativa. Quando ocorre uma falha repetível, o runtime da DLT tenta executar o fluxo três vezes, incluindo a tentativa original.
pipelines.numUpdateRetryAttempts
Tipo: int
Se ocorrer uma falha repetida durante uma atualização, este é o número máximo de vezes para repetir a atualização antes de falhar permanentemente a atualização. A nova tentativa é executada como uma atualização completa.
Este parâmetro aplica-se apenas a pipelines em execução no modo de produção. Não são realizadas tentativas repetidas se o pipeline for executado em modo de desenvolvimento ou ao executar uma atualização Validate.
Padrão:
  • Cinco para gasodutos acionados.
  • Ilimitado para canais contínuos.

propriedades da tabela DLT

Além das propriedades de tabela suportadas pelo Delta Lake, você pode definir as seguintes propriedades de tabela.

Propriedades da tabela
pipelines.autoOptimize.managed
Padrão: true
Habilita ou desabilita a otimização agendada automaticamente desta tabela.
pipelines.autoOptimize.zOrderCols
Padrão: Nenhum
Uma cadeia de caracteres opcional que contém uma lista de nomes de colunas, separados por vírgulas, para ordenar esta tabela por ordem Z. Por exemplo, pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed
Padrão: true
Controla se uma atualização completa é permitida para esta tabela.

Intervalo de gatilho para pipelines

Você pode especificar um intervalo de ativação do pipeline para todo o pipeline DLT ou como parte de uma declaração de conjunto de dados. Consulte Definir intervalo de ativação para pipelines contínuas.

pipelines.trigger.interval
O padrão é baseado no tipo de fluxo:
  • Cinco segundos para consultas de streaming.
  • Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta.
  • Dez minutos para consultas completas quando algumas fontes de dados podem ser não-Delta.

O valor é um número mais a unidade de tempo. As unidades de tempo válidas são as seguintes:
  • second, seconds
  • minute, minutes
  • hour, hours
  • day, days

Você pode usar a unidade singular ou plural ao definir o valor, por exemplo:
  • {"pipelines.trigger.interval" : "1 hour"}
  • {"pipelines.trigger.interval" : "10 seconds"}
  • {"pipelines.trigger.interval" : "30 second"}
  • {"pipelines.trigger.interval" : "1 minute"}
  • {"pipelines.trigger.interval" : "10 minutes"}
  • {"pipelines.trigger.interval" : "10 minute"}

Atributos de cluster que não são configuráveis pelo usuário

Como a DLT gerencia ciclos de vida de cluster, muitas configurações de cluster são definidas por DLT e não podem ser configuradas manualmente pelos usuários, seja em uma configuração de pipeline ou em uma política de cluster usada por um pipeline. A tabela a seguir lista essas configurações e por que elas não podem ser definidas manualmente.

Campos
cluster_name
A DLT define os nomes dos clusters usados para executar atualizações de pipeline. Estes nomes não podem ser substituídos.
data_security_mode
access_mode
Estes valores são definidos automaticamente pelo sistema.
spark_version
Os clusters DLT são executados em uma versão personalizada do Databricks Runtime que é continuamente atualizada para incluir os recursos mais recentes. A versão do Spark é fornecida com a versão do Databricks Runtime e não pode ser substituída.
autotermination_minutes
Como a DLT gere a lógica de reutilização e terminação automática do cluster, o tempo de terminação automática do cluster não pode ser alterado.
runtime_engine
Embora você possa controlar esse campo habilitando o Photon para seu pipeline, não é possível definir esse valor diretamente.
effective_spark_version
Este valor é definido automaticamente pelo sistema.
cluster_source
Este campo é definido pelo sistema e é de leitura apenas.
docker_image
Como a DLT gerencia o ciclo de vida do cluster, não é possível usar um contêiner personalizado com clusters de pipeline.
workload_type
Esse valor é definido pelo sistema e não pode ser substituído.