FSCK REPAIR TABLE
Aplica-se a: Databricks SQL
Databricks Runtime
Remover as entradas de ficheiros do log de transações de uma tabela Delta que não podem mais ser encontradas no sistema de ficheiros subjacente. Isso pode acontecer quando esses arquivos foram excluídos manualmente.
Sintaxe
FSCK REPAIR TABLE table_name [DRY RUN]
Parâmetros
-
Identifica uma tabela Delta existente. O nome não deve incluir uma especificação temporal ou uma especificação de opções.
FUNCIONAMENTO SECO
Mostra informações sobre as entradas de arquivo que seriam removidas do log de transações de uma tabela Delta por
FSCK REPAIR TABLE
, porque elas não podem mais ser encontradas no sistema de arquivos subjacente. Isso pode acontecer quando esses arquivos foram excluídos manualmente. As entradas de arquivo são um caminho de arquivo de dados ou uma combinação de um caminho de arquivo de dados e caminho de arquivo de vetor de exclusão. As entradas de arquivo são incluídas na saída quando o arquivo de dados está ausente, quando o arquivo de vetor de exclusão está ausente ou quando ambos estão ausentes.Por padrão,
DRY RUN
retorna apenas os primeiros 1000 arquivos. Você pode aumentar esse limite definindo a variávelspark.databricks.delta.fsck.maxNumEntriesInResult
SparkSession para um valor mais alto antes de executar o comando em um bloco de anotações.
Devoluções
Para DRY RUN
um relatório do formulário:
dataFilePath STRING NOT NULL
dataFileMissing BOOLEAN NOT NULL
deletionVectorPath STRING
deletionVectorFileMissing BOOLEAN NOT NULL
Exemplos
— Assume file1.parquet is missing and no DV is expected.
> FSCK REPAIR TABLE t DRY RUN;
dataFilePath dataFileMissing deletionVectorPath deletionVectorFileMissing
------------- --------------- ------------------ -------------------------
file1.parquet true null false
— Assume dv1.bin is missing.
> FSCK REPAIR TABLE t DRY RUN;
dataFilePath dataFileMissing deletionVectorPath deletionVectorFileMissing
------------- --------------- ------------------ -------------------------
file1.parquet false dv1.bin true