Usare le pipeline DLT con il metastore Hive legacy

Articolo
03/06/2025

Questo articolo illustra in dettaglio le configurazioni e le avvertenze specifiche delle pipeline DLT configurate per pubblicare i dati nel metastore Hive legacy. Databricks consiglia di usare Unity Catalog per tutte le nuove pipeline. Vedere Utilizzare il catalogo Unity con le pipeline DLT.

Nota

Questo articolo illustra le funzionalità per la modalità di pubblicazione predefinita corrente per le pipeline. Le pipeline create prima del 5 febbraio 2025 potrebbero utilizzare la modalità di pubblicazione legacy e lo schema virtuale LIVE. Vedere lo schema LIVE (legacy) .

Come eseguire query su tabelle di streaming e viste materializzate nel metastore Hive legacy

Al termine di un aggiornamento, è possibile visualizzare lo schema e le tabelle, eseguire query sui dati o usare i dati nelle applicazioni downstream.

Dopo la pubblicazione, è possibile eseguire query sulle tabelle DLT da qualsiasi ambiente con accesso allo schema di destinazione. Sono inclusi Databricks SQL, notebook e altre pipeline DLT.

Importante

Quando si crea una configurazione target, vengono pubblicate solo le tabelle e i metadati associati. Le visualizzazioni non vengono pubblicate nel metastore.

Configurare una pipeline per la pubblicazione nel metastore Hive

Quando si crea una nuova pipeline, è possibile specificare metastore Hive nelle opzioni di archiviazione per pubblicare nel metastore Hive legacy. È necessario specificare uno schema di destinazione predefinito durante la pubblicazione nel metastore Hive. Consultare Configurare una pipeline DLT.

Specificare un percorso di archiviazione

È possibile specificare un percorso di archiviazione per una pipeline che pubblica nel metastore Hive. La motivazione principale per specificare una posizione consiste nel controllare la posizione di archiviazione degli oggetti per i dati scritti dalla pipeline. Databricks consiglia sempre di specificare un percorso di archiviazione per evitare di scrivere nella radice DBFS.

Poiché tutte le tabelle, i dati, i checkpoint e i metadati per le pipeline DLT sono completamente gestiti da DLT, la maggior parte dell'interazione con i set di dati DLT avviene tramite tabelle registrate nel metastore Hive o nel catalogo Unity.

configurazione dell'archiviazione cloud

Per accedere all'archiviazione di Azure , è necessario configurare i parametri richiesti, inclusi i token di accesso, utilizzando le impostazioni spark.conf nelle configurazioni del cluster. Per un esempio di configurazione dell'accesso a un account di archiviazione di Azure Data Lake Storage Gen2 (ADLS Gen2), vedere Accedere in modo sicuro alle credenziali di archiviazione con segreti in una pipeline.

Usare il registro eventi per le pipeline del metastore Hive

Se la pipeline pubblica tabelle nel metastore Hive, il registro eventi viene memorizzato in /system/events sotto il percorso storage. Ad esempio, se è stata configurata l'impostazione della pipeline storage come /Users/username/data, il registro eventi viene archiviato nel percorso /Users/username/data/system/events in DBFS.

Se non è stata configurata l'impostazione storage, il percorso predefinito del registro eventi è /pipelines/<pipeline-id>/system/events in DBFS. Ad esempio, se l'ID della pipeline è 91de5e48-35ed-11ec-8d3d-0242ac130003, il percorso di archiviazione è /pipelines/91de5e48-35ed-11ec-8d3d-0242ac130003/system/events.

È possibile creare una vista per semplificare l'esecuzione di query nel registro eventi. Nell'esempio seguente viene creata una vista temporanea denominata event_log_raw. Questa vista viene usata nelle query del log eventi di esempio incluse in questo articolo:

CREATE OR REPLACE TEMP VIEW event_log_raw
AS SELECT * FROM delta.`<event-log-path>`;

Sostituisci <event-log-path> con il percorso del registro eventi.

Ogni istanza di un'esecuzione della pipeline viene denominata aggiornamento . Spesso si vogliono estrarre informazioni per l'aggiornamento più recente. Eseguire la query seguente per trovare l'identificatore per l'aggiornamento più recente e salvarlo nella visualizzazione temporanea latest_update_id. Questa vista viene usata nelle query del log eventi di esempio incluse in questo articolo:

CREATE OR REPLACE TEMP VIEW latest_update AS
SELECT origin.update_id AS id
FROM event_log_raw
WHERE event_type = 'create_update'
ORDER BY timestamp DESC
LIMIT 1;

È possibile eseguire query sul log eventi in un notebook di Azure Databricks o nell'editor SQL . Usare un notebook o l'editor SQL per eseguire le query del log eventi di esempio.

notebook del codice sorgente della pipeline di esempio per le aree di lavoro senza catalogo Unity

È possibile importare i notebook seguenti in un'area di lavoro di Azure Databricks senza Unity Catalog abilitata e usarli per distribuire una pipeline DLT. Importare il notebook della lingua scelta e specificare il percorso nel campo codice sorgente durante la configurazione di una pipeline con l'opzione di archiviazione metastore Hive. Consultare Configurare una pipeline DLT.

Introduzione al notebook Python DLT

Prendere il taccuino

Inizia con il notebook SQL DLT

Ottieni notebook

Condividi tramite