Condividi tramite


Configurare una pipeline DLT serverless

Questo articolo descrive le configurazioni per le pipeline DLT serverless.

Databricks consiglia di sviluppare nuove pipeline usando serverless. Alcuni carichi di lavoro potrebbero richiedere la configurazione del calcolo classico o l'uso del metastore Hive legacy. Vedi Configurare il calcolo per una pipeline DLT e Usare le pipeline DLT con il metastore Hive legacy.

Nota

  • Le pipeline serverless usano sempre Unity Catalog. Il catalogo unity per DLT è disponibile in anteprima pubblica e presenta alcune limitazioni. Visualizza Usa il catalogo Unity con le pipeline DLT.
  • Per le limitazioni di calcolo serverless, vedere limitazioni di calcolo serverless.
  • Non è possibile aggiungere manualmente le impostazioni di calcolo in un oggetto clusters nella configurazione JSON per una pipeline serverless. Se si tenta di eseguire questa operazione, si verifica un errore.
  • Se è necessario usare una connessione di collegamento privato di Azure con le pipeline DLT serverless, contattare il rappresentante di Databricks.

Requisiti

  • L'area di lavoro deve disporre di Unity Catalog abilitato per utilizzare pipeline serverless.
  • L'area di lavoro deve trovarsi in un'area abilitata per serverless .

Importante

L'autorizzazione di creazione del cluster non è necessaria per configurare le pipeline serverless. Per impostazione predefinita, tutti gli utenti dell'area di lavoro possono usare pipeline serverless.

Le pipeline serverless rimuovono la maggior parte delle opzioni di configurazione, perché Azure Databricks gestisce tutta l'infrastruttura. Per configurare una pipeline serverless, eseguire le operazioni seguenti:

  1. Fare clic su DLT nella barra laterale.
  2. Fare clic su Crea pipeline.
  3. Specificare un nome univoco di pipeline .
  4. Selezionare la casella accanto a Serverless.
  5. (Facoltativo) Usare l'icona per la selezione del file per configurare i notebook e i file dell'area di lavoro come codice sorgente .
    • Se non si aggiunge codice sorgente, viene creato un nuovo notebook per la pipeline. Il notebook viene generato in una nuova directory nella tua directory utente, e un collegamento per accedervi viene mostrato nel campo codice sorgente nel riquadro Dettagli della pipeline una volta creata la pipeline.
      • Un collegamento per accedere a questo notebook è presente sotto il campo codice sorgente nel pannello Dettagli pipeline dopo aver creato la pipeline.
    • Usare il pulsante Aggiungi codice sorgente per aggiungere altri asset di codice sorgente.
  6. Selezionare un Catalogo per pubblicare i dati.
  7. Selezionare un schema nel catalogo. Tutte le tabelle di streaming e le viste materializzate definite nella pipeline vengono create in questo schema.
  8. Fare clic su Crea.

Queste configurazioni consigliate creano una nuova pipeline configurata per l'esecuzione in modalità attivata e il canale corrente. Questa configurazione è consigliata per molti casi d'uso, tra cui sviluppo e test, ed è particolarmente adatta ai carichi di lavoro di produzione che devono essere eseguiti in base a una pianificazione. Per informazioni dettagliate sulla pianificazione delle pipeline, vedere attività della pipeline DLT per i processi.

È anche possibile convertire le pipeline esistenti configurate con Unity Catalog per l'uso serverless. Vedere Convertire una pipeline esistente per l'uso diserverless.

Altre considerazioni sulla configurazione

Per le pipeline serverless sono disponibili anche le opzioni di configurazione seguenti:

Politica di bilancio

Importante

Questa funzionalità si trova in anteprima pubblica.

I criteri di budget consentono all'organizzazione di applicare tag personalizzati all'utilizzo serverless per l'attribuzione granulare della fatturazione. Dopo aver selezionato la casella di controllo Serverless, viene visualizzata l'impostazione Criterio di budget in cui è possibile selezionare il criterio che si desidera applicare alla pipeline. I tag vengono ereditati dai criteri di budget e possono essere modificati solo dagli amministratori dell'area di lavoro.

Nota

Dopo che ti è stata assegnata una politica di budget, le pipeline esistenti non vengono contrassegnate automaticamente con la tua politica. È necessario aggiornare manualmente le pipeline esistenti se si desidera allegare una politica.

Per ulteriori informazioni sui criteri di budget, vedere Attribuzione dell'utilizzo serverless con i criteri di budget.

Funzionalità della pipeline serverless

Oltre a semplificare la configurazione, le pipeline serverless hanno le funzionalità seguenti:

  • aggiornamento incrementale per le viste materializzate: gli aggiornamenti per le viste materializzate vengono aggiornati in modo incrementale quando possibile. L'aggiornamento incrementale ha gli stessi risultati della ricompilazione completa. L'aggiornamento usa un aggiornamento completo se i risultati non possono essere calcolati in modo incrementale. Vedere aggiornamento incrementale per le viste materializzate.
  • pipeline di flusso: per migliorare l'utilizzo, la velocità effettiva e la latenza per i carichi di lavoro di dati di streaming, ad esempio l'inserimento dei dati, i microbatches vengono messi in pipeline. In altre parole, invece di eseguire microbatches in sequenza come spark structured streaming standard, le pipeline DLT serverless eseguono contemporaneamente microbatches, migliorando l'utilizzo delle risorse di calcolo. Il pipeline di flusso è abilitato per impostazione predefinita nelle pipeline DLT senza server.
  • scalabilità verticale automatica: le pipeline serverless DLT contribuiscono alla scalabilità orizzontale automatica fornita da Databricks, migliorata con una scalabilità avanzata che alloca automaticamente i tipi di istanza più economici in grado di eseguire la pipeline DLT senza fallimenti dovuti a errori di memoria insufficiente. Consulta Che cos'è la scalabilità automatica verticale?

Che cos'è la scalabilità automatica verticale?

La scalabilità verticale automatica delle pipeline DLT serverless assegna automaticamente i tipi di istanze disponibili più economici per eseguire gli aggiornamenti del pipeline DLT senza incorrere in errori di esaurimento della memoria. La scalabilità automatica verticale scala verso l'alto quando sono necessari tipi di istanza più grandi per eseguire un aggiornamento nella pipeline e scala verso il basso quando determina che l'aggiornamento può essere eseguito con tipi di istanza più piccoli. La scalabilità automatica verticale determina se i nodi driver, i nodi di lavoro o i nodi driver e di lavoro devono essere ridimensionati verso l'alto o verso il basso.

La scalabilità automatica verticale viene usata per tutte le pipeline DLT serverless, incluse le pipeline usate dalle viste materializzate e dalle tabelle di streaming di Databricks SQL.

La scalabilità automatica verticale funziona rilevando gli aggiornamenti della pipeline non riusciti a causa di errori di memoria insufficiente. La scalabilità automatica verticale alloca tipi di istanza più grandi quando questi errori vengono rilevati in base ai dati di memoria insufficiente raccolti dall'aggiornamento non riuscito. In modalità di produzione viene avviato automaticamente un nuovo aggiornamento che usa le nuove risorse di calcolo. In modalità di sviluppo, le nuove risorse di calcolo vengono usate quando si avvia manualmente un nuovo aggiornamento.

Se la scalabilità automatica verticale rileva che la memoria delle istanze allocate è costantemente sottoutilizzata, riduce i tipi di istanza da usare nell'aggiornamento successivo della pipeline.

Convertire una pipeline esistente per far utilizzare la capacità serverless

È possibile convertire le pipeline esistenti configurate con Unity Catalog in pipeline serverless. Completare i passaggi seguenti:

  1. Fare clic su DLT nella barra laterale.
  2. Fare clic sul nome della pipeline desiderata nell'elenco.
  3. Fare clic su Impostazioni.
  4. Selezionare la casella accanto a Serverless.
  5. Fare clic su Salva e avvia.

Importante

Quando si abilita serverless, tutte le impostazioni di calcolo configurate per una pipeline vengono rimosse. Se si torna a una pipeline con aggiornamenti non serverless, è necessario riconfigurare le impostazioni di calcolo desiderate nella configurazione della pipeline.

Come è possibile trovare l'utilizzo DBU di una pipeline serverless?

È possibile trovare l'utilizzo DBU delle pipeline DLT serverless eseguendo una query sulla tabella di utilizzo fatturabile, parte delle tabelle di sistema di Azure Databricks. Vedere Qual è il consumo DBU di una pipeline DLT serverless?.