Condividi tramite


Lakeflow Connect

Importante

I connettori SaaS e di database gestiti forniti da Lakeflow Connect si trovano in vari stati di rilascio .

Questo articolo offre una panoramica di Databricks Lakeflow Connect, che offre connettori completamente gestiti per l'inserimento di dati da applicazioni SaaS come Salesforce e database come SQL Server in un lakehouse di Azure Databricks. La pipeline di inserimento risultante è governata dal catalogo unity ed è basata su calcolo serverless e DLT. Lakeflow Connect sfrutta letture incrementali e scritture efficienti per rendere l'inserimento dei dati più veloce, scalabile e più conveniente, mentre i dati rimangono aggiornati per l'utilizzo downstream.

Componenti del connettore SaaS

Un connettore SaaS è modellato dai componenti seguenti:

  • Connection: oggetto proteggibile nel Catalogo Unity che archivia i dettagli di autenticazione per il database.
  • pipeline di inserimento: inserisce i dati preparati nelle tabelle Delta. Questo componente è modellato come una pipeline DLT serverless.

Diagramma dei componenti del connettore SaaS

Componenti del connettore di database

Un connettore di database è modellato dai componenti seguenti:

  • Connection: oggetto proteggibile nel Catalogo Unity che archivia i dettagli di autenticazione per il database.
  • Gateway: estrae i dati dal database di origine e mantiene l'integrità delle transazioni durante il trasferimento. Per i database basati sul cloud, il gateway viene configurato come pipeline DLT con calcolo classico.
  • Staging Storage: un volume di Unity Catalog dove i dati provenienti dal gateway sono temporaneamente archiviati prima di essere applicati a una tabella Delta. L'account di archiviazione di staging viene creato quando viene distribuito il gateway ed è presente nel catalogo e nello schema che hai specificato.
  • pipeline di inserimento: inserisce i dati preparati nelle tabelle Delta. Questo componente viene modellato come una pipeline DLT serverless.

Diagramma dei componenti del connettore di database

Lakeflow Connect vs. Lakehouse Federation vs. Delta Sharing

Lakehouse Federation consente di eseguire query su origini dati esterne senza spostare i dati. Delta Sharing consente di condividere in modo sicuro i dati live tra piattaforme, cloud e regioni. Databricks consiglia l'inserimento usando Lakeflow Connect perché ridimensiona per supportare volumi di dati elevati, query a bassa latenza e limiti di API di terze parti. Tuttavia, è possibile eseguire query sui dati senza spostarli.

Quando si ha una scelta tra Lakeflow Connect, Federazione Lakehouse e Condivisione Delta, scegliere Condivisione Delta per gli scenari seguenti:

  • Limitazione della duplicazione dei dati.
  • Esecuzione di query sui dati più aggiornati possibili.

Scegliere Lakehouse Federation per gli scenari seguenti:

  • La creazione di report ad hoc o il lavoro di proof-of-concept sulle pipeline ETL.

Lakeflow Connect e caricatore automatico

Lakeflow Connect offre connettori predefiniti che consentono di inserire dati in modo incrementale da applicazioni e database aziendali. Il caricatore automatico è un connettore per l'archiviazione di oggetti cloud che consente di inserire in modo incrementale i file man mano che arrivano in S3, ADLS e GCS. È compatibile con Structured Streaming e DLT, ma non si integra con Lakeflow Connect.

Lakeflow Connect può eseguire il writeback in app e database di terze parti?

No. Se sei interessato a questa funzionalità, contatta il tuo team account.

Qual è il costo per Lakeflow Connect?

Per il momento, i clienti vengono fatturati solo per l'utilizzo DLT serverless necessario per caricare i dati dall'origine (se ci si connette a un'applicazione aziendale, ad esempio Salesforce) o dal volume di staging (se ci si connette a un database, ad esempio SQL Server). Il modello di prezzi finale per Lakeflow Connect potrebbe includere addebiti aggiuntivi e verrà annunciato in futuro.

I prezzi del DLT serverless sono visibili sulla pagina dei prezzi .