Lakeflow Connect
Ważne
Zarządzane łączniki SaaS i bazy danych udostępniane przez usługę Lakeflow Connect znajdują się w różnych stanach wersji .
Ten artykuł zawiera omówienie usługi Databricks Lakeflow Connect, która oferuje w pełni zarządzane łączniki do pozyskiwania danych z aplikacji SaaS, takich jak Salesforce i bazy danych, takie jak SQL Server, do usługi Azure Databricks lakehouse. Wynikowy pipeline ingestowania danych jest zarządzany przez Unity Catalog i obsługiwany przez bezserwerowe przetwarzanie oraz Delta Live Tables (DLT). Usługa Lakeflow Connect wykorzystuje wydajne operacje odczytu przyrostowego i zapisu w celu szybszego, skalowalnego i bardziej ekonomicznego pozyskiwania danych, podczas gdy dane pozostają świeże do użycia podrzędnego.
Składniki łącznika SaaS
Łącznik SaaS jest modelowany przez następujące składniki:
- Połączenie: chroniony obiekt Unity Catalog, który przechowuje szczegóły uwierzytelniania dla bazy danych.
- Potok przetwarzania danych: Importuje przygotowane dane do tabel Delta. Ten składnik jest modelowany jako bezserwerowy pipeline DLT.
Składniki łącznika bazy danych
Łącznik bazy danych jest modelowany przez następujące składniki:
- Połączenie: obiekt zabezpieczany w ramach Unity Catalog, który przechowuje szczegóły uwierzytelniania dla bazy danych.
- Brama: wyodrębnia dane ze źródłowej bazy danych i utrzymuje integralność transakcji podczas transferu. W przypadku baz danych opartych na chmurze brama jest skonfigurowana jako pipeline DLT z klasyczną infrastrukturą obliczeniową.
- Magazyn tymczasowy: wolumin środowiska Unity Catalog, w którym dane z bramy są przygotowywane przed zastosowaniem do Tabeli Delta. Konto magazynowe etapowe jest tworzone podczas wdrażania bramy i istnieje w katalogu i schemacie, które określisz.
- Potok pozyskiwania danych: Pozyskiwanie przygotowanych danych do tabel Delta. Ten składnik jest modelowany jako bezserwerowy potok DLT.
Lakeflow Connect kontra Lakehouse Federation kontra Delta Sharing
Federacja lakehouse umożliwia wykonywanie zapytań o zewnętrzne źródła danych bez przenoszenia danych. Delta Sharing pozwala na bezpieczne udostępnianie danych na żywo między platformami, chmurami i regionami. Databricks zaleca przechwytywanie przy użyciu programu Lakeflow Connect, ponieważ umożliwia skalowanie do obsługi dużych ilości danych, zapytań o małe opóźnienia i limitów interfejsu API innych firm. Jednak możesz chcieć wykonać zapytanie dotyczące danych bez ich przenoszenia.
Jeśli masz wybór między Lakeflow Connect, Lakehouse Federation i Delta Sharing, wybierz Delta Sharing w następujących scenariuszach:
- Ograniczanie duplikowania danych.
- Wykonywanie zapytań dotyczących najświeższych możliwych danych.
Wybierz Lakehouse Federation w następujących scenariuszach:
- Raportowanie ad hoc, bądź praca nad dowodem koncepcji na potokach ETL.
Program Lakeflow Connect a moduł automatycznego ładowania
Usługa Lakeflow Connect udostępnia wbudowane łączniki, które umożliwiają przyrostowe pozyskiwanie danych z aplikacji i baz danych dla przedsiębiorstw. Auto Loader to łącznik dla magazynów obiektów w chmurze, który umożliwia wykonywanie przyrostowego ładowania plików, gdy pojawią się w usługach S3, ADLS i GCS. Jest ona zgodna z usługą Structured Streaming i DLT, ale nie jest zintegrowana z usługą Lakeflow Connect.
Czy usługa Lakeflow Connect może zapisywać z powrotem do aplikacji i baz danych innych firm?
Nr Jeśli interesuje Cię ta funkcja, skontaktuj się z zespołem ds. kont.
Jaki jest koszt usługi Lakeflow Connect?
Na razie klienci są rozliczani tylko za użycie bezserwerowej biblioteki DLT potrzebne do załadowania danych ze źródła (w przypadku nawiązywania połączenia z aplikacją dla przedsiębiorstw, takiej jak Salesforce) lub z woluminu przejściowego (w przypadku nawiązywania połączenia z bazą danych, na przykład z programem SQL Server). Ostateczny model cen dla usługi Lakeflow Connect może obejmować dodatkowe opłaty i zostanie ogłoszony w przyszłości.
Cennik bezserwerowego DLT jest widoczny na naszej stronie cenowej .