Lakeflow Connect
Внимание
Соединители SaaS и базы данных, управляемые Lakeflow Connect, находятся в разных состояниях выпуска .
В этой статье представлен обзор Databricks Lakeflow Connect, который предлагает полностью управляемые соединители для интеграции данных из приложений SaaS, таких как Salesforce, и баз данных, таких как SQL Server, в хранилище данных Azure Databricks Lakehouse. Результирующий конвейер обработки управляется каталогом Unity, использует бессерверные вычисления и технологию DLT. Lakeflow Connect использует эффективные добавочные операции чтения и записи для ускорения, масштабирования и удешевления приема данных, в то время как данные остаются актуальными для дальнейшего использования.
Компоненты соединителя SaaS
Соединитель SaaS моделировается следующими компонентами:
- Подключение: защищаемый объект Unity Catalog, который хранит данные аутентификации для базы данных.
- Конвейер загрузки данных: загружает подготовленные данные в таблицы Delta. Этот компонент моделировается как бессерверный конвейер DLT.
Компоненты соединителя базы данных
Соединитель базы данных моделиируется следующими компонентами:
- подключение: защищаемый объект Unity Catalog, который хранит сведения о проверке подлинности для базы данных.
- Шлюз. Извлекает данные из исходной базы данных и поддерживает целостность транзакций во время передачи. Для облачных баз данных шлюз настраивается как конвейер DLT с классическими вычислениями.
- Промежуточное хранилище: том каталога Unity, в котором данные из шлюза временно сохраняются перед применением к таблице Delta. Промежуточная учетная запись хранения создается при развертывании шлюза и существует в каталоге и указанной схеме.
- Конвейер загрузки данных: загружает подготовленные данные в таблицы Delta. Этот компонент моделировается как бессерверный конвейер DLT.
Lakeflow Connect vs. Lakehouse Federation vs. Delta Sharing
Федерация Lakehouse позволяет запрашивать внешние источники данных без перемещения данных. Delta Sharing позволяет безопасно делиться актуальными данными между платформами, облаками и регионами. Databricks рекомендует интеграцию с помощью Lakeflow Connect, так как он масштабируется для обработки больших объемов данных, низкой задержки запросов и ограничений API от сторонних поставщиков. Однако может потребоваться запросить данные, не перемещая их.
Если у вас есть выбор между Lakeflow Connect, Lakehouse Federation и Delta Sharing, выберите Delta Sharing для следующих сценариев:
- Ограничение дублирования данных.
- Запрашивая самые свежие возможные данные.
Выберите Lakehouse Federation для следующих сценариев:
- Нерегламентированные отчеты или работа с доказательством концепции над конвейерами ETL.
Lakeflow Connect и автозагрузчик
Lakeflow Connect предоставляет встроенные соединители, которые позволяют поэтапно загружать данные из корпоративных приложений и баз данных. Автозагрузчик — это коннектор для облачного хранилища объектов, который позволяет поэтапно загружать файлы по мере их поступления в S3, ADLS, GCS. Он совместим со структурированной потоковой передачей и DLT, но не интегрируется с Lakeflow Connect.
Может ли Lakeflow Connect вернуться к сторонним приложениям и базам данных?
№ Если вы заинтересованы в этой функции, обратитесь к своей команде аккаунтов.
Какова стоимость Lakeflow Connect?
На данный момент клиентам выставляются счета только за использование бессерверного DLT, необходимого для загрузки данных из источника (при подключении к корпоративному приложению, например Salesforce) или из промежуточного тома (при подключении к базе данных, например SQL Server). Окончательная модель ценообразования для Lakeflow Connect может включать дополнительные расходы и будет объявлена в будущем.