Эталонные архитектуры для Lakehouse (для скачивания)

Статья
02/03/2025

В этой статье описывается руководство по архитектуре lakehouse с точки зрения источника данных, приема данных, преобразования, запроса и обработки, обслуживания, анализа и хранения.

Каждая эталонная архитектура имеет скачиваемый PDF-файл в формате 11 x 17 (A3).

Хотя Lakehouse на Databricks является открытой платформой, которая интегрируется с большой экосистемой партнерских инструментов, эталонные архитектуры ориентированы исключительно на службы Azure и Lakehouse Databricks. Показаны службы поставщиков облачных служб, чтобы проиллюстрировать основные понятия и не являются исчерпывающими.

Эталонная архитектура для Azure Databricks lakehouse.

скачать: эталонная архитектура для Azure Databricks Lakehouse

Эталонная архитектура Azure демонстрирует следующие специфичные службы Azure для сбора данных, хранения, предоставления и анализа:

Azure Synapse и SQL Server в качестве исходных систем для Lakehouse Federation
Центр Интернета вещей Azure и Центры событий Azure для приема потоковой передачи
Фабрика данных Azure для пакетной загрузки
Azure Data Lake Storage 2-го поколения (ADLS) в качестве хранилища объектов
База данных SQL Azure и Azure Cosmos DB в качестве операционных баз данных
Azure Purview в качестве корпоративного каталога, куда UC экспортирует информацию о схеме данных и её происхождении.
Power BI в качестве средства бизнес-аналитики

Организация эталонных архитектур

Эталонная архитектура структурирована вдоль полос источник, прием, преобразование, запрос/процесс, обслуживание, анализ, и хранилище:

Источник

Архитектура отличается от полуструктурированных и неструктурированных данных (датчиков и Интернета вещей, мультимедиа, файлов и журналов) и структурированных данных (RDBMS, бизнес-приложений). Источники SQL (RDBMS) также можно интегрировать в lakehouse и каталог Unity без использования ETL через федерацию lakehouse. Кроме того, данные могут загружаться из других поставщиков облачных служб.
Глотать

Данные можно загружать в lakehouse пакетным или потоковым способом:
- Databricks Lakeflow Connect предлагает встроенные соединители для загрузки из корпоративных приложений и баз данных. Результирующий конвейер обработки управляется каталогом Unity, использует бессерверные вычисления и технологию DLT.
- Файлы, доставленные в облачное хранилище, можно загружать непосредственно с помощью автозагрузчика Databricks.
- Для пакетного приема данных из корпоративных приложений в Delta Lake платформа lakehouse от Databricks полагается на инструменты интеграции партнеров с определенными адаптерами для этих систем записей.
- События потоковой передачи можно получать непосредственно из систем потоковой передачи данных, таких как Kafka, используя функцию Structured Streaming в Databricks. Источники потоковой передачи могут быть датчиками, IoT или процессами отслеживания измененных данных.
Память

Данные обычно хранятся в облачной системе хранения данных, где конвейеры ETL используют архитектуру медальона для хранения данных в виде Delta-файлов и таблиц.
Преобразование и Запрос / Обработка

Databricks lakehouse использует свои механизмы Apache Spark и Photon для всех преобразований и запросов.

DLT (DLT) — это декларативная платформа для упрощения и оптимизации надежных, обслуживаемых и тестируемых конвейеров обработки данных.

На базе Apache Spark и Photon платформа аналитики данных Databricks поддерживает оба типа рабочих нагрузок: SQL-запросы через хранилища SQL, а также рабочие нагрузки Python и Scala через кластеры рабочих областей.

Для науки о данных (моделирование ML и генеративный ИИ) платформа Databricks AI и Машинное обучение предоставляют специализированные среды выполнения для AutoML и кодирования задач машинного обучения. Все рабочие процессы обработки и анализа данных и MLOps лучше всего поддерживаются MLflow.
обслуживание

Для случаев использования DWH и BI платформа lakehouse от Databricks предоставляет Databricks SQL, хранилище данных на базе хранилищ SQL и бессерверных хранилищ SQL.

Для машинного обучения обслуживание моделей — это масштабируемая возможность обслуживания моделей в реальном времени, корпоративного уровня, доступная в плоскости управления Databricks. Mosaic AI Gateway — это решение Databricks для управления и мониторинга доступа к поддерживаемым генеративным AI моделям и связанным с ними конечным точкам обслуживания моделей.

Операционные базы данных: внешние системы, такие как операционные базы данных, можно использовать для хранения и доставки конечных продуктов данных в пользовательские приложения.

Совместная работа: бизнес-партнеры получают безопасный доступ к данным, которые они нуждаются, с помощью Delta Sharing. На основе Delta Sharing Databricks Marketplace — это открытый форум для обмена продуктами данных.
Анализ

Последние бизнес-приложения находятся в этой плаваловой полосе. Примеры включают в себя пользовательские клиенты, такие как приложения ИИ, подключенные к Mosaic AI Model Serving для вывода в режиме реального времени, или приложения, которые обращаются к данным, отправленным из lakehouse в оперативную базу данных.

Для вариантов использования бизнес-аналитики обычно используют средства бизнес-аналитики для доступа к хранилищу данных. Разработчики SQL также могут использовать редактор SQL Databricks (не показан на схеме) для запросов и панелей мониторинга.

Платформа аналитики данных также предлагает панели мониторинга для создания визуализаций данных и обмена аналитическими сведениями.
Интегрируйте
- Платформа Databricks интегрируется со стандартными поставщиками удостоверений для управления пользователями и единого входа (SSO).
- Внешние службы ИИ, такие как OpenAI, LangChain или HuggingFace можно использовать непосредственно из платформы Аналитики Databricks.
- Внешние оркестраторы могут использовать комплексный REST API или специализированные коннекторы для таких внешних средств оркестрации, как Apache Airflow.
- Каталог Unity используется для управления всеми данными и ИИ в Интеллектуальной платформе Databricks и может интегрировать другие базы данных в управление с помощью Федерация Lakehouse.
  
  Кроме того, каталог Unity можно интегрировать в другие корпоративные каталоги, например Purview. Для получения сведений обратитесь к поставщику корпоративного каталога.

Общие возможности для всех рабочих нагрузок

Кроме того, Databricks lakehouse поставляется с возможностями управления, поддерживающими все рабочие нагрузки:

Управление данными и ИИ

Центральная система управления данными и ИИ в платформе аналитики данных Databricks — это Unity Catalog. Каталог Unity предоставляет одно место для управления политиками доступа к данным, которые применяются во всех рабочих областях и поддерживают все ресурсы, созданные или используемые в lakehouse, такие как таблицы, тома, компоненты (хранилище компонентов) и модели (реестр моделей). Каталог Unity также можно использовать для отслеживания происхождения данных среды выполнения в запросах, выполняемых в Databricks.

Databricks мониторинг озерохранилища позволяет отслеживать качество данных всех таблиц в вашем аккаунте. Он также может отслеживать производительность моделей машинного обучения и конечных точек, обслуживающих модели.

Для обеспечения наблюдаемости системная таблица — это аналитическое хранилище операционных данных вашей учетной записи, размещенное в Databricks. Системные таблицы можно использовать для исторической наблюдаемости в вашей учетной записи.
Подсистема аналитики данных

Платформа аналитики данных Databricks позволяет всей организации использовать данные и ИИ. Он работает с DatabricksIQ и объединяет генеративный ИИ с преимуществами гибридного хранилища данных, для понимания уникальной семантики ваших данных.

Помощник Databricks доступен в блокнотах Databricks, редакторе SQL и файловом редакторе в качестве контекстно-осведомленного ИИ помощника для разработчиков.
автоматизация & оркестрация

Databricks Jobs управляет обработкой данных, машинным обучением и конвейерами аналитики на платформе Databricks Data Intelligence. DLT позволяют создавать надежные и обслуживаемые конвейеры ETL с декларативным синтаксисом. Платформа также поддерживает CI/CD и MLOps

Высокоуровневые варианты использования платформы аналитики данных в Azure

Databricks Lakeflow Connect предлагает встроенные соединители для загрузки данных из корпоративных приложений и баз данных. Результирующий конвейер приема управляется каталогом Unity и управляется бессерверными вычислительными ресурсами и DLT. Lakeflow Connect использует эффективные добавочные операции чтения и записи для ускорения, масштабирования и удешевления приема данных, в то время как данные остаются актуальными для дальнейшего использования.

Вариант использования: прием с помощью Lakeflow Connect:

Загрузка данных с помощью LFC в Azure Databricks.

Скачать: эталонная архитектура пакетной обработки ETL для Azure Databricks.

Вариант использования: пакетный ETL

Эталонная архитектура для пакетного ETL в Azure Databricks.

Скачивание: эталонная архитектура пакетного ETL для Azure Databricks

Средства приема используют адаптеры, относящиеся к источнику, чтобы считывать данные из источника, а затем хранить их в облачном хранилище, откуда автозагрузчик может читать его, или вызывать Databricks напрямую (например, с инструментами приема партнеров, интегрированными в Databricks lakehouse). Чтобы загрузить данные, платформа ETL и обработки Databricks выполняет запросы через DLT. Одно- или многозадачные рабочие процессы могут управляться с помощью заданий Databricks и управляться каталогом Unity (управление доступом, аудит, происхождение и т. д.). Если операционные системы с низкой задержкой требуют доступа к определенным золотым таблицам, их можно экспортировать в операционную базу данных, например хранилище RDBMS или хранилище значений ключей в конце конвейера ETL.

Вариант использования: потоковая передача и запись измененных данных (CDC)

Архитектура структурированной потоковой передачи Spark на Azure Databricks.

Скачивание: структурированная архитектура потоковой передачи Spark для Azure Databricks

Подсистема ETL Databricks использует структурированную потоковую передачу Spark для чтения из очередей событий, таких как Apache Kafka или Концентратор событий Azure. Шаги последуют методике, описанной в случае использования пакетной обработки выше.

Запись измененных данных в режиме реального времени (CDC) обычно использует очередь событий для хранения извлеченных событий. С этого момента случай использования следует примеру использования потоковой передачи.

Если CDC выполняется в пакетном режиме, где сначала извлеченные записи хранятся в облачном хранилище, автозагрузчик Databricks может считывать их, и вариант использования соответствует пакетному подходу ETL.

Вариант использования: машинное обучение и ИИ

Референсная архитектура машинного обучения и ИИ для Azure Databricks.

Скачать: эталонная архитектура машинного обучения и искусственного интеллекта для Azure Databricks

Для машинного обучения платформа Data Intelligence от Databricks предоставляет Mosaic AI, который оснащен передовыми библиотеками машинного и глубокого обучения. Он предоставляет такие возможности, как Хранилище компонентов и реестр моделей (оба интегрированы в Unity Catalog), функции low-code с AutoML, а также интеграцию MLflow в жизненный цикл обработки данных.

Все ресурсы, связанные с обработкой и анализом данных (таблицы, функции и модели), управляются каталогом Unity, а специалисты по обработке и анализу данных могут использовать задания Databricks для оркестрации своих заданий.

Для развертывания моделей масштабируемым и корпоративным образом используйте возможности MLOps для публикации моделей в модельном обслуживании.

Вариант использования: приложения агента Generative AI (Gen AI)

эталонная архитектура приложений поколения ИИ для Azure Databricks.

Скачать: эталонная архитектура приложений Gen AI для Azure Databricks

Для случаев использования генеративного ИИ Mosaic AI предлагает передовые библиотеки и конкретные возможности генеративного ИИ от разработки запросов до тонкой настройки существующих моделей и обучения с нуля. В приведенной выше архитектуре показан пример того, как интеграция векторного поиска позволяет создать приложение генеративного ИИ с помощью RAG (генерация, дополненная поиском).

Для развертывания моделей в масштабируемом и корпоративном классе используйте возможности MLOps для публикации моделей в службе моделей.

Вариант использования: бизнес-аналитика и SQL-анализ

эталонная архитектура для BI и аналитики SQL на Azure Databricks.

Скачивание: эталонная архитектура бизнес-аналитики и аналитики SQL для Azure Databricks

Для применения BI бизнес-аналитики могут использовать панели мониторинга, редактировать SQL в Databricks или применять специальные инструменты BI, такие как Tableau или Power BI. Во всех случаях движок — это Databricks SQL (бессерверный или несерверный), а обнаружение данных, их исследование и контроль доступа обеспечиваются Unity Catalog.

Вариант использования: федерация Lakehouse

Эталонная архитектура федерации Lakehouse для Azure Databricks.

Скачать: эталонная архитектура федерации Lakehouse для Azure Databricks

Федерация Lakehouse позволяет интегрировать внешние базы данных SQL (такие как MySQL, Postgres, SQL Server или Azure Synapse) с Databricks.

Все рабочие нагрузки (ИИ, DWH и BI) могут получить преимущества от этого без необходимости переносить данные в объектное хранилище с помощью ETL. Внешний исходный каталог сопоставляется с каталогом Unity и точное управление доступом можно применять для доступа через платформу Databricks.

эталонная архитектура для совместного использования корпоративных данных в Azure Databricks.

Скачивание: эталонная архитектура совместного использования корпоративных данных для Azure Databricks

Предоставление общего доступа к данным корпоративного уровня осуществляется посредством Delta Sharing. Он предоставляет прямой доступ к данным в хранилище объектов, защищенном каталогом Unity, и Databricks Marketplace является открытым форумом для обмена продуктами данных.

Поделиться через

Эталонные архитектуры для Lakehouse (для скачивания)

Организация эталонных архитектур

Общие возможности для всех рабочих нагрузок

Высокоуровневые варианты использования платформы аналитики данных в Azure

Вариант использования: прием с помощью Lakeflow Connect:

Вариант использования: пакетный ETL

Вариант использования: потоковая передача и запись измененных данных (CDC)

Вариант использования: машинное обучение и ИИ

Вариант использования: приложения агента Generative AI (Gen AI)

Вариант использования: бизнес-аналитика и SQL-анализ

Вариант использования: федерация Lakehouse

Обратная связь

Дополнительные ресурсы

Поделиться через

Эталонные архитектуры для Lakehouse (для скачивания)

Организация эталонных архитектур

Общие возможности для всех рабочих нагрузок

Высокоуровневые варианты использования платформы аналитики данных в Azure

Вариант использования: прием с помощью Lakeflow Connect:

Вариант использования: пакетный ETL

Вариант использования: потоковая передача и запись измененных данных (CDC)

Вариант использования: машинное обучение и ИИ

Вариант использования: приложения агента Generative AI (Gen AI)

Вариант использования: бизнес-аналитика и SQL-анализ

Вариант использования: федерация Lakehouse

Вариант использования: общий доступ к корпоративным данным

Обратная связь

Дополнительные ресурсы