Область действия платформы Lakehouse
Современная платформа данных и платформы ИИ
Чтобы обсудить область платформы аналитики данных Databricks, рекомендуется сначала определить базовую платформу для современных данных и платформы ИИ:
Обзор концепции lakehouse
Платформа аналитики данных Databricks охватывает полную современную платформу данных. Он основан на архитектуре lakehouse и работает с помощью подсистемы аналитики данных, которая понимает уникальные качества ваших данных. Это открытый и унифицированный фундамент для рабочих нагрузок ETL, ML/AI и DWH/BI, а также каталог Unity в качестве центрального решения для управления данными и ИИ.
Персоны платформенной структуры
Фреймворк охватывает основных членов команды по работе с данными (роли), работающих с приложениями во фреймворке.
- Инженеры данных предоставляют специалистам по обработке и анализу данных и бизнес-аналитикам точные и воспроизводимые данные для своевременного принятия решений и аналитических сведений в реальном времени. Они реализуют очень согласованные и надежные процессы ETL для повышения доверия пользователей и доверия к данным. Они гарантируют, что данные хорошо интегрированы с различными основами бизнеса и обычно следуют рекомендациям по проектированию программного обеспечения.
- Специалисты по обработке и анализу данных объединяют аналитические знания и бизнес-понимание для преобразования данных в стратегические аналитические и прогнозные модели. Они готовы преобразовывать бизнес-задачи в решения, управляемые данными, будь то в ретроспективном аналитическом анализе или прогнозном моделировании. Используя методы моделирования данных и машинного обучения, они проектируют, разрабатывают и внедряют модели, которые выявляют закономерности, тенденции и прогнозы на основе данных. Они действуют как мост, преобразуя сложные повествования данных в понятные истории, обеспечивая заинтересованным лицам бизнеса не только понимание, но и действовать на основе данных рекомендаций, в свою очередь, управляя ориентированным на данные подходом к решению проблем в организации.
- Инженеры машинного обучения (инженеры машинного обучения) ведут практическое применение обработки и анализа данных в продуктах и решениях путем создания, развертывания и обслуживания моделей машинного обучения. Их основное внимание уделяется проектированию аспектов разработки и развертывания моделей. Инженеры машинного обучения обеспечивают надежность, надежность и масштабируемость систем машинного обучения в живых средах, устраняя проблемы, связанные с качеством данных, инфраструктурой и производительностью. Интеграция моделей искусственного интеллекта и машинного обучения в операционные бизнес-процессы и пользовательские продукты упрощает использование методов data science для решения бизнес-задач, гарантируя, что модели не остаются только в исследовательской сфере, а приносят практическую бизнес-ценность.
- Бизнес-аналитики и бизнес-пользователи: бизнес-аналитики предоставляют заинтересованным лицам и бизнес-командам практические данные. Они часто интерпретируют данные и создают отчеты или другую документацию для управления с помощью стандартных средств бизнес-аналитики. Как правило, они являются первой точкой контакта для не технических бизнес-пользователей и коллег по операциям для быстрого анализа вопросов. Панели мониторинга и бизнес-приложения, предоставляемые на платформе Databricks, могут использоваться непосредственно бизнес-пользователями.
- Деловые партнеры являются важными заинтересованными лицами в все более сетевом бизнес-мире. Они определяются как компания или лица, с которыми бизнес имеет формальные отношения для достижения общей цели, и может включать поставщиков, поставщиков, распространителей и других сторонних партнеров. Обмен данными является важным аспектом деловых партнерств, так как он позволяет передавать и обмениваться данными для повышения совместной работы и принятия решений на основе данных.
Домены платформы
Платформа состоит из нескольких доменов:
- хранилище: данные в облаке хранятся в основном в масштабируемом, эффективном и устойчивом объектном хранилище у облачных провайдеров.
- Управление: возможности управления данными, такие как управление доступом, аудит, управление метаданными, отслеживание происхождения и мониторинг для всех ресурсов ИИ.
- Подсистема искусственного интеллекта: подсистема ИИ предоставляет созданные возможности ИИ для всей платформы.
- Прием и преобразование: возможности для выполнения рабочих нагрузок ETL.
- Расширенная аналитика, машинное обучение и ИИ: все возможности машинного обучения, ИИ, генеривных ИИ, а также потоковая аналитика.
- Хранилище данных: домен, поддерживающий варианты использования DWH и BI.
- Автоматизация: Управление рабочими процессами для обработки данных, машинное обучение, аналитические потоки, включая поддержку CI/CD и MLOps.
- Средства ETL и DS: интерфейсные инструменты, которые инженеры данных, специалисты по обработке и анализу данных и инженеры машинного обучения в основном используют для работы.
- Средства бизнес-аналитики: интерфейсные инструменты, которые аналитики бизнес-аналитики в основном используют для работы.
- Совместная работа: возможности совместного использования данных между двумя или несколькими сторонами.
Область действия платформы Databricks
Платформа аналитики данных Databricks и ее компоненты можно сопоставить с платформой следующим образом:
Скачать: область применения компонентов Lakehouse — Databricks
Рабочие нагрузки данных в Azure Databricks
Самое главное, платформа аналитики данных Databricks охватывает все соответствующие рабочие нагрузки для домена данных на одной платформе с Apache Spark/Photon в качестве обработчика:
Прием и преобразование
Databricks предлагает несколько способов приема данных:
- Databricks Lakeflow Connect предлагает встроенные соединители для загрузки из корпоративных приложений и баз данных. Результирующий конвейер обработки управляется каталогом Unity, использует бессерверные вычисления и технологию DLT.
- Автоматический загрузчик поэтапно и автоматически обрабатывает файлы в облачном хранилище в запланированных или непрерывных заданиях без необходимости управлять состоянием. После приема необработанные данные необходимо преобразовать так, чтобы они были готовы к бизнес-аналитике и машинному обучению с искусственным интеллектом. Databricks предоставляет мощные возможности ETL для инженеров данных, специалистов по обработке и анализу данных.
DLT (DLT) позволяет создавать задания ETL декларативно, упрощая весь процесс реализации. Качество данных можно улучшить, определив ожидания данных.
Расширенная аналитика, машинное обучение и ИИ
Платформа включает Databricks Mosaic AI, набор полностью интегрированных инструментов машинного обучения и искусственного интеллекта для классического машинного и глубокого обучения, а также генеративного ИИ и крупных языковых моделей (LLMs). Он охватывает весь рабочий процесс от подготовки данных к созданию моделей машинного обучения и глубокого обучения до мозаичной модели ИИ.
Структурированная потоковая передача Spark и DLT обеспечивают аналитику в режиме реального времени.
Хранилище данных
Платформа аналитики данных Databricks также имеет полное решение для хранилища данных с Databricks SQL, централизованно управляемое каталогом Unity с точным контролем доступа.
функции ИИ — это встроенные функции SQL, которые позволяют применять ИИ непосредственно из SQL. Интеграция ИИ в рабочие процессы анализа обеспечивает доступ к информации, ранее недоступной аналитикам, и позволяет им принимать более обоснованные решения, управлять рисками и поддерживать конкурентное преимущество с помощью инноваций, управляемых данными, и эффективности.
Структура областей функций Azure Databricks
Это сопоставление функций Платформы аналитики данных Databricks с другими уровнями платформы снизу до верхней части:
Облачное хранилище
Все данные для lakehouse хранятся в хранилище объектов поставщика облачных служб. Databricks поддерживает три поставщика облачных служб: AWS, Azure и GCP. Файлы в различных структурированных и полуструктурированных форматах (например, Parquet, CSV, JSON и Avro), а также неструктурированных форматах (таких как изображения и документы), обрабатываются и преобразуются с помощью пакетных или потоковых процессов.
Delta Lake — это рекомендуемый формат данных для lakehouse (транзакции файлов, надежность, согласованность, обновления и т. д.) и полностью открытый код, чтобы избежать блокировки. И универсальный формат Delta (UniForm) позволяет клиентам-читателям Iceberg читать таблицы Delta.
В платформе Databricks Data Intelligence не используются собственные форматы данных.
Управление данными и ИИ
На уровне хранения каталог Unity предлагает широкий спектр возможностей управления данными и ИИ, включая управление метаданными в хранилище метаданных, управление доступом, аудит, обнаружение данных и родословную данных.
Мониторинг Lakehouse предоставляет встроенные метрики качества для ресурсов данных и искусственного интеллекта, а также автоматически создаваемые панели мониторинга для визуализации этих метрик.
Внешние источники SQL можно интегрировать в lakehouse и каталог Unity с помощью федерации Lakehouse.
Подсистема искусственного интеллекта
Платформа аналитики данных основана на архитектуре lakehouse и улучшена подсистемой аналитики данных DatabricksIQ. DatabricksIQ объединяет генерированный ИИ с преимуществами объединения архитектуры Lakehouse, чтобы понять уникальную семантику данных. Интеллектуальный поиск и помощник Databricks — это примеры служб, работающих на основе искусственного интеллекта, которые упрощают работу с платформой для каждого пользователя.
Оркестрация
Задания Databricks позволяют выполнять разнообразные рабочие нагрузки для полного жизненного цикла данных и искусственного интеллекта в любом облаке. Они позволяют организовывать задания и DLT для SQL, Spark, блокнотов, DBT, моделей машинного обучения и других систем.
Средства ETL и DS
На уровне потребления инженеры данных и инженеры машинного обучения обычно работают с платформой с помощью интегрированных сред разработки. Специалисты по обработке и анализу данных часто предпочитают записные книжки и используют среды выполнения машинного обучения и ИИ, а также систему машинного обучения MLflow для отслеживания экспериментов и управления жизненным циклом модели.
Средства бизнес-аналитики
Бизнес-аналитики обычно используют предпочитаемое средство бизнес-аналитики для доступа к хранилищу данных Databricks. Databricks SQL можно запрашивать с помощью различных инструментов анализа и бизнес-аналитики, см. бизнес-аналитику и визуализацию
Кроме того, платформа предлагает средства для запросов и анализа из коробки.
- панели мониторинга ИИ/BI для перетаскивания и сброса визуализаций данных и обмена аналитическими данными.
- Областные эксперты, такие как аналитики данных, настраивают пространства ИИ/BI Genie с наборами данных, примерами запросов и текстовыми рекомендациями, чтобы помочь Genie преобразовывать бизнес-вопросы в аналитические запросы. После настройки бизнес-пользователи могут задавать вопросы и создавать визуализации для понимания операционных данных.
- Databricks Apps позволяет разработчикам создавать безопасные данные и приложения ИИ на платформе Databricks и предоставлять доступ к этим приложениям пользователям.
- Редактор SQL для аналитиков SQL для анализа данных.
Совместная работа
Delta Sharing — это открытый протокол, разработанный Databricks для безопасного обмена данными с другими организациями независимо от используемых вычислительных платформ.
Databricks Marketplace — это открытый форум для обмена продуктами данных. Это использует Delta Sharing, чтобы предоставлять поставщикам данных возможности для безопасного обмена продуктами данных и давать потребителям данных силу исследовать и расширять доступ к необходимым данным и сервисам данных.
Clean Rooms используют Delta Sharing и бессерверные вычисления для обеспечения безопасной и конфиденциальной среды, в которой несколько сторон могут работать совместно с чувствительными корпоративными данными без прямого доступа к данным остальных участников.