Что такое Delta в Azure Databricks?
В этой статье приведены общие сведения о технологиях с фирменной фирменной символией Delta в Azure Databricks. Delta относится к технологиям, связанным с проектом с открытым исходным кодом Delta Lake.
В этой статье приведены ответы:
- Что такое технологии Delta в Azure Databricks?
- Что они делают? Или для чего они используются?
- Как они связаны друг с другом и отличаются друг от друга?
Для чего используются дельта-объекты?
Delta — это термин, введённый вместе с Delta Lake, основой для хранения данных и таблиц в Databricks Lakehouse. Delta Lake была задумана как единая система управления данными для обработки транзакционных транзакций в реальном времени и пакетных больших данных, расширяя файлы данных Parquet с помощью файлового журнала транзакций для транзакций ACID и масштабируемой обработки метаданных.
Delta Lake: управление данными ОС для lakehouse
Delta Lake — это хранилище с открытым исходным кодом, которое обеспечивает надежность озер данных, добавляя уровень транзакционного хранения поверх данных, хранящихся в облачном хранилище (в AWS S3, Azure Storage и GCS). Он поддерживает транзакции ACID, управление версиями данных и возможности отката. Он позволяет обрабатывать как пакетные, так и потоковые данные унифицированным способом.
Delta-таблицы основаны на этом уровне хранилища и обеспечивают абстракцию таблиц, что упрощает работу с крупномасштабными структурированными данными с использованием SQL и API DataFrame.
Разностные таблицы: архитектура таблицы данных по умолчанию
Delta table является форматом таблицы данных по умолчанию в Azure Databricks и функцией платформы с открытым исходным кодом Delta Lake. Delta таблицы обычно используются для озер данных, где данные поглощаются через стриминг либо поступают большими партиями.
См.
- Быстрый старт Delta Lake: Создание таблицы
- Обновление и изменение таблиц Delta Lake.
- Класс DeltaTable: основной класс для программного взаимодействия с таблицами Delta.
DLT: конвейеры данных
DLT управляет потоком данных между многими таблицами Delta, упрощая работу инженеров данных над разработкой и управлением ETL-процессами. Конвейер — это основная исполнительная единица для DLT. DLT предлагает декларативную разработку конвейеров, улучшенную надежность данных и производственные операции в облаке. Пользователи могут выполнять как пакетные, так и потоковые операции в одной таблице, а данные сразу же доступны для запроса. Вы определяете преобразования для выполнения данных и DLT управляет оркестрацией задач, управлением кластерами, мониторингом, качеством данных и обработкой ошибок. Расширенное автоматическое масштабирование DLT может обрабатывать рабочие нагрузки потоковой передачи, которые являются скачкообразными и непредсказуемыми.
См. руководство DLT.
Дельта-таблицы и DLT
Delta таблица — это способ хранения данных в таблицах, тогда как DLT позволяет декларативно описывать, как данные перемещаются между этими таблицами. DLT — это декларативная платформа, которая управляет множеством разностных таблиц, создавая их и сохраняя их актуальность. Короче говоря, разностные таблицы — это архитектура таблицы данных, а DLT — это платформа конвейера данных.
Delta: Open Source или собственный?
Преимущество платформы Azure Databricks заключается в том, что она не блокирует клиентов на использовании собственных инструментов: большая часть технологий основана на проекте с открытым исходным кодом, в развитие которых Azure Databricks вносит свой вклад.
Примеры проектов Delta OSS:
- Проект Delta Lake: хранилище с открытым кодом для lakehouse.
- Протокол Delta Sharing: открытый протокол для безопасного обмена данными.
DLT — это собственная платформа в Azure Databricks.
Какие другие элементы Delta есть в Azure Databricks?
Ниже приведены описания других функций, которые включают Delta в их имя.
Delta обмен
Открытый стандарт для безопасного общего доступа к данным, Delta Sharing позволяет совместно использовать данные между организациями независимо от их вычислительной платформы.
Движок delta
Оптимизатор запросов для больших данных, использующий технологию Delta Lake открытый код, включенную в Databricks. Движок Delta повышает производительность Spark SQL, Databricks SQL и операций с DataFrame, перенося вычисления к данным.
Журнал транзакций Delta Lake (AKA DeltaLogs)
Единый источник истины, отслеживающий все изменения, которые пользователи вносят в таблицу, и механизм, посредством которого Delta Lake гарантирует атомарность. См. протокол журнала транзакций Delta на сайте GitHub.
Журнал транзакций является ключевым для понимания Delta Lake, так как это общий поток, который проходит через многие из наиболее важных функций:
- Транзакции ACID
- Обработка масштабируемых метаданных
- Переход по времени
- И многое другое.