Что такое Azure Databricks Clean Rooms?
В этой статье представлены Clean Rooms, функция Azure Databricks, которая использует Delta Sharing и бессерверные вычисления для создания безопасной среды, защищающей данные и конфиденциальность, где несколько сторон могут совместно работать с конфиденциальными корпоративными данными без прямого доступа к данным друг друга.
Требования
Чтобы иметь право на использование чистых помещений, необходимо:
- Учетная запись, включенная для бессерверных вычислений. См. раздел "Включить бессерверные вычисления".
- Рабочая область, активированная для каталога Unity. См. Включение рабочей области для каталога Unity.
- Delta Sharing включен для вашего метахранилища Unity Catalog. См. Включение Delta Sharing на хранилище метаданных.
Как работают чистые комнаты?
При создании чистой комнаты вы создадите следующее:
- Объект "чистая комната", который может быть защищен в вашем хранилище метаданных каталога Unity.
- "Центральная" чистая комната, которая является изолированной эфемерной средой, управляемой Databricks.
- Защищаемый объект чистой комнаты в хранилище метаданных Unity Catalog вашего сотрудника.
Таблицы, объемы (нетабличные данные), представления и записные книжки, которыми делится каждый из соавторов в чистой среде, передаются только в центральную чистую среду с использованием Delta Sharing.
Сотрудники не могут видеть данные в таблицах, представлениях или томах других сотрудников, но они могут видеть имена столбцов и типы столбцов и запускать утвержденный код записной книжки, работающий над ресурсами данных. Код блокнота выполняется в центральной чистой комнате. Записные книжки также могут создавать выходные таблицы, которые позволяют вашему соработнику временно сохранять выходные данные только для чтения в хранилище метаданных каталога Unity, чтобы они могли работать с ним в своих рабочих пространствах.
Как чистые комнаты обеспечивают не доверяемую среду?
Модель Databricks Clean Rooms имеет принцип "без доверия". Все сотрудники в чистой комнате без доверительных отношений имеют равные привилегии, включая создателя этой комнаты. Чистые комнаты предназначены для предотвращения выполнения несанкционированного кода и несанкционированного доступа к данным. Например, все сотрудники должны утвердить записную книжку перед его запуском. Это доверие применяется неявно, предотвращая коллаборатора от запуска любых записных книжек, которые они создали сами: вы можете запустить только записную книжку, созданную другим коллаборатором.
Дополнительные гарантии или ограничения
В дополнение к неявному процессу утверждения записной книжки, упомянутым выше, применяются следующие меры безопасности.
После создания чистой комнаты она заблокирована, чтобы предотвратить присоединение новых сотрудников к чистой комнате.
Если любой сотрудник удаляет чистую комнату, центральная чистая комната становится недействительной и никакие задачи чистой комнаты не могут выполняться ни одним пользователем.
Каждая чистая комната ограничена двумя участниками совместной работы.
Нельзя переименовать чистую комнату.
Имя чистой комнаты должно быть уникальным в хранилище метаданных каждого участника, чтобы все участники могли ссылаться на одну и ту же чистую комнату однозначно.
Комментарии о защищенной чистой комнате в рабочей области каждого участника не распространяются другим участникам.
Что предоставляется другим участникам совместной работы?
- Название чистой комнаты.
- Облако и зона центральной чистой комнаты.
- Имя вашей организации (которое может быть любым именем, которое вы выбрали).
- Идентификатор общего доступа к чистой комнате (глобальный идентификатор хранилища метаданных и идентификатор рабочей области + адрес электронной почты пользователя).
- Алиасы общих таблиц, представлений или томов.
- Метаданные столбца (имя столбца или псевдоним и тип).
- Записные книжки (только для чтения).
- Таблицы вывода (только для чтения, временные).
- Таблица системы событий чистой комнаты.
- Журнал выполнения, включая:
- Имя запускаемой записной книжки
- Сотрудник, запустивший ноутбук (не пользователь).
- Состояние запуска записной книжки.
- Время начала запуска записной книжки.
Что общего с центральной чистой комнатой?
Все, что указано в предыдущем разделе.
Только для чтения: таблицы, тома, представления и записные книжки.
Таблицы, представления и объемы регистрируются в хранилище метаданных центральной чистой комнаты с любым заданным псевдонимом. Ресурсы данных разделяются на протяжении всего жизненного цикла чистой комнаты.
Вопросы и ответы о чистых комнатах
Ниже приведены часто задаваемые вопросы о чистых комнатах.
Как мои данные обрабатываются в чистом помещении?
Центральная чистая комната управляется Azure Databricks. В центральном чистом помещении:
- Ни у сторон не есть права администратора.
- Для всех сторон видны только метаданные.
- Каждая сторона может добавлять данные в центральную чистую комнату.
- Чистые комнаты используют Delta Sharing для безопасного обмена данными с чистой комнатой, но не между участниками. См. Что такое Delta Sharing?.
Как хранятся частные данные?
Центральные чистые помещения работают в изолированной бессерверной вычислительной среде, управляемой Databricks и размещенной в регионе облачного провайдера, который выбирает создатель этих помещений.
Чистые номера предоставляют:
- Одобрение кода: создатель и участники чистой комнаты могут делиться таблицами и томами с центральной чистой комнатой, но могут запускать только те записные книжки, которые загружены другой стороной. Перед утверждением можно просмотреть код, добавленный другой стороной. Если вы запускаете записную книжку, добавленную другой стороной, неявно утверждаете код.
- управление версиями: ноутбуки для "чистых комнат" имеют управление версиями, чтобы все стороны могли запускать только полностью утвержденные ноутбуки. Можно запустить только последнюю версию записной книжки. Вы можете использовать системную таблицу чистых комнат, чтобы узнать, какая версия записной книжки была запущена и отслеживать любые внесенные изменения.
- ограниченный доступ: При создании чистой комнаты можно использовать бессерверный элемент управления исходящего трафика для управления исходящими сетевыми подключениями. Если вы ограничиваете доступ из чистой комнаты, доступ к несанкционированном хранилищу блокируется. См. Что такое управление исходящим трафиком в бессерверной архитектуре?.
Дополнительные сведения о безопасности и сетевых аспектах бессерверной вычислительной среды см. в .
Как записываются действия?
Действия чистой комнаты, выполненные вами или вашими сотрудниками, записываются в системную таблицу событий чистой комнаты. Эти записи включают подробные метаданные о конкретных действиях. См. таблицу справочника системы событий "чистой комнаты" .
Действия в чистом помещении также записываются в журнал аудита вашей учетной записи службы clean-room
. См. ссылку на системную таблицу журнала аудита
Как выставляются счета?
Дополнительные сведения о ценах на чистые комнаты Databricks см. в ссылке.
Ограничения
Действительны следующие ограничения.
- Библиотеки сервисных учетных данных Scala не включены в требуемую версию Databricks Runtime.
Квоты ресурсов
Azure Databricks применяет квоты ресурсов ко всем защищаемым объектам чистой комнаты. Эти квоты перечислены в ограничениях ресурсов. Если вы ожидаете превышение этих ограничений ресурсов, обратитесь к группе учетных записей Azure Databricks.
Вы можете отслеживать использование квоты с помощью API квот ресурсов Unity Catalog. См. Мониторинг использования квот ресурсов каталога Unity.