你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
清理室和多方数据分析
Azure 机密计算 (ACC) 为使多方能够协作处理数据的解决方案提供了基础。 有多种方法可实现解决方案,并且合作伙伴生态系统日益壮大,以帮助 Azure 客户、研究人员、数据科学家和数据提供商可以在保留隐私的同时协作处理数据。 本概述介绍一些可用于在 ACC 上运行的方法和现有解决方案。
什么是数据和模型保护?
数据清理室解决方案通常为一个或多个数据提供商提供一种组合数据以进行处理的方法。 通常已就代码、查询或模型达成一致,这些代码、查询或模型是由其中一个提供商或其他参与者(例如研究人员或解决方案提供商)创建的。 在许多情况下,可以将这些数据视为敏感且不想要直接共享给其他参与者,无论对方是其他数据提供商、研究人员还是解决方案供应商。 为了帮助确保数据清理室中使用的数据和模型的安全和隐私,机密计算可用于加密验证参与者是否无权访问数据或模型,包括在处理期间。 通过使用 ACC,解决方案可以保护云作员、解决方案提供商和数据协作参与者的数据和模型 IP。
有哪些行业用例示例?
借助 ACC,客户和合作伙伴会构建隐私保留多方数据分析解决方案,有时称为“机密清理室”,两者都具有独特保密性,而现有的清理室解决方案使用 ACC 保密。
- 加拿大皇家银行 - 虚拟清理室解决方案将商家数据与银行数据相结合,以便提供个性化产品/服务,使用安全飞地中的 Azure 机密计算 VM 和 Azure SQL AE。
- 丰业银行–利用 Azure 机密计算和解决方案合作伙伴 Opaque,证明了AI 在跨银行资金流上的应用,以识别洗钱,来标记人口贩运实例。
- Novartis Biome - 使用 BeeKeeperAI 在 ACC 上运行的合作伙伴解决方案,以便查找罕见疾病的临床试验候选项。
- 领先的支付提供商将跨银行的数据连接到欺诈和异常情况检测。
- 数据分析服务和清理室解决方案,使用 ACC 来提高数据保护,并满足欧盟客户合规性和隐私法规需求。
为何使用机密计算?
数据清理室不是一个全新的概念,但是随着机密计算的进步,有更多的机会可以利用具有更广泛的数据集的云规模、保护 AI 模型的 IP 以及更好地满足数据隐私法规的能力。 在以前的情况下,某些数据可能不可访问,理由包括
- 竞争不利因素或法规阻止跨行业公司共享数据。
- 匿名化降低了有关数据的见解质量,或者过于昂贵且耗时。
- 由于安全问题,数据绑定到了某些位置,并且不会在云中进行处理。
- 昂贵或冗长的法律程序涵盖数据暴露或滥用时的责任
这些现实情况可能导致不完整或无效的数据集,从而导致更弱的见解,或者在训练和使用 AI 模型时需要更多时间。
构建清理室解决方案时有哪些注意事项?
批处理分析与实时数据管道:设计或使用清理室解决方案时应考虑数据集的大小和见解速度。 如果数据可“脱机”使用,则可以将其加载到经过验证且受保护的计算环境中,以便在大部分数据(如果不是整个数据集)上进行数据分析处理。 此批处理分析允许使用预期不会提供即时结果的模型和算法来评估大型数据集。 例如,在对数百万条健康记录进行 ML 推理以查找临床试验的最佳候选项时,批处理分析效果良好。 其他解决方案则需要对数据进行实时见解,例如,当算法和模型旨在识别多个实体之间的近实交易务欺诈时。
零信任参与:机密清理室中的一个主要区别在于能够让任何参与方都受信任:来自所有数据提供商、代码和模型开发人员、解决方案提供商和基础结构作员管理员。 可以在数据 IP 和模型 IP 受到各方保护的情况下提供解决方案。 在加入或构建解决方案时,参与者应考虑要保护的内容,以及要保护每个代码、模型和数据的人员。
联合学习:联合学习涉及创建或使用解决方案,而模型在数据所有者的租户中处理,见解聚合在中央租户中。 在某些情况下,模型甚至可以在 Azure 外部的数据上运行,而模型聚合仍在 Azure 中发生。 很多时候,联合学习会多次循环访问数据,因为聚合见解后模型的参数会改进。 模型的迭代成本和质量应纳入解决方案和预期结果。
数据驻留和源:客户的数据存储在多个云和本地。 协作可以包括来自不同源的数据和模型。 清理室解决方案有助于从这些其他位置传入 Azure 的数据和模型。 当数据无法从本地数据存储移动到 Azure 时,某些清理室解决方案可以在数据驻留的站点上运行。 管理和策略可由通用解决方案提供商提供支持(如果可用)。
代码完整性和机密账本:使用在 Azure 机密计算上运行的分布式账本技术 (DLT),可以构建跨组织在网络上运行的解决方案。 仅当各个参与者达成一致时,才能添加代码逻辑和分析规则。 通过 Azure 机密计算启用的防篡改日志记录,记录对代码的所有更新进行审核。
有哪些入门选项?
帮助启用机密清理室的 ACC 平台产品/服务
做好准备,直接在这些机密计算服务产品/服务上构建数据清理室解决方案。
具有应用程序飞抵的 Azure 容器实例 (ACI) 和 Intel SGX VM 上的机密容器提供了用于生成机密清理室解决方案的容器解决方案。
机密虚拟机 (VM)为机密清理解决方案提供 VM 平台。
安全飞地中的 Azure SQL AE 提供用于加密 SQL 中的数据和查询的平台服务,可用于多方数据分析和机密清理室。
机密联盟框架是一个开源框架,用于构建高度可用的有状态服务,这些服务使用集中式计算来方便使用和性能,同时提供分散式信任。 它使多个参与方能够对机密数据执行可审核计算,而无需相互信任或特权作员。
启用机密清理室的 ACC 合作伙伴解决方案
选择已在 Azure 机密计算平台的基础上构建多方数据分析解决方案的合作伙伴。
- Anjuna 提供了一个机密计算平台,使各种用例(包括安全清理室)可供组织共享数据进行联合分析,例如计算信用风险分数或开发机器学习模型,而无需公开敏感信息。
- BeeKeeperAI 通过安全协作平台为算法所有者和数据专员启用医疗保健 AI。 BeeKeeperAI™ 在机密计算环境中对受保护数据的多机构来源进行隐私保护分析。 该解决方案支持端到端加密、安全计算 Enclave 和启用了 SGX 的最新 Intel 处理器来保护数据和算法 IP。
- Decentriq 提供了基于机密计算构建的 SaaS 数据清理室,使安全数据协作无需共享数据。 数据科学清理室允许灵活的多方分析,媒体和广告的无代码清理室基于第一方用户数据启用合规的受众激活和分析。 本文 Microsoft 博客中更详细地介绍了机密清洁室。
- Fortanix 提供了一个可以启用机密 AI(包括多个组织共同协作进行多方分析)的机密计算平台。
- Habu 提供了一个可互作的数据清理室平台,使企业能够以智能、安全、可缩放和简单的方式解锁协作智能。 Habu 跨部门、合作伙伴、客户和提供商连接分散的数据,以便更好地进行协作、决策和结果。
- Mithril Security 提供了一些工具来帮助 SaaS 供应商在安全的 Enclave 内提供 AI 模型,并为数据所有者提供本地级别的安全性和控制措施。 数据所有者可以使用其 SaaS AI 解决方案,同时保持合规并控制其数据。
- Opaque 提供了一个协作分析和 AI 机密计算平台,使能够在保护数据端到端的同时执行协作可缩放分析,使组织能够遵守法律和监管要求。