连接到数据映射的数据源
本文列出了 Microsoft Purview 数据映射 中支持的数据源、文件类型和扫描概念。
按类型列出的数据源列表
下表显示了Microsoft Purview 数据映射中提供技术元数据的所有数据源,以及其他支持的功能。 有关将数据源连接到数据映射的说明,请在“ 数据源 ”列中选择数据源名称。
Azure
Azure 资源仅在与 Microsoft Purview 帐户相同的租户中可用,除非每个数据源的页面上另有说明。
数据源 | 可以自动应用分类 | 可将敏感度标签应用于数据映射资产 | 可以应用策略 | 数据世系 | 可在实时视图中访问 |
---|---|---|---|---|---|
选择连接和扫描说明的链接。 | 对于扫描说明,请选择“ 是 ”。 了解如何 在扫描期间应用分类。 | 了解 敏感度标记 (预览) 。 | 选择“ 是 ”以查看支持的策略;例如,数据所有者、自助服务访问或保护。 | 有关详细信息 , 请选择“是”。 | 了解 实时视图。 |
多个源 | 是 | 源依赖 | 是 | 否 | 有限 |
Azure Blob 存储 | 是 | 是 | 是 (预览) | 有限* | 是 |
Azure Cosmos DB (API for NoSQL) | 是 | 否 | 否 | 不* | 否 |
Azure 数据资源管理器 | 是 | 否 | 否 | 不* | 否 |
Azure 数据工厂 | 否 | 否 | 否 | 是 | 否 |
Azure Data Lake Storage Gen2 | 是 | 是 | 是 (预览) | 有限* | 是 |
Azure Data Share | 否 | 否 | 否 | 是 | 否 |
Azure Database for MySQL | 是 | 否 | 否 | 不* | 否 |
Azure Database for PostgreSQL | 是 | 否 | 否 | 不* | 否 |
Azure Databricks Hive 元存储 | 否 | 否 | 否 | 是 | 否 |
Azure Databricks Unity 目录 | 是 | 否 | 否 | 否 | 否 |
Azure 专用 SQL 池(以前称为 SQL DW) | 是 | 否 | 否 | 不* | 否 |
Azure 文件 | 是 | 是 | 否 | 有限* | 否 |
Azure 机器学习 | 否 | 否 | 否 | 是 | 否 |
Azure SQL 数据库 | 是 | 是 | 是 | 是 (预览版) | 是 |
Azure SQL 托管实例 | 是 | 否 | 是 | 不* | 否 |
Azure Synapse Analytics (工作区) | 是 | 否 | 否 | 是 - Synapse 管道 | 否 |
* 除了数据源中资产的世系外,如果数据集在 数据工厂 或 Synapse 管道中用作源/接收器,则还支持世系。
Database
数据源 | 可以自动应用分类 | 可将敏感度标签应用于数据映射资产 | 可以应用策略 | 数据世系 | 可在实时视图中访问 |
---|---|---|---|---|---|
选择连接和扫描说明的链接。 | 对于扫描说明,请选择“ 是 ”。 了解如何 在扫描期间应用分类。 | 了解 敏感度标记 (预览) 。 | 选择“ 是 ”以查看支持的策略;例如,数据所有者、自助服务访问或保护。 | 有关详细信息 , 请选择“是”。 | 了解 实时视图。 |
Amazon RDS | 是 | 否 | 否 | 否 | 否 |
Amazon Redshift | 否 | 否 | 否 | 否 | 否 |
Cassandra | 否 | 否 | 否 | 是 | 否 |
Db2 | 否 | 否 | 否 | 是 | 否 |
Google BigQuery | 否 | 否 | 否 | 是 | 否 |
Hive 元存储数据库 | 否 | 否 | 否 | 是的* | 否 |
Mongodb | 否 | 否 | 否 | 否 | 否 |
MySQL | 否 | 否 | 否 | 是 | 否 |
Oracle | 是 | 否 | 否 | 是的* | 否 |
PostgreSQL | 否 | 否 | 否 | 是 | 否 |
SAP Business Warehouse | 否 | 否 | 否 | 否 | 否 |
SAP HANA | 否 | 否 | 否 | 否 | 否 |
Snowflake | 是 | 否 | 否 | 是 | 否 |
SQL Server | 是 | 否 | 否 | 不* | 否 |
Azure-Arc 上的SQL Server | 是 | 否 | 是 | 不* | 否 |
Teradata | 是 | 否 | 否 | 是的* | 否 |
* 除了数据源中资产的世系外,如果数据集在 数据工厂 或 Synapse 管道中用作源/接收器,则还支持世系。
文件
数据源 | 可以自动应用分类 | 可将敏感度标签应用于数据映射资产 | 可以应用策略 | 数据世系 | 可在实时视图中访问 |
---|---|---|---|---|---|
选择连接和扫描说明的链接。 | 对于扫描说明,请选择“ 是 ”。 了解如何 在扫描期间应用分类。 | 了解 敏感度标记 (预览) 。 | 选择“ 是 ”以查看支持的策略;例如,数据所有者、自助服务访问或保护。 | 有关详细信息 , 请选择“是”。 | 了解 实时视图。 |
Amazon S3 | 是 | 否 | 否 | 有限* | 否 |
Hadoop 分布式文件系统 (HDFS) | 是 | 否 | 否 | 否 | 否 |
* 除了数据源中资产的世系外,如果数据集在 数据工厂 或 Synapse 管道中用作源/接收器,则还支持世系。
服务和应用
数据源 | 可以自动应用分类 | 可将敏感度标签应用于数据映射资产 | 可以应用策略 | 数据世系 | 可在实时视图中访问 |
---|---|---|---|---|---|
选择连接和扫描说明的链接。 | 对于扫描说明,请选择“ 是 ”。 了解如何 在扫描期间应用分类。 | 了解 敏感度标记 (预览) 。 | 选择“ 是 ”以查看支持的策略;例如,数据所有者、自助服务访问或保护。 | 有关详细信息 , 请选择“是”。 | 了解 实时视图。 |
气流 | 否 | 否 | 否 | 是 | 否 |
Dataverse | 是 | 否 | 否 | 否 | 否 |
Erwin | 否 | 否 | 否 | 是 | 否 |
织物 | 否 | 否 | 否 | 是 | 是 |
Looker | 否 | 否 | 否 | 是 | 否 |
Power BI | 否 | 否 | 否 | 是 | 是的** |
Qlik Sense | 否 | 否 | 否 | 否 | 否 |
Salesforce | 否 | 否 | 否 | 否 | 否 |
SAP ECC | 否 | 否 | 否 | 是的* | 否 |
SAP S/4HANA | 否 | 否 | 否 | 是的* | 否 |
画面 | 否 | 否 | 否 | 否 | 否 |
* 除了数据源中资产的世系外,如果数据集在 数据工厂 或 Synapse 管道中用作源/接收器,则还支持世系。
** Fabric 租户中的 Power BI 项可以使用实时视图。
注意
目前,Microsoft Purview 数据映射无法扫描名称中包含 、 \
或 #
的资产/
。 若要限定扫描范围并避免扫描资产名称中包含这些字符的资产,请使用注册并扫描 Azure SQL 数据库中的示例。
重要
如果计划使用自承载集成运行时,扫描某些数据源需要在自承载集成运行时计算机上进行额外设置。 例如,JDK、Visual C++ 可再发行程序包或特定驱动程序。 对于源,请参阅每个源文章,了解先决条件详细信息。先决条件部分列出了任何要求。
数据映射扫描程序区域
下面是运行 Microsoft Purview 数据映射 扫描程序的所有 Azure 数据源 (数据中心) 区域的列表。 如果 Azure 数据源位于此列表之外的某个区域,扫描程序将在 Microsoft Purview 实例的区域中运行。
- 澳大利亚东部
- 澳大利亚东南部
- 巴西南部
- 加拿大中部
- 加拿大东部
- 印度中部
- 中国北部 3
- 东亚
- 美国东部
- 美国东部 2
- 法国中部
- 德国中西部
- 日本东部
- 韩国中部
- 美国中北部
- 北欧
- 卡塔尔中部
- 南非北部
- 美国中南部
- 东南亚
- 瑞士北部
- 阿联酋北部
- 英国南部
- USGov 弗吉尼亚州
- 美国中西部
- 西欧
- 美国西部
- 美国西部 2
- 美国西部 3
支持扫描的文件类型
下面列出的文件类型支持扫描、架构提取和分类(如果适用)。 此外,数据映射支持 自定义文件扩展名和自定义分析程序。
扩展支持的结构化文件格式包括扫描、架构提取以及资产和列级分类:
- AVRO
- CSV
- GZIP
- JSON
- ORC
- 木条镶花之地板
- PSV
- SSV
- TSV
- TXT
- XML
扩展支持的文档文件格式包括扫描和资产级别分类:
- 医生
- DOCM
- DOCX
- 点
- ODP
- ODS
- ODT
- 罐
- PPS
- PPSX
- PPT
- PPTM
- PPTX
- XLC
- XLS
- XLSB
- XLSM
- XLSX
- XLT
注意
已知限制:
- Microsoft Purview 数据映射扫描程序仅支持对上面列出的结构化文件类型进行架构提取。
- 对于 AVRO、ORC 和 PARQUET 文件类型,扫描程序不支持包含复杂数据类型的文件的架构提取 (例如 MAP、LIST、STRUCT) 。
- 扫描程序支持扫描对齐压缩的 PARQUET 类型,以便进行架构提取和分类。
- 对于 GZIP 文件类型,GZIP 必须映射到内部的单个 csv 文件。 Gzip 文件受系统和自定义分类规则的约束。 我们目前不支持扫描映射到多个文件中的 gzip 文件,也不支持扫描除 csv 以外的任何文件类型。
-
对于带分隔符的文件类型 (CSV、PSV、SSV、TSV、TXT) :
- 仅包含 1 列的分隔文件不能确定为 CSV 文件,并且没有架构。
- 我们不支持数据类型检测。 数据类型将列为所有列的“字符串”。
- 我们仅支持逗号 (',') ,分号 (';') ,垂直条 ('|') 和制表符 (\\) 为分隔符。
- 如果使用自定义分隔符,则不能将行少于三行的分隔文件确定为 CSV 文件。 例如:具有 ~ 分隔符且行数少于三行的文件将无法确定为 CSV 文件。
- 如果字段包含双引号,则双引号只能出现在字段的开头和末尾,并且必须匹配。 出现在字段中间或出现在开头和结尾但不匹配的双引号将被识别为错误数据,并且不会从文件中分析架构。 列数与标题行不同的行将判断为错误行。 (错误行数/) 采样的行数必须小于 0.1。
- 对于 Parquet 文件,如果使用自承载集成运行时,则需要在 IR 计算机上安装 64 位 JRE 11 (Java 运行时环境) 或 OpenJDK 。 有关安装指南,请查看 页面底部的 Java 运行时环境部分 。
- 目前不支持增量格式。 如果要直接从存储数据源(如 Azure Data Lake Storage (ADLS Gen2) )扫描增量格式,则会分析增量格式中的 parquet 文件集,并按了解资源集中所述作为资源集进行处理。 此外,不会将用于分区的列识别为资源集架构的一部分。
架构提取
对于在扫描期间支持架构提取的数据源,资产架构不会直接被列数截断。
嵌套数据
仅 JSON 内容支持嵌套数据。 对于所有 系统支持的文件类型,如果列中存在嵌套的 JSON 内容,扫描程序将分析嵌套的 JSON 数据,并将其显示在资产的架构选项卡中。
SQL 不支持嵌套数据或嵌套架构分析。 具有嵌套数据的列将被报告并按原样分类,并且不会分析子数据。
用于分类的采样数据
在数据映射术语中,
- L1 扫描:提取基本信息和元数据,如文件名、大小和完全限定名称
- L2 扫描:提取结构化文件类型和数据库表的架构
- L3 扫描:提取架构(如果适用),并将采样文件设置为系统和自定义分类规则
详细了解如何 自定义扫描级别。
对于所有结构化文件格式,Microsoft Purview 数据映射扫描程序按以下方式对文件进行采样:
- 对于结构化文件类型,它会对每列中的前 128 行或前 1 MB 行进行采样,以较低者为准。
- 对于文档文件格式,它会对每个文件的前 20 MB 采样。
- 如果文档文件大于 20 MB,则它不受深度扫描 (受分类) 的约束。 在这种情况下,Microsoft Purview 仅捕获基本元数据,例如文件名和完全限定的名称。
- 对于 表格数据源 (SQL) ,它将对前 128 行进行采样。
- 对于 Azure Cosmos DB for NoSQL,将为架构收集容器中前 10 个文档中最多 300 个不同的属性,对于每个属性,将采样来自最多 128 个文档或前 1 MB 的值。
资源集文件采样
如果文件夹或分区文件组与系统资源集策略或客户定义的资源集策略匹配,则会在Microsoft Purview 数据映射中检测为资源集。 如果检测到资源集,扫描程序将采样它包含的每个文件夹。 在此处详细了解资源集。
按文件类型对资源集进行文件采样:
- 分隔文件 (CSV、PSV、SSV、TSV) - (L3 扫描) 被视为“资源集”的文件夹或分区文件组内的 1 个文件采样 100 个文件中的 1 个
- Data Lake 文件类型 (Parquet、Avro、Orc) - 1 in 18446744073709551615 (long max) 文件 (L3 扫描) 在被视为“资源集”的文件夹或分区文件组内采样
- JSON、XML、TXT) (其他结构化文件类型 - 在被视为“资源集”的文件夹或分区文件组 (L3 扫描) 对 100 个文件中的 1 个文件采样
- SQL 对象和 Azure Cosmos DB 实体 - 每个文件都经过 L3 扫描。
- 文档文件类型 - 对每个文件进行 L3 扫描。 资源集模式不适用于这些文件类型。