Datenquellen, die eine Verbindung mit Data Map herstellen

Artikel
03/04/2025

In diesem Artikel werden die unterstützten Datenquellen, Dateitypen und Überprüfungskonzepte in Microsoft Purview Data Map aufgeführt.

Datenquellenauflistung nach Typ

Die folgenden Tabellen zeigen alle Datenquellen mit technischen Metadaten, die in Microsoft Purview Data Map verfügbar sind, zusammen mit anderen unterstützten Funktionen. Wählen Sie in der Spalte Datenquelle einen Datenquellennamen aus, um Anweisungen zum Herstellen einer Verbindung zwischen dieser Quelle und Data Map zu erhalten.

Microsoft Azure
Datenbank
Datei
Dienste und Apps

Azure

Azure-Ressourcen sind nur im selben Mandanten wie Ihr Microsoft Purview-Konto verfügbar, sofern nicht auf der Seite jeder Datenquelle anders angegeben.

Datenquelle	Kann Klassifizierungen automatisch anwenden	Kann Vertraulichkeitsbezeichnungen auf Data Map-Ressourcen anwenden	Kann Richtlinien anwenden	Datenherkunft	Zugriff in der Liveansicht
Wählen Sie link für Verbindungs- und Scananweisungen aus.	Wählen Sie Ja für Scananweisungen aus. Erfahren Sie, wie Klassifizierungen während der Überprüfung angewendet werden.	Erfahren Sie mehr über Vertraulichkeitsbezeichnungen (Vorschau).	Wählen Sie Ja aus, um unterstützte Richtlinien anzuzeigen. Beispielsweise Datenbesitzer, Self-Service-Zugriff oder Schutz.	Wählen Sie Ja aus, um Details anzuzeigen.	Erfahren Sie mehr über die Liveansicht.
Mehrere Quellen	Ja	Quellenabhängig	Ja	Nein	Eingeschränkt
Azure Blob Storage	Ja	Ja	Ja (Vorschau)	Eingeschränkt*	Ja
Azure Cosmos DB (API for NoSQL)	Ja	Nein	Nein	Nein*	Nein
Azure Data Explorer	Ja	Nein	Nein	Nein*	Nein
Azure Data Factory	Nein	Nein	Nein	Ja	Nein
Azure Data Lake Storage Gen2	Ja	Ja	Ja (Vorschau)	Eingeschränkt*	Ja
Azure Data Share	Nein	Nein	Nein	Ja	Nein
Azure-Datenbank für MySQL	Ja	Nein	Nein	Nein*	Nein
Azure-Datenbank für PostgreSQL	Ja	Nein	Nein	Nein*	Nein
Azure Databricks Hive-Metastore	Nein	Nein	Nein	Ja	Nein
Azure Databricks Unity Catalog	Ja	Nein	Nein	Nein	Nein
Azure Dedicated SQL-Pool (ehemals SQL DW)	Ja	Nein	Nein	Nein*	Nein
Azure Files	Ja	Ja	Nein	Eingeschränkt*	Nein
Azure Machine Learning	Nein	Nein	Nein	Ja	Nein
Azure SQL-Datenbank	Ja	Ja	Ja	Ja (Vorschau)	Ja
Azure SQL Managed Instance	Ja	Nein	Ja	Nein*	Nein
Azure Synapse Analytics (Arbeitsbereich)	Ja	Nein	Nein	Ja– Synapse-Pipelines	Nein

* Neben der Herkunft von Ressourcen innerhalb der Datenquelle wird auch die Herkunft unterstützt, wenn das Dataset als Quelle/Senke in Data Factory oder Synapse-Pipeline verwendet wird.

Datenbank

Datenquelle	Kann Klassifizierungen automatisch anwenden	Kann Vertraulichkeitsbezeichnungen auf Data Map-Ressourcen anwenden	Kann Richtlinien anwenden	Datenherkunft	Zugriff in der Liveansicht
Wählen Sie link für Verbindungs- und Scananweisungen aus.	Wählen Sie Ja für Scananweisungen aus. Erfahren Sie, wie Klassifizierungen während der Überprüfung angewendet werden.	Erfahren Sie mehr über Vertraulichkeitsbezeichnungen (Vorschau).	Wählen Sie Ja aus, um unterstützte Richtlinien anzuzeigen. Beispielsweise Datenbesitzer, Self-Service-Zugriff oder Schutz.	Wählen Sie Ja aus, um Details anzuzeigen.	Erfahren Sie mehr über die Liveansicht.
Amazon RDS	Ja	Nein	Nein	Nein	Nein
Amazon Redshift	Nein	Nein	Nein	Nein	Nein
Cassandra	Nein	Nein	Nein	Ja	Nein
Db2	Nein	Nein	Nein	Ja	Nein
Google BigQuery	Nein	Nein	Nein	Ja	Nein
Hive-Metastore-Datenbank	Nein	Nein	Nein	Ja*	Nein
MongoDB	Nein	Nein	Nein	Nein	Nein
MySQL	Nein	Nein	Nein	Ja	Nein
Oracle	Ja	Nein	Nein	Ja*	Nein
PostgreSQL	Nein	Nein	Nein	Ja	Nein
SAP Business Information Warehouse	Nein	Nein	Nein	Nein	Nein
SAP HANA	Nein	Nein	Nein	Nein	Nein
Schneeflocke	Ja	Nein	Nein	Ja	Nein
SQL Server	Ja	Nein	Nein	Nein*	Nein
SQL Server in Azure Arc	Ja	Nein	Ja	Nein*	Nein
Teradata	Ja	Nein	Nein	Ja*	Nein

* Neben der Herkunft von Ressourcen innerhalb der Datenquelle wird auch die Herkunft unterstützt, wenn das Dataset als Quelle/Senke in Data Factory oder Synapse-Pipeline verwendet wird.

File

Datenquelle	Kann Klassifizierungen automatisch anwenden	Kann Vertraulichkeitsbezeichnungen auf Data Map-Ressourcen anwenden	Kann Richtlinien anwenden	Datenherkunft	Zugriff in der Liveansicht
Wählen Sie link für Verbindungs- und Scananweisungen aus.	Wählen Sie Ja für Scananweisungen aus. Erfahren Sie, wie Klassifizierungen während der Überprüfung angewendet werden.	Erfahren Sie mehr über Vertraulichkeitsbezeichnungen (Vorschau).	Wählen Sie Ja aus, um unterstützte Richtlinien anzuzeigen. Beispielsweise Datenbesitzer, Self-Service-Zugriff oder Schutz.	Wählen Sie Ja aus, um Details anzuzeigen.	Erfahren Sie mehr über die Liveansicht.
Amazon S3	Ja	Nein	Nein	Eingeschränkt*	Nein
Hadoop Distributed File System (HDFS)	Ja	Nein	Nein	Nein	Nein

* Neben der Herkunft von Ressourcen innerhalb der Datenquelle wird auch die Herkunft unterstützt, wenn das Dataset als Quelle/Senke in Data Factory oder Synapse-Pipeline verwendet wird.

Dienste und Apps

Datenquelle	Kann Klassifizierungen automatisch anwenden	Kann Vertraulichkeitsbezeichnungen auf Data Map-Ressourcen anwenden	Kann Richtlinien anwenden	Datenherkunft	Zugriff in der Liveansicht
Wählen Sie link für Verbindungs- und Scananweisungen aus.	Wählen Sie Ja für Scananweisungen aus. Erfahren Sie, wie Klassifizierungen während der Überprüfung angewendet werden.	Erfahren Sie mehr über Vertraulichkeitsbezeichnungen (Vorschau).	Wählen Sie Ja aus, um unterstützte Richtlinien anzuzeigen. Beispielsweise Datenbesitzer, Self-Service-Zugriff oder Schutz.	Wählen Sie Ja aus, um Details anzuzeigen.	Erfahren Sie mehr über die Liveansicht.
Luftstrom	Nein	Nein	Nein	Ja	Nein
Datenumkehr	Ja	Nein	Nein	Nein	Nein
Erwin	Nein	Nein	Nein	Ja	Nein
Stoff	Nein	Nein	Nein	Ja	Ja
Looker	Nein	Nein	Nein	Ja	Nein
Power BI	Nein	Nein	Nein	Ja	Ja**
Qlik Sense	Nein	Nein	Nein	Nein	Nein
Salesforce	Nein	Nein	Nein	Nein	Nein
SAP ECC	Nein	Nein	Nein	Ja*	Nein
SAP S/4HANA	Nein	Nein	Nein	Ja*	Nein
Tableau	Nein	Nein	Nein	Nein	Nein

* Neben der Herkunft von Ressourcen innerhalb der Datenquelle wird auch die Herkunft unterstützt, wenn das Dataset als Quelle/Senke in Data Factory oder Synapse-Pipeline verwendet wird.

** Power BI-Elemente in einem Fabric-Mandanten sind über die Liveansicht verfügbar.

Hinweis

Derzeit kann der Microsoft Purview Data Map keine Medienobjekte scannen, die /, \oder # im Namen enthalten sind. Verwenden Sie das Beispiel unter Registrieren und Überprüfen einer Azure SQL-Datenbank, um den Umfang Ihrer Überprüfung zu erweitern und die Überprüfung von Ressourcen zu vermeiden, die diese Zeichen im Ressourcennamen enthalten.

Wichtig

Wenn Sie eine selbstgehostete Integration Runtime verwenden möchten, erfordert das Überprüfen einiger Datenquellen eine zusätzliche Einrichtung auf dem Computer mit der selbstgehosteten Integration Runtime. Beispielsweise JDK, Visual C++ Redistributable oder ein bestimmter Treiber. Informationen zu Ihrer Quelle finden Sie in jedem Quellartikel, um details zu den Voraussetzungen zu erhalten. Alle Anforderungen sind im Abschnitt Voraussetzungen aufgeführt.

Data Map-Scannerregionen

Im Folgenden ist eine Liste aller Azure-Datenquellenregionen (Rechenzentrumsregionen) aufgeführt, in denen der Microsoft Purview Data Map Scanner ausgeführt wird. Wenn sich Ihre Azure-Datenquelle in einer Region außerhalb dieser Liste befindet, wird der Scanner in der Region Ihres Microsoft Purview-instance ausgeführt.

Australien (Osten)
Australien (Südosten)
Brasilien Süd
Kanada, Mitte
Kanada, Osten
Indien, Mitte
China, Norden 3
Ostasien
USA (Osten)
USA (Osten) 2
Frankreich, Mitte
Deutschland, Westen-Mitte
Japan Osten
Korea zentral
USA (Norden, Mitte)
Nordeuropa
Katar, Mitte
Süd-Afrika Nord
USA (Süden, Mitte)
Südostasien
Schweiz Nord
VAE Nord
Vereinigtes Königreich (Süden)
USGov Virginia
USA (Westen, Mitte)
Westeuropa
USA (Westen)
USA (Westen) 2
USA, Westen 3

Für die Überprüfung unterstützte Dateitypen

Die unten aufgeführten Dateitypen werden für die Überprüfung, für die Schemaextraktion und gegebenenfalls die Klassifizierung unterstützt. Darüber hinaus unterstützt Data Map benutzerdefinierte Dateierweiterungen und benutzerdefinierte Parser.

Strukturierte Dateiformate, die von der Erweiterung unterstützt werden, umfassen Scannen, Schemaextraktion und Klassifizierung auf Ressourcen- und Spaltenebene:

AVRO
CSV
GZIP
JSON
ORK
PARKETT
PSV
SSV
TSV
TXT
XML

Dokumentdateiformate, die von der Erweiterung unterstützt werden, umfassen die Überprüfung und die Klassifizierung auf Ressourcenebene:

DOKTOR
DOCM
DOCX
PUNKT
ODP
ODS
ODT
PDF
TOPF
PPS
PPSX
PPT
PPTM
PPTX
XLC
XLS
XLSB
XLSM
XLSX
XLT

Hinweis

Bekannte Einschränkungen:

Der Microsoft Purview Data Map-Scanner unterstützt nur die Schemaextraktion für die oben aufgeführten strukturierten Dateitypen.
Für AVRO-, ORC- und PARQUET-Dateitypen unterstützt der Scanner keine Schemaextraktion für Dateien, die komplexe Datentypen (z. B. MAP, LIST, STRUCT) enthalten.
Der Scanner unterstützt das Scannen snappy komprimierter PARQUET-Typen für die Schemaextraktion und -klassifizierung.
Bei GZIP-Dateitypen muss das GZIP einer einzelnen CSV-Datei in zugeordnet werden. Gzip-Dateien unterliegen systemspezifischen und benutzerdefinierten Klassifizierungsregeln. Derzeit wird das Scannen einer GZIP-Datei, die mehreren Dateien in zugeordnet ist, oder einem anderen Dateityp als csv nicht unterstützt.
Für Dateitypen mit Trennzeichen (CSV, PSV, SSV, TSV, TXT):
- Durch Trennzeichen getrennte Dateien mit nur einer Spalte können nicht als CSV-Dateien bestimmt werden und weisen kein Schema auf.
- Die Datentyperkennung wird nicht unterstützt. Der Datentyp wird für alle Spalten als "Zeichenfolge" aufgeführt.
- Wir unterstützen nur komma(','), semikolon(';'), vertical bar('|') und tab('\t') als Trennzeichen.
- Durch Trennzeichen getrennte Dateien mit weniger als drei Zeilen können nicht als CSV-Dateien bestimmt werden, wenn sie ein benutzerdefiniertes Trennzeichen verwenden. Beispiel: Dateien mit ~-Trennzeichen und weniger als drei Zeilen können nicht als CSV-Dateien bestimmt werden.
- Wenn ein Feld doppelte Anführungszeichen enthält, können die doppelten Anführungszeichen nur am Anfang und Ende des Felds angezeigt werden und müssen übereinstimmen. Doppelte Anführungszeichen, die in der Mitte des Felds oder am Anfang und Ende angezeigt werden, aber nicht übereinstimmen, werden als ungültige Daten erkannt, und es wird kein Schema aus der Datei analysiert. Zeilen, die eine andere Anzahl von Spalten als die Kopfzeile aufweisen, werden als Fehlerzeilen bewertet. (Anzahl der Fehlerzeilen/Anzahl der stichprobenierten Zeilen ) muss kleiner als 0,1 sein.
Wenn Sie bei Parquet-Dateien eine selbstgehostete Integration Runtime verwenden, müssen Sie die 64-Bit-JRE 11 (Java Runtime Environment) oder OpenJDK auf Ihrem IR-Computer installieren. Eine Installationsanleitung finden Sie im Abschnitt Java Runtime Environment unten auf der Seite .
Derzeit wird das Deltaformat nicht unterstützt. Wenn Sie das Deltaformat direkt aus einer Speicherdatenquelle wie Azure Data Lake Storage (ADLS Gen2) überprüfen, wird der Satz von Parquet-Dateien aus dem Deltaformat analysiert und als Ressourcensatz behandelt, wie unter Grundlegendes zu Ressourcensätzen beschrieben. Neben den spalten, die für die Partitionierung verwendet werden, werden nicht als Teil des Schemas für den Ressourcensatz erkannt.

Schemaextraktion

Für Datenquellen, die die Schemaextraktion während der Überprüfung unterstützen, wird das Ressourcenschema nicht direkt um die Anzahl der Spalten abgeschnitten.

Geschachtelte Daten

Geschachtelte Daten werden nur für JSON-Inhalte unterstützt. Wenn in einer Spalte geschachtelter JSON-Inhalt vorhanden ist, analysiert der Scanner für alle vom System unterstützten Dateitypen die geschachtelten JSON-Daten und zeigt sie auf der Schemaregisterkarte des Medienobjekts an.

Geschachtelte Daten oder geschachtelte Schemaanalyse werden in SQL nicht unterstützt. Eine Spalte mit geschachtelten Daten wird gemeldet und klassifiziert, und Unterdaten werden nicht analysiert.

Samplingdaten für die Klassifizierung

In der Data Map-Terminologie:

L1-Scan: Extrahiert grundlegende Informationen und Metadaten wie Dateiname, Größe und vollqualifizierter Name
L2-Überprüfung: Extrahiert das Schema für strukturierte Dateitypen und Datenbanktabellen.
L3-Überprüfung: Extrahiert ggf. das Schema und unterzieht die Stichprobendatei den System- und benutzerdefinierten Klassifizierungsregeln.

Erfahren Sie mehr über das Anpassen der Scanebenen.

Für alle strukturierten Dateiformate werden dateien im Microsoft Purview Data Map Scanner wie folgt beschrieben:

Bei strukturierten Dateitypen werden die ersten 128 Zeilen in jeder Spalte oder die ersten 1 MB( je nachdem, welcher Wert niedriger ist) entnommen.
Bei Dokumentdateiformaten werden die ersten 20 MB jeder Datei als Stichprobe verwendet.
- Wenn eine Dokumentdatei größer als 20 MB ist, unterliegt sie keinem tiefen Scan (unterliegt der Klassifizierung). In diesem Fall erfasst Microsoft Purview nur grundlegende Metadaten wie Dateiname und vollqualifizierter Name.
Für tabellarische Datenquellen (SQL) werden die ersten 128 Zeilen entnommen.
Für Azure Cosmos DB for NoSQL werden bis zu 300 unterschiedliche Eigenschaften aus den ersten 10 Dokumenten in einem Container für das Schema gesammelt, und für jede Eigenschaft werden Werte von bis zu 128 Dokumenten oder den ersten 1 MB abgetastet.

Stichprobenerstellung für Ressourcensatzdateien

Ein Ordner oder eine Gruppe von Partitionsdateien wird als Ressourcensatz im Microsoft Purview Data Map erkannt, wenn er mit einer Systemressourcensatzrichtlinie oder einer vom Kunden definierten Ressourcensatzrichtlinie übereinstimmt. Wenn ein Ressourcensatz erkannt wird, nimmt der Scanner einen Stichproben für jeden ordner, der darin enthalten ist. Weitere Informationen zu Ressourcensätzen finden Sie hier.

Dateisampling für Ressourcensätze nach Dateitypen:

Durch Trennzeichen getrennte Dateien (CSV, PSV, SSV, TSV): 1 von 100 Dateien werden in einem Ordner oder einer Gruppe von Partitionsdateien, die als "Ressourcensatz" betrachtet werden, stichprobeniert (L3-Überprüfung)
Data Lake-Dateitypen (Parquet, Avro, Orc): 1 in 18446744073709551615 Dateien (maximale Länge) werden in einem Ordner oder einer Gruppe von Partitionsdateien, die als "Ressourcensatz" betrachtet werden, stichprobeniert (L3-Überprüfung)
Andere strukturierte Dateitypen (JSON, XML, TXT): 1 von 100 Dateien werden in einem Ordner oder einer Gruppe von Partitionsdateien, die als "Ressourcensatz" betrachtet werden, stichprobeniert (L3-Scan)
SQL-Objekte und Azure Cosmos DB-Entitäten : Jede Datei wird L3 gescannt.
Dokumentdateitypen : Jede Datei wird L3 gescannt. Ressourcensatzmuster gelten nicht für diese Dateitypen.

Teilen über

Datenquellen, die eine Verbindung mit Data Map herstellen

Datenquellenauflistung nach Typ

Azure

Datenbank

File

Dienste und Apps

Data Map-Scannerregionen

Für die Überprüfung unterstützte Dateitypen

Schemaextraktion

Geschachtelte Daten

Samplingdaten für die Klassifizierung

Stichprobenerstellung für Ressourcensatzdateien

Nächste Schritte

Feedback

Zusätzliche Ressourcen