Freigeben über


Datenqualität mit Microsoft Purview Unified Catalog

Die Datenqualität in Microsoft Purview Unified Catalog ermöglicht es Governancedomänen und Datenbesitzern, die Qualität ihres Datenökosystems zu bewerten und zu überwachen, was gezielte Verbesserungsmaßnahmen ermöglicht. In der heutigen KI-gestützten Landschaft wirkt sich die Zuverlässigkeit von Daten direkt auf die Genauigkeit kigesteuerter Erkenntnisse und Empfehlungen aus. Ohne vertrauenswürdige Daten besteht die Gefahr, dass das Vertrauen in KI-Systeme beeinträchtigt wird und deren Einführung behindert wird.

Eine schlechte Datenqualität oder inkompatible Datenstrukturen können Geschäftsprozesse und Entscheidungsfunktionen beeinträchtigen. Die Datenqualität löst diese Herausforderungen, indem Sie Benutzern die Möglichkeit bietet, die Datenqualität mithilfe von Regeln ohne oder mit geringem Code zu bewerten, einschließlich sofort einsatzbereiter Regeln (OOB) und KI-generierter Regeln. Diese Regeln werden auf Spaltenebene angewendet und aggregiert, um Bewertungen auf der Ebene von Datenassets, Datenprodukten und Governancedomänen zu liefern, sodass die End-to-End-Sichtbarkeit der Datenqualität innerhalb der einzelnen Domänen sichergestellt wird.

Die Datenqualität umfasst auch KI-gestützte Datenprofilerstellungsfunktionen, die Spalten für die Profilerstellung empfehlen, während menschliches Eingreifen diese Empfehlungen verfeinern kann. Dieser iterative Prozess verbessert nicht nur die Genauigkeit der Datenprofilerstellung, sondern trägt auch zur kontinuierlichen Verbesserung der zugrunde liegenden KI-Modelle bei.

Durch die Anwendung von Datenqualität können Organisationen die Qualität ihrer Datenressourcen effektiv messen, überwachen und verbessern, um die Zuverlässigkeit kigesteuerter Erkenntnisse zu stärken und das Vertrauen in KI-basierte Entscheidungsprozesse zu stärken.

Lebenszyklus der Datenqualität

  1. Weisen Sie Benutzern Data Quality Steward-Berechtigungen in Unified Catalog zu, um alle Data Quality-Features zu verwenden.
  2. Registrieren und überprüfen Sie eine Datenquelle in Ihrem Microsoft Purview Data Map.
  3. Hinzufügen Ihrer Datenressource zu einem Datenprodukt
  4. Richten Sie eine Datenquellenverbindung ein, um Ihre Quelle für die Bewertung der Datenqualität vorzubereiten.
  5. Konfigurieren und Ausführen der Datenprofilerstellung für ein Medienobjekt in Ihrer Datenquelle.
    1. Wenn die Profilerstellung abgeschlossen ist, durchsuchen Sie die Ergebnisse für jede Spalte in der Datenressource, um die aktuelle Struktur und den aktuellen Status Ihrer Daten zu verstehen.
  6. Richten Sie Datenqualitätsregeln basierend auf den Profilerstellungsergebnissen ein, und wenden Sie sie auf Ihre Datenressource an.
  7. Konfigurieren und Ausführen einer Datenqualitätsüberprüfung für ein Datenprodukt, um die Qualität aller unterstützten Ressourcen im Datenprodukt zu bewerten.
  8. Überprüfen Sie Ihre Scanergebnisse , um die aktuelle Datenqualität Ihres Datenprodukts zu bewerten.
  9. Wiederholen Sie die Schritte 5 bis 8 in regelmäßigen Abständen über den Lebenszyklus Ihrer Datenressource, um sicherzustellen, dass die Qualität erhalten bleibt.
  10. Kontinuierliches Überwachen der Datenqualität
    1. Überprüfen Sie Datenqualitätsaktionen , um Probleme zu identifizieren und zu beheben.
    2. Legen Sie Data Quality-Benachrichtigungen fest, um Sie bei Qualitätsproblemen zu benachrichtigen.

Unterstützte Data Quality-Regionen

Die Datenqualität wird derzeit in den folgenden Regionen unterstützt.

Unterstützte Multiclouddatenquellen

Zeigen Sie die Liste der unterstützten Datenquellen an.

Wichtig

Die Datenqualität für Parquet-Dateien ist so konzipiert, dass Folgendes unterstützt wird:

  1. Ein Verzeichnis mit Parquet-Part-Datei. Beispiel: ./Sales/{Parquet Part Files}. Der vollqualifizierte Name muss folgen https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Stellen Sie sicher, dass keine {n}-Muster in der Verzeichnis-/Unterverzeichnisstruktur vorhanden sind, sondern ein direkter FQN sein muss, der zu {SparkPartitions} führt.
  2. Ein Verzeichnis mit partitionierten Parquet-Dateien, partitioniert nach Spalten innerhalb des Datasets, z. B. nach Jahr und Monat partitionierte Verkaufsdaten. Beispiel: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Beide wichtigen Szenarien, die ein konsistentes Parquet-Datasetschema aufweisen, werden unterstützt. Einschränkung: Es ist nicht für N beliebige Hierarchien von Verzeichnissen mit Parquet-Dateien konzipiert oder wird nicht unterstützt. Es wird empfohlen, Daten in (1) oder (2) konstruierter Struktur darzustellen.

Derzeit kann Microsoft Purview nur Überprüfungen zur Datenqualität mit verwalteter Identität als Authentifizierungsoption ausführen. Data Quality Services werden unter Apache Spark 3.4 und Delta Lake 2.4 ausgeführt.

Data Quality-Features

  • Konfiguration der Datenquellenverbindung
    • Konfigurieren Sie die Verbindung, damit die Purview DQ SaaS-Anwendung Lesezugriff auf Daten für Qualitätsüberprüfungen und -profilerstellungen hat.
    • MS Purview verwendet verwaltete Identität als Authentifizierungsoption.
  • Datenprofilerstellung
    • KI-fähige Datenprofilerstellung
    • Branchenstandard statistische Momentaufnahme (Verteilung, Min, Max, Standardabweichung, Eindeutigkeit, Vollständigkeit, Duplikat, ...)
    • Drilldown für Profilerstellungsmeasures auf Spaltenebene.
  • Regeln zur Datenqualität
    • Vorkonformitätsregeln zum Messen von sechs Branchenstandards Datenqualitätsdimensionen (Vollständigkeit, Konsistenz, Konformität, Genauigkeit, Aktualität und Eindeutigkeit)
    • Benutzerdefinierte Regelerstellungsfeatures umfassen die Anzahl der sofort einsatzbereiten Funktionen und Ausdruckswerte.
    • Automatisch generierte Regeln mit kiintegrierter Benutzeroberfläche
  • Datenqualitätsüberprüfung
    • Wählen Sie Regeln aus, und weisen Sie sie Spalten für die Datenqualitätsüberprüfung zu.
    • Wenden Sie die Datenfrischheitsregel auf Entitäts-/Tabellenebene an, um die SLA für die Aktualität der Daten zu messen.
    • Planen des Data Quality-Überprüfungsauftrags für einen bestimmten Zeitraum (stündlich, täglich, wöchentlich, monatlich usw.)
  • Data Quality-Auftragsüberwachung
    • Aktivieren des Überwachungsauftrags für data quality status (aktiv, abgeschlossen, fehlgeschlagen usw.)
    • Aktivieren Sie das Durchsuchen des DQ-Überprüfungsverlaufs.
  • Datenqualitätsbewertung
    • Datenqualitätsbewertung auf Regelebene (was ist die Qualitätsbewertung für eine Regel, die auf eine Spalte angewendet wurde)
    • Datenqualitätsbewertung für Datenressourcen, Datenprodukte und Governancedomänen (eine Governancedomäne kann über viele Datenprodukte verfügen, ein Datenprodukt kann über viele Datenressourcen verfügen, ein Datenressource kann über viele Datenspalten verfügen)
  • Datenqualität für kritische Datenelemente (CDEs)
    • Dies ist eines der wichtigsten Merkmale der Datenqualität, die Möglichkeit, Datenqualitätsregeln auf das logische Konstrukt von CDEs anzuwenden, die dann an die physischen Datenelemente weitergegeben werden, aus denen sie bestehen. Durch das Definieren von Datenqualitätsregeln auf CDEs-Ebene können Organisationen bestimmte Kriterien und Schwellenwerte festlegen, die CDEs erfüllen müssen, um ihre Qualität aufrechtzuerhalten.
  • Data Quality-Warnungen
    • Konfigurieren Sie Warnungen, um Datenbesitzer und Data Stewards zu benachrichtigen, wenn der Schwellenwert für die Datenqualität die Erwartungen verfehlt hat.
    • Konfigurieren Sie den E-Mail-Alias oder die Verteilergruppe, um die Benachrichtigung über Probleme mit der Datenqualität zu senden.
  • Aktionen zur Datenqualität
    • Aktionscenter für DQ mit Aktionen zum Behandeln von DQ-Anomaliezuständen, einschließlich Diagnoseabfragen für DQ Steward, um die spezifischen Daten zu beheben, die für jeden Anomaliezustand behoben werden müssen.
  • Verwaltetes virtuelles Netzwerk mit Datenqualität
    • Ein virtuelles Netzwerk, das durch Datenqualität verwaltet wird und eine Verbindung mit privaten Endpunkten mit Ihren Azure-Datenquellen herstellt.

Datenresidenz und -verschlüsselung

Datenqualitätsmetadaten und Profilerstellungszusammenfassung werden im Microsoft Managed Storage-Konto gespeichert. Sie werden in derselben Region wie die Datenquelle gespeichert, sodass die Datenresidenz intakt bleibt. Alle Daten werden verschlüsselt. Wir nutzen den regionalen Benutzerdatenspeicher des Microsoft Purview-Ressourcenanbieters für Metadaten, der die gesamte Verschlüsselung verarbeitet und für alle Microsoft Purview-Dienste gilt. Wenn Sie mehr Kontrolle über Ihre Datenverschlüsselung mit einem CMK (kundenseitig verwalteter Verschlüsselungsschlüssel) wünschen, gibt es einen separaten Prozess dafür. (Erfahren Sie mehr über microsoft Purview Customer Key.)

Data Quality Compute – Preise

Die Nutzung der Datenqualität wird basierend auf den nutzungsbasierten Zählern der Datengovernance-Verarbeitungseinheit (DATA Governance Processing Unit, DGPU) abgerechnet. Eine DGPU ist die Menge der Dienstleistung, die für 60 Minuten verbraucht wird und in drei verschiedenen Leistungsoptionen verfügbar ist: "Basic", "Standard" und "Advanced". Die Standard-SKU-Option wird als Standardleistungsoption festgelegt, bis eine höhere Option ausgewählt wird. Wenn ein Kunde beispielsweise 100 Data Quality-Regeln an einem einzigen Tag ausführt und jede Ausführung 0,02 DGPU mit der Basic-SKU erzeugt, würde die gesamte DGPU für diesen Tag zwei DGPU entsprechen, was dem Kunden 30 USD kostet. Der Preis der Basic-SKU beträgt 15 Dollar pro Verarbeitungseinheit, Standard SKU-Preis 60 Dollar pro Verarbeitungseinheit und der Preis der SKU im Voraus beträgt 240 Dollar pro Verarbeitungseinheit. Erfahren Sie mehr über Microsoft Purview Unified Catalog Preise.

Hier sehen Sie ein Beispiel für verbrauchte Verarbeitungseinheiten für einfache bis komplexe Regeln für verschiedene Datenvolumes, die für eine Standard-SKU getestet wurden.

Regelkomplexität 10.000 Datensätze - 100.000 Datensätze - 1.000.000 Datensätze - 10.000.000 Datensätze - 100.000.000 Datensätze - 1.000.000.000 Datensätze -
Dauer PU Dauer PU Dauer PU Dauer PU Dauer PU Dauer PU
Einfach Verstrichene Zeit: 1m 1s 0.02 Verstrichene Zeit: 1m 1s 0.02 Verstrichene Zeit: 1m 1s 0.02 Verstrichene Zeit: 1m 16s 0.02 Verstrichene Zeit: 1m 16s 0.02 Verstrichene Zeit: 1m 31s 0.03
Mittel Verstrichene Zeit: 1m 1s 0.02 Verstrichene Zeit: 1m 1s 0.02 Verstrichene Zeit: 1m 1s 0.02 Verstrichene Zeit: 1m 16s 0.02 Verstrichene Zeit: 1m 31s 0.03 Verstrichene Zeit: 2m 1s 0.03
Hoch Verstrichene Zeit: 1m 1s 0.02 Verstrichene Zeit: 1m 1s 0.02 Verstrichene Zeit: 1m 31s 0.03 Verstrichene Zeit: 1m 32s 0.03 Verstrichene Zeit: 2m 1s 0.03 Verstrichene Zeit: 2m 51s 0.04

Einschränkung

  • vNet wird für Google Big Query, Snowflake und Azure Databricks Unity Catalog nicht unterstützt.

Nächste Schritte

  1. Weisen Sie Benutzern Data Quality Steward-Berechtigungen in Unified Catalog zu, um alle Data Quality-Features zu verwenden.
  2. Richten Sie eine Datenquellenverbindung ein, um Ihre Quelle für die Bewertung der Datenqualität vorzubereiten.
  3. Konfigurieren und Ausführen der Datenprofilerstellung für ein Medienobjekt in Ihrer Datenquelle.