次の方法で共有


Microsoft Purview 統合カタログを使用したデータ品質

Microsoft Purview 統合カタログのデータ品質により、ガバナンス ドメインとデータ所有者は、データ エコシステムの品質を評価して監視できるようになり、目標とする改善アクションが容易になります。 今日の AI 主導の環境では、データの信頼性が AI 主導の分析情報と推奨事項の精度に直接影響します。 信頼できるデータがないと、AI システムに対する信頼が損なわれ、導入が妨げられるリスクがあります。

データ品質の低下や互換性のないデータ構造は、ビジネス プロセスと意思決定機能を妨げる可能性があります。 データ品質は、既定の (OOB) ルールや AI によって生成されたルールなど、コードなし/低コードルールを使用してデータ品質を評価する機能をユーザーに提供することで、これらの課題に対処します。 これらのルールは列レベルで適用され、集計され、データ資産、データ製品、ガバナンス ドメインのレベルでスコアが提供され、各ドメイン内のデータ品質がエンドツーエンドで可視化されます。

データ品質には、AI を利用したデータ プロファイリング機能も組み込まれており、プロファイリングの列を推奨しながら、人間の介入によってこれらの推奨事項を改善できます。 この反復プロセスは、データ プロファイルの精度を向上させるだけでなく、基になる AI モデルの継続的な改善にも貢献します。

データ品質を適用することで、組織はデータ資産の品質を効果的に測定、監視、強化し、AI 主導の分析情報の信頼性を強化し、AI ベースの意思決定プロセスに対する信頼を高めることができます。

データ品質のライフ サイクル

  1. すべてのデータ品質機能を使用するには、統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます
  2. Microsoft Purview データ マップでデータ ソースを登録してスキャンします。
  3. データ製品にデータ資産を追加する
  4. データ品質評価のためにソースを準備するために、データ ソース接続を設定します
  5. データ ソース内の資産のデータ プロファイルを構成して実行します。
    1. プロファイリングが完了したら、データ資産の各列の結果を参照して、データの現在の構造と状態を把握します。
  6. プロファイリング結果に基づいてデータ品質ルールを設定し、データ資産に適用します。
  7. データ製品でデータ品質スキャンを構成して実行 し、データ製品でサポートされているすべての資産の品質を評価します。
  8. スキャン結果を確認 して、データ製品の現在のデータ品質を評価します。
  9. データ資産のライフ サイクルで手順 5 から 8 を定期的に繰り返して、品質を維持します。
  10. データ品質を継続的に監視する
    1. データ品質アクションを確認 して、問題を特定して解決します。
    2. 品質の問題を警告するようにデータ品質通知を設定 します。

サポートされているデータ品質リージョン

現在、データ品質は 次のリージョンでサポートされています

サポートされているマルチクラウド データ ソース

サポートされているデータ ソースの一覧を表示します。

重要

Parquet ファイルのデータ品質は、次をサポートするように設計されています。

  1. Parquet パーツ ファイルを含むディレクトリ。 例: ./Sales/{Parquet Part Files}。 完全修飾名は、 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}に従う必要があります。 ディレクトリ/サブディレクトリ構造に {n} パターンがないことを確認します。{SparkPartitions} につながる直接の FQN である必要があります。
  2. 年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。 例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

これらの重要なシナリオはどちらもサポートされています。これは、一貫性のある Parquet データセット スキーマを示します。 制約: Parquet Files を使用したディレクトリの N 個の任意の階層をサポートするようには設計されていないか、サポートされません。 (1) または (2) 構築構造でデータを提示することをお勧めします。

現在、Microsoft Purview では、 マネージド ID を 認証オプションとして使用するデータ品質スキャンのみを実行できます。 データ品質サービスは 、Apache Spark 3.4Delta Lake 2.4 で実行されます。

データ品質機能

  • データ ソース接続の構成
    • Purview DQ SaaS アプリケーションが品質スキャンとプロファイリングのためにデータへの読み取りアクセスを許可するように接続を構成します。
    • MS Purview では、認証オプションとしてマネージド ID が使用されます
  • データ プロファイリング
    • AI 対応データ プロファイル エクスペリエンス
    • 業界標準の統計スナップショット (分布、最小値、最大値、標準偏差、一意性、完全性、重複、...
    • 列レベルのプロファイリング メジャーをドリルダウンします。
  • データ品質ルール
    • 6 つの業界標準データ品質ディメンション (完全性、一貫性、適合性、正確性、鮮度、一意性) を測定するための標準外ルール
    • カスタム ルール作成機能には、すぐに使用する関数と式の値の数が含まれます。
    • AI 統合エクスペリエンスを使用して自動生成されたルール
  • データ品質スキャン
    • データ品質スキャンの列にルールを選択して割り当てます。
    • エンティティ/テーブル レベルでデータの鮮度ルールを適用して、データの鮮度 SLA を測定します。
    • データ品質スキャン ジョブの期間のスケジュール設定 (時間単位、日単位、週単位、月単位など)
  • データ品質ジョブの監視
    • データ品質ジョブの状態の監視 (アクティブ、完了、失敗など) を有効にする
    • DQ スキャン履歴の参照を有効にします。
  • データ品質スコアリング
    • ルール レベルのデータ品質スコア (列に適用されたルールの品質スコアとは)
    • データ資産、データ製品、およびガバナンス ドメインのデータ品質スコア (1 つのガバナンス ドメインには多くのデータ製品を含めることができます。1 つのデータ製品には多くのデータ資産を含め、1 つのデータ資産には多くのデータ列を含めることができます)
  • 重要なデータ要素 (CDEs) のデータ品質
    • これは、データ品質の主要な機能の 1 つであり、データ品質ルールを CDE の論理コンストラクトに適用し、それを構成する物理データ要素に伝達する機能です。 CDEs レベルでデータ品質規則を定義することで、組織は、品質を維持するために CDEs が満たす必要がある特定の基準としきい値を確立できます
  • データ品質アラート
    • データ品質のしきい値が予想を超えた場合にデータ所有者、データ スチュワードに通知するようにアラートを構成します。
    • データ品質の問題に関する通知を送信するように電子メール エイリアスまたは配布グループを構成します。
  • データ品質アクション
    • DQ のアクション センターでは、DQ の異常状態に対処するためのアクションが含まれます。これには、DQ スチュワードの診断クエリを特定のデータに対してゼロにして、異常状態ごとに修正します。
  • データ品質マネージド仮想ネットワーク
    • プライベート エンドポイントと Azure データ ソースに接続するデータ品質によって管理される仮想ネットワーク。

データの保存場所と暗号化

データ品質メタデータとプロファイルの概要は、Microsoft マネージド ストレージ アカウントに格納されます。 これらはデータ ソースと同じリージョンに格納されるため、データ所在地はそのまま残ります。 すべてのデータが暗号化されます。 Microsoft では、すべての暗号化を処理し、すべての Microsoft Purview サービスで一般的なメタデータに Microsoft Purview Resource Provider リージョン ユーザー データ ストアを利用しています。 CMK (カスタマー マネージド暗号化キー) を使用してデータ暗号化をより詳細に制御する場合は、別のプロセスがあります。 ( Microsoft Purview カスタマー キーの詳細については、こちらをご覧ください)。

データ品質コンピューティングの価格

データ品質の使用状況は、データ ガバナンス処理ユニット (DGPU) 従量課金制メーターに基づいて課金されます。 DGPU は、60 分間消費されるサービス パフォーマンスの量であり、基本、標準、高度の 3 つの異なるパフォーマンス オプションで利用できます。 基本 SKU オプションは、より高いオプションが選択されるまで、既定のパフォーマンス オプションとして設定されます。 たとえば、顧客が 1 日に 100 個のデータ品質ルールを実行し、各実行で Basic SKU で 0.02 DGPU が生成される場合、その日の DGPU の合計は 2 つの DGPU になり、顧客のコストは 30 ドルになります。 基本 SKU の価格は、処理単位あたり 15 ドル、Standard SKU の価格は 1 つの処理単位あたり 60 ドル、事前 SKU の価格は処理単位あたり 240 ドルです。 Microsoft Purview 統合カタログ価格の詳細については、こちらを参照してください。

標準 SKU でテストされる、さまざまなデータ ボリュームの基本ルールから複雑なルールに対して使用される処理単位の例を次に示します。

ルールの複雑さ 10,000 レコード - 100,000 レコード - 1,000,000 レコード - 10,000,000 レコード - 100,000,000 レコード - 1,000,000,000 レコード -
期間 PU 期間 PU 期間 PU 期間 PU 期間 PU 期間 PU
シンプル 経過時間: 1m 1s 0.02 経過時間: 1m 1s 0.02 経過時間: 1m 1s 0.02 経過時間: 1m 16s 0.02 経過時間: 1m 16s 0.02 経過時間: 1m 31s 0.03
経過時間: 1m 1s 0.02 経過時間: 1m 1s 0.02 経過時間: 1m 1s 0.02 経過時間: 1m 16s 0.02 経過時間: 1m 31s 0.03 経過時間: 2m 1s 0.03
経過時間: 1m 1s 0.02 経過時間: 1m 1s 0.02 経過時間: 1m 31s 0.03 経過時間: 1m 32s 0.03 経過時間: 2m 1s 0.03 経過時間: 2m 51s 0.04

制限

  • vNet は、Google Big Query、Snowflake、Azure Databricks Unity Catalog ではサポートされていません。

次の手順

  1. すべてのデータ品質機能を使用するには、統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます
  2. データ品質評価のためにソースを準備するために、データ ソース接続を設定します
  3. データ ソース内の資産のデータ プロファイルを構成して実行します。