Microsoft Purview 統合カタログを使用したデータ品質

[アーティクル]
03/12/2025

Microsoft Purview 統合カタログのデータ品質により、ガバナンスドメインとデータ所有者は、データエコシステムの品質を評価して監視できるようになり、目標とする改善アクションが容易になります。今日の AI 主導の環境では、データの信頼性が AI 主導の分析情報と推奨事項の精度に直接影響します。信頼できるデータがないと、AI システムに対する信頼が損なわれ、導入が妨げられるリスクがあります。

データ品質の低下や互換性のないデータ構造は、ビジネスプロセスと意思決定機能を妨げる可能性があります。データ品質は、既定の (OOB) ルールや AI によって生成されたルールなど、コードなし/低コードルールを使用してデータ品質を評価する機能をユーザーに提供することで、これらの課題に対処します。これらのルールは列レベルで適用され、集計され、データ資産、データ製品、ガバナンスドメインのレベルでスコアが提供され、各ドメイン内のデータ品質がエンドツーエンドで可視化されます。

データ品質には、AI を利用したデータプロファイリング機能も組み込まれており、プロファイリングの列を推奨しながら、人間の介入によってこれらの推奨事項を改善できます。この反復プロセスは、データプロファイルの精度を向上させるだけでなく、基になる AI モデルの継続的な改善にも貢献します。

データ品質を適用することで、組織はデータ資産の品質を効果的に測定、監視、強化し、AI 主導の分析情報の信頼性を強化し、AI ベースの意思決定プロセスに対する信頼を高めることができます。

データ品質のライフサイクル

すべてのデータ品質機能を使用するには、統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます。
Microsoft Purview データマップでデータソースを登録してスキャンします。
データ製品にデータ資産を追加する
データ品質評価のためにソースを準備するために、データソース接続を設定します。
データソース内の資産のデータプロファイルを構成して実行します。
1. プロファイリングが完了したら、データ資産の各列の結果を参照して、データの現在の構造と状態を把握します。
プロファイリング結果に基づいてデータ品質ルールを設定し、データ資産に適用します。
データ製品でデータ品質スキャンを構成して実行し、データ製品でサポートされているすべての資産の品質を評価します。
スキャン結果を確認して、データ製品の現在のデータ品質を評価します。
データ資産のライフサイクルで手順 5 から 8 を定期的に繰り返して、品質を維持します。
データ品質を継続的に監視する
1. データ品質アクションを確認して、問題を特定して解決します。
2. 品質の問題を警告するようにデータ品質通知を設定します。

サポートされているデータ品質リージョン

現在、データ品質は次のリージョンでサポートされています。

サポートされているマルチクラウドデータソース

サポートされているデータソースの一覧を表示します。

重要

Parquet ファイルのデータ品質は、次をサポートするように設計されています。

Parquet パーツファイルを含むディレクトリ。例: ./Sales/{Parquet Part Files}。完全修飾名は、 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}に従う必要があります。ディレクトリ/サブディレクトリ構造に {n} パターンがないことを確認します。{SparkPartitions} につながる直接の FQN である必要があります。
年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

これらの重要なシナリオはどちらもサポートされています。これは、一貫性のある Parquet データセットスキーマを示します。 制約： Parquet Files を使用したディレクトリの N 個の任意の階層をサポートするようには設計されていないか、サポートされません。 (1) または (2) 構築構造でデータを提示することをお勧めします。

現在、Microsoft Purview では、マネージド ID を認証オプションとして使用するデータ品質スキャンのみを実行できます。データ品質サービスは 、Apache Spark 3.4 と Delta Lake 2.4 で実行されます。

データ品質機能

データソース接続の構成
- Purview DQ SaaS アプリケーションが品質スキャンとプロファイリングのためにデータへの読み取りアクセスを許可するように接続を構成します。
- MS Purview では、認証オプションとしてマネージド ID が使用されます
データプロファイリング
- AI 対応データプロファイルエクスペリエンス
- 業界標準の統計スナップショット (分布、最小値、最大値、標準偏差、一意性、完全性、重複、...
- 列レベルのプロファイリングメジャーをドリルダウンします。
データ品質ルール
- 6 つの業界標準データ品質ディメンション (完全性、一貫性、適合性、正確性、鮮度、一意性) を測定するための標準外ルール
- カスタムルール作成機能には、すぐに使用する関数と式の値の数が含まれます。
- AI 統合エクスペリエンスを使用して自動生成されたルール
データ品質スキャン
- データ品質スキャンの列にルールを選択して割り当てます。
- エンティティ/テーブルレベルでデータの鮮度ルールを適用して、データの鮮度 SLA を測定します。
- データ品質スキャンジョブの期間のスケジュール設定 (時間単位、日単位、週単位、月単位など)
データ品質ジョブの監視
- データ品質ジョブの状態の監視 (アクティブ、完了、失敗など) を有効にする
- DQ スキャン履歴の参照を有効にします。
データ品質スコアリング
- ルールレベルのデータ品質スコア (列に適用されたルールの品質スコアとは)
- データ資産、データ製品、およびガバナンスドメインのデータ品質スコア (1 つのガバナンスドメインには多くのデータ製品を含めることができます。1 つのデータ製品には多くのデータ資産を含め、1 つのデータ資産には多くのデータ列を含めることができます)
重要なデータ要素 (CDEs) のデータ品質
- これは、データ品質の主要な機能の 1 つであり、データ品質ルールを CDE の論理コンストラクトに適用し、それを構成する物理データ要素に伝達する機能です。 CDEs レベルでデータ品質規則を定義することで、組織は、品質を維持するために CDEs が満たす必要がある特定の基準としきい値を確立できます
データ品質アラート
- データ品質のしきい値が予想を超えた場合にデータ所有者、データスチュワードに通知するようにアラートを構成します。
- データ品質の問題に関する通知を送信するように電子メールエイリアスまたは配布グループを構成します。
データ品質アクション
- DQ のアクションセンターでは、DQ の異常状態に対処するためのアクションが含まれます。これには、DQ スチュワードの診断クエリを特定のデータに対してゼロにして、異常状態ごとに修正します。
データ品質マネージド仮想ネットワーク
- プライベートエンドポイントと Azure データソースに接続するデータ品質によって管理される仮想ネットワーク。

データの保存場所と暗号化

データ品質メタデータとプロファイルの概要は、Microsoft マネージドストレージアカウントに格納されます。これらはデータソースと同じリージョンに格納されるため、データ所在地はそのまま残ります。すべてのデータが暗号化されます。 Microsoft では、すべての暗号化を処理し、すべての Microsoft Purview サービスで一般的なメタデータに Microsoft Purview Resource Provider リージョンユーザーデータストアを利用しています。 CMK (カスタマーマネージド暗号化キー) を使用してデータ暗号化をより詳細に制御する場合は、別のプロセスがあります。 ( Microsoft Purview カスタマーキーの詳細については、こちらをご覧ください)。

データ品質コンピューティングの価格

データ品質の使用状況は、データガバナンス処理ユニット (DGPU) 従量課金制メーターに基づいて課金されます。 DGPU は、60 分間消費されるサービスパフォーマンスの量であり、基本、標準、高度の 3 つの異なるパフォーマンスオプションで利用できます。基本 SKU オプションは、より高いオプションが選択されるまで、既定のパフォーマンスオプションとして設定されます。たとえば、顧客が 1 日に 100 個のデータ品質ルールを実行し、各実行で Basic SKU で 0.02 DGPU が生成される場合、その日の DGPU の合計は 2 つの DGPU になり、顧客のコストは 30 ドルになります。基本 SKU の価格は、処理単位あたり 15 ドル、Standard SKU の価格は 1 つの処理単位あたり 60 ドル、事前 SKU の価格は処理単位あたり 240 ドルです。 Microsoft Purview 統合カタログ価格の詳細については、こちらを参照してください。

標準 SKU でテストされる、さまざまなデータボリュームの基本ルールから複雑なルールに対して使用される処理単位の例を次に示します。

ルールの複雑さ	10,000 レコード	-	100,000 レコード	-	1,000,000 レコード	-	10,000,000 レコード	-	100,000,000 レコード	-	1,000,000,000 レコード	-
	期間	PU	期間	PU	期間	PU	期間	PU	期間	PU	期間	PU
シンプル	経過時間: 1m 1s	0.02	経過時間: 1m 1s	0.02	経過時間: 1m 1s	0.02	経過時間: 1m 16s	0.02	経過時間: 1m 16s	0.02	経過時間: 1m 31s	0.03
中	経過時間: 1m 1s	0.02	経過時間: 1m 1s	0.02	経過時間: 1m 1s	0.02	経過時間: 1m 16s	0.02	経過時間: 1m 31s	0.03	経過時間: 2m 1s	0.03
高	経過時間: 1m 1s	0.02	経過時間: 1m 1s	0.02	経過時間: 1m 31s	0.03	経過時間: 1m 32s	0.03	経過時間: 2m 1s	0.03	経過時間: 2m 51s	0.04

制限

vNet は、Google Big Query、Snowflake、Azure Databricks Unity Catalog ではサポートされていません。

次の方法で共有

Microsoft Purview 統合カタログを使用したデータ品質

データ品質のライフサイクル

サポートされているデータ品質リージョン

サポートされているマルチクラウドデータソース

データ品質機能

データの保存場所と暗号化

データ品質コンピューティングの価格

制限

次の手順

フィードバック

その他のリソース

次の方法で共有

Microsoft Purview 統合カタログを使用したデータ品質

データ品質のライフ サイクル

サポートされているデータ品質リージョン

サポートされているマルチクラウド データ ソース

データ品質機能

データの保存場所と暗号化

データ品質コンピューティングの価格

制限

関連コンテンツ

次の手順

フィードバック

その他のリソース

データ品質のライフサイクル

サポートされているマルチクラウドデータソース