Microsoft Purview 統合カタログを使用したデータ品質
Microsoft Purview 統合カタログのデータ品質により、ガバナンス ドメインとデータ所有者は、データ エコシステムの品質を評価して監視できるようになり、目標とする改善アクションが容易になります。 今日の AI 主導の環境では、データの信頼性が AI 主導の分析情報と推奨事項の精度に直接影響します。 信頼できるデータがないと、AI システムに対する信頼が損なわれ、導入が妨げられるリスクがあります。
データ品質の低下や互換性のないデータ構造は、ビジネス プロセスと意思決定機能を妨げる可能性があります。 データ品質は、既定の (OOB) ルールや AI によって生成されたルールなど、コードなし/低コードルールを使用してデータ品質を評価する機能をユーザーに提供することで、これらの課題に対処します。 これらのルールは列レベルで適用され、集計され、データ資産、データ製品、ガバナンス ドメインのレベルでスコアが提供され、各ドメイン内のデータ品質がエンドツーエンドで可視化されます。
データ品質には、AI を利用したデータ プロファイリング機能も組み込まれており、プロファイリングの列を推奨しながら、人間の介入によってこれらの推奨事項を改善できます。 この反復プロセスは、データ プロファイルの精度を向上させるだけでなく、基になる AI モデルの継続的な改善にも貢献します。
データ品質を適用することで、組織はデータ資産の品質を効果的に測定、監視、強化し、AI 主導の分析情報の信頼性を強化し、AI ベースの意思決定プロセスに対する信頼を高めることができます。
データ品質のライフ サイクル
- すべてのデータ品質機能を使用するには、統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます。
- Microsoft Purview データ マップでデータ ソースを登録してスキャンします。
- データ製品にデータ資産を追加する
- データ品質評価のためにソースを準備するために、データ ソース接続を設定します。
-
データ ソース内の資産のデータ プロファイルを構成して実行します。
- プロファイリングが完了したら、データ資産の各列の結果を参照して、データの現在の構造と状態を把握します。
- プロファイリング結果に基づいてデータ品質ルールを設定し、データ資産に適用します。
- データ製品でデータ品質スキャンを構成して実行 し、データ製品でサポートされているすべての資産の品質を評価します。
- スキャン結果を確認 して、データ製品の現在のデータ品質を評価します。
- データ資産のライフ サイクルで手順 5 から 8 を定期的に繰り返して、品質を維持します。
- データ品質を継続的に監視する
- データ品質アクションを確認 して、問題を特定して解決します。
- 品質の問題を警告するようにデータ品質通知を設定 します。
サポートされているデータ品質リージョン
現在、データ品質は 次のリージョンでサポートされています。
サポートされているマルチクラウド データ ソース
サポートされているデータ ソースの一覧を表示します。
重要
Parquet ファイルのデータ品質は、次をサポートするように設計されています。
- Parquet パーツ ファイルを含むディレクトリ。 例: ./Sales/{Parquet Part Files}。 完全修飾名は、
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
に従う必要があります。 ディレクトリ/サブディレクトリ構造に {n} パターンがないことを確認します。{SparkPartitions} につながる直接の FQN である必要があります。 - 年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。 例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
これらの重要なシナリオはどちらもサポートされています。これは、一貫性のある Parquet データセット スキーマを示します。 制約: Parquet Files を使用したディレクトリの N 個の任意の階層をサポートするようには設計されていないか、サポートされません。 (1) または (2) 構築構造でデータを提示することをお勧めします。
現在、Microsoft Purview では、 マネージド ID を 認証オプションとして使用するデータ品質スキャンのみを実行できます。 データ品質サービスは 、Apache Spark 3.4 と Delta Lake 2.4 で実行されます。
データ品質機能
-
データ ソース接続の構成
- Purview DQ SaaS アプリケーションが品質スキャンとプロファイリングのためにデータへの読み取りアクセスを許可するように接続を構成します。
- MS Purview では、認証オプションとしてマネージド ID が使用されます
-
データ プロファイリング
- AI 対応データ プロファイル エクスペリエンス
- 業界標準の統計スナップショット (分布、最小値、最大値、標準偏差、一意性、完全性、重複、...
- 列レベルのプロファイリング メジャーをドリルダウンします。
-
データ品質ルール
- 6 つの業界標準データ品質ディメンション (完全性、一貫性、適合性、正確性、鮮度、一意性) を測定するための標準外ルール
- カスタム ルール作成機能には、すぐに使用する関数と式の値の数が含まれます。
- AI 統合エクスペリエンスを使用して自動生成されたルール
-
データ品質スキャン
- データ品質スキャンの列にルールを選択して割り当てます。
- エンティティ/テーブル レベルでデータの鮮度ルールを適用して、データの鮮度 SLA を測定します。
- データ品質スキャン ジョブの期間のスケジュール設定 (時間単位、日単位、週単位、月単位など)
-
データ品質ジョブの監視
- データ品質ジョブの状態の監視 (アクティブ、完了、失敗など) を有効にする
- DQ スキャン履歴の参照を有効にします。
-
データ品質スコアリング
- ルール レベルのデータ品質スコア (列に適用されたルールの品質スコアとは)
- データ資産、データ製品、およびガバナンス ドメインのデータ品質スコア (1 つのガバナンス ドメインには多くのデータ製品を含めることができます。1 つのデータ製品には多くのデータ資産を含め、1 つのデータ資産には多くのデータ列を含めることができます)
-
重要なデータ要素 (CDEs) のデータ品質
- これは、データ品質の主要な機能の 1 つであり、データ品質ルールを CDE の論理コンストラクトに適用し、それを構成する物理データ要素に伝達する機能です。 CDEs レベルでデータ品質規則を定義することで、組織は、品質を維持するために CDEs が満たす必要がある特定の基準としきい値を確立できます
-
データ品質アラート
- データ品質のしきい値が予想を超えた場合にデータ所有者、データ スチュワードに通知するようにアラートを構成します。
- データ品質の問題に関する通知を送信するように電子メール エイリアスまたは配布グループを構成します。
-
データ品質アクション
- DQ のアクション センターでは、DQ の異常状態に対処するためのアクションが含まれます。これには、DQ スチュワードの診断クエリを特定のデータに対してゼロにして、異常状態ごとに修正します。
-
データ品質マネージド仮想ネットワーク
- プライベート エンドポイントと Azure データ ソースに接続するデータ品質によって管理される仮想ネットワーク。
データの保存場所と暗号化
データ品質メタデータとプロファイルの概要は、Microsoft マネージド ストレージ アカウントに格納されます。 これらはデータ ソースと同じリージョンに格納されるため、データ所在地はそのまま残ります。 すべてのデータが暗号化されます。 Microsoft では、すべての暗号化を処理し、すべての Microsoft Purview サービスで一般的なメタデータに Microsoft Purview Resource Provider リージョン ユーザー データ ストアを利用しています。 CMK (カスタマー マネージド暗号化キー) を使用してデータ暗号化をより詳細に制御する場合は、別のプロセスがあります。 ( Microsoft Purview カスタマー キーの詳細については、こちらをご覧ください)。
データ品質コンピューティングの価格
データ品質の使用状況は、データ ガバナンス処理ユニット (DGPU) 従量課金制メーターに基づいて課金されます。 DGPU は、60 分間消費されるサービス パフォーマンスの量であり、基本、標準、高度の 3 つの異なるパフォーマンス オプションで利用できます。 基本 SKU オプションは、より高いオプションが選択されるまで、既定のパフォーマンス オプションとして設定されます。 たとえば、顧客が 1 日に 100 個のデータ品質ルールを実行し、各実行で Basic SKU で 0.02 DGPU が生成される場合、その日の DGPU の合計は 2 つの DGPU になり、顧客のコストは 30 ドルになります。 基本 SKU の価格は、処理単位あたり 15 ドル、Standard SKU の価格は 1 つの処理単位あたり 60 ドル、事前 SKU の価格は処理単位あたり 240 ドルです。 Microsoft Purview 統合カタログ価格の詳細については、こちらを参照してください。
標準 SKU でテストされる、さまざまなデータ ボリュームの基本ルールから複雑なルールに対して使用される処理単位の例を次に示します。
ルールの複雑さ | 10,000 レコード | - | 100,000 レコード | - | 1,000,000 レコード | - | 10,000,000 レコード | - | 100,000,000 レコード | - | 1,000,000,000 レコード | - |
---|---|---|---|---|---|---|---|---|---|---|---|---|
期間 | PU | 期間 | PU | 期間 | PU | 期間 | PU | 期間 | PU | 期間 | PU | |
シンプル | 経過時間: 1m 1s | 0.02 | 経過時間: 1m 1s | 0.02 | 経過時間: 1m 1s | 0.02 | 経過時間: 1m 16s | 0.02 | 経過時間: 1m 16s | 0.02 | 経過時間: 1m 31s | 0.03 |
中 | 経過時間: 1m 1s | 0.02 | 経過時間: 1m 1s | 0.02 | 経過時間: 1m 1s | 0.02 | 経過時間: 1m 16s | 0.02 | 経過時間: 1m 31s | 0.03 | 経過時間: 2m 1s | 0.03 |
高 | 経過時間: 1m 1s | 0.02 | 経過時間: 1m 1s | 0.02 | 経過時間: 1m 31s | 0.03 | 経過時間: 1m 32s | 0.03 | 経過時間: 2m 1s | 0.03 | 経過時間: 2m 51s | 0.04 |
制限
- vNet は、Google Big Query、Snowflake、Azure Databricks Unity Catalog ではサポートされていません。
関連コンテンツ
- Fabric データ資産のデータ品質
- Fabric ミラー化されたデータ ソースのデータ品質
- Fabric ショートカット データ ソースのデータ品質
- Azure Synapseサーバーレスおよびデータ ウェアハウスのデータ品質
- Azure Databricks Unity カタログのデータ品質
- Snowflake データ ソースのデータ品質
- Google ビッグ クエリのデータ品質
- 氷山データのデータ品質ネイティブ サポート