Partager via


Qualité des données avec Catalogue unifié Microsoft Purview

La qualité des données dans Catalogue unifié Microsoft Purview permet aux domaines de gouvernance et aux propriétaires de données d’évaluer et de superviser la qualité de leur écosystème de données, ce qui facilite les actions ciblées pour l’amélioration. Dans le paysage actuel piloté par l’IA, la fiabilité des données a un impact direct sur la précision des insights et des recommandations pilotés par l’IA. Sans données dignes de confiance, il existe un risque d’éroder la confiance dans les systèmes d’IA et d’entraver leur adoption.

Une mauvaise qualité des données ou des structures de données incompatibles peuvent entraver les processus métier et les capacités de prise de décision. La qualité des données répond à ces défis en offrant aux utilisateurs la possibilité d’évaluer la qualité des données à l’aide de règles sans code/low-code, y compris les règles OOB (out-of-the-box) et les règles générées par l’IA. Ces règles sont appliquées au niveau de la colonne et agrégées pour fournir des scores aux niveaux des ressources de données, des produits de données et des domaines de gouvernance, ce qui garantit une visibilité de bout en bout de la qualité des données dans chaque domaine.

La qualité des données intègre également des fonctionnalités de profilage des données basées sur l’IA, ce qui recommande des colonnes pour le profilage tout en permettant à l’intervention humaine d’affiner ces recommandations. Ce processus itératif améliore non seulement la précision du profilage des données, mais contribue également à l’amélioration continue des modèles IA sous-jacents.

En appliquant la qualité des données, les organisations peuvent mesurer, surveiller et améliorer efficacement la qualité de leurs ressources de données, ce qui renforce la fiabilité des insights pilotés par l’IA et favorise la confiance dans les processus décisionnels basés sur l’IA.

Cycle de vie de la qualité des données

  1. Attribuez aux utilisateurs des autorisations de gestionnaire de la qualité des données dans Catalogue unifié d’utiliser toutes les fonctionnalités de qualité des données.
  2. Inscrivez et analysez une source de données dans votre Mappage de données Microsoft Purview.
  3. Ajouter votre ressource de données à un produit de données
  4. Configurez une connexion à la source de données pour préparer votre source pour l’évaluation de la qualité des données.
  5. Configurez et exécutez le profilage des données pour une ressource dans votre source de données.
    1. Une fois le profilage terminé, parcourez les résultats de chaque colonne de la ressource de données pour comprendre la structure et l’état actuels de vos données.
  6. Configurez des règles de qualité des données basées sur les résultats du profilage et appliquez-les à votre ressource de données.
  7. Configurez et exécutez une analyse de la qualité des données sur un produit de données pour évaluer la qualité de toutes les ressources prises en charge dans le produit de données.
  8. Passez en revue les résultats de votre analyse pour évaluer la qualité actuelle des données de votre produit de données.
  9. Répétez régulièrement les étapes 5 à 8 sur le cycle de vie de votre ressource de données pour vous assurer qu’elle maintient la qualité.
  10. Surveiller en permanence la qualité de vos données
    1. Passez en revue les actions de qualité des données pour identifier et résoudre les problèmes.
    2. Définissez des notifications de qualité des données pour vous avertir des problèmes de qualité.

Régions de qualité des données prises en charge

La qualité des données est actuellement prise en charge dans les régions suivantes.

Sources de données multicloud prises en charge

Affichez la liste des sources de données prises en charge.

Importante

La qualité des données du fichier Parquet est conçue pour prendre en charge :

  1. Répertoire avec fichier de composant Parquet. Par exemple : ./Sales/{Parquet Part Files}. Le nom complet doit suivre https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Assurez-vous que nous n’avons pas de modèles {n} dans la structure de répertoires/sous-répertoires. Il doit plutôt s’agir d’un nom de domaine complet direct menant à {SparkPartitions}.
  2. Répertoire avec des fichiers Parquet partitionnés, partitionnés par colonnes dans le jeu de données, comme les données de ventes partitionnée par année et par mois. Par exemple : ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Ces deux scénarios essentiels, qui présentent un schéma de jeu de données Parquet cohérent, sont pris en charge. Limitation: Il n’est pas conçu pour ou ne prend pas en charge N hiérarchies arbitraires de répertoires avec des fichiers Parquet. Nous vous recommandons de présenter des données dans (1) ou (2) structure construite.

Actuellement, Microsoft Purview peut uniquement exécuter des analyses de qualité des données à l’aide de l’option Identité managée comme option d’authentification. Les services de qualité des données s’exécutent sur Apache Spark 3.4 et Delta Lake 2.4.

Fonctionnalités de qualité des données

  • Configuration de la connexion à la source de données
    • Configurez la connexion pour autoriser l’application SaaS Purview DQ à disposer d’un accès en lecture aux données pour l’analyse qualité et le profilage.
    • MS Purview utilise l’identité managée comme option d’authentification
  • Profilage des données
    • Expérience de profilage des données avec l’IA
    • Instantané statistiques standard de l’industrie (distribution, min, max, écart type, unicité, exhaustivité, doublon, ...)
    • Explorer les mesures de profilage au niveau des colonnes.
  • Règles sur la qualité des données
    • Règles prêtes à l’emploi pour mesurer six normes industrielles Dimensions de la qualité des données (exhaustivité, cohérence, conformité, précision, actualisation et unicité)
    • Les fonctionnalités de création de règles personnalisées incluent le nombre de fonctions prêtes à l’emploi et de valeurs d’expression.
    • Règles générées automatiquement avec expérience intégrée à l’IA
  • Analyse de la qualité des données
    • Sélectionnez et affectez des règles aux colonnes pour l’analyse de la qualité des données.
    • Appliquez la règle d’actualisation des données au niveau de l’entité/de la table pour mesurer le contrat SLA d’actualisation des données.
    • Planification du travail d’analyse de la qualité des données pour une période de temps (toutes les heures, tous les jours, hebdomadaires, mensuels, etc.)
  • Surveillance des travaux de qualité des données
    • Activer le travail de surveillance de la qualité des données status (actif, terminé, en échec, etc.)
    • Activez la navigation dans l’historique d’analyse DQ.
  • Scoring de la qualité des données
    • Score de qualité des données au niveau de la règle (quel est le score de qualité d’une règle qui s’applique à une colonne)
    • Score de qualité des données pour les ressources de données, les produits de données et les domaines de gouvernance (un domaine de gouvernance peut avoir plusieurs produits de données, un produit de données peut avoir plusieurs ressources de données, une ressource de données peut avoir plusieurs colonnes de données)
  • Qualité des données pour les éléments de données critiques (CTE)
    • Il s’agit de l’une des principales caractéristiques de la qualité des données, c’est-à-dire la possibilité d’appliquer des règles de qualité des données à la construction logique des CDE, qui se propagent ensuite aux éléments de données physiques qui les composent. En définissant des règles de qualité des données au niveau des CTE, les organisations peuvent établir des critères et des seuils spécifiques que les CED doivent respecter pour maintenir leur qualité
  • Alertes de qualité des données
    • Configurez des alertes pour avertir les propriétaires de données et les gestionnaires de données si le seuil de qualité des données n’a pas été atteint.
    • configurez l’alias de messagerie ou le groupe de distribution pour envoyer la notification sur les problèmes de qualité des données.
  • Actions sur la qualité des données
    • Centre d’actions pour DQ avec des actions pour traiter les états d’anomalie DQ, y compris les requêtes de diagnostic pour le gestionnaire de DQ à zéro sur les données spécifiques à corriger pour chaque état d’anomalie.
  • Réseau virtuel de la qualité des données managé
    • Un réseau virtuel géré par la qualité des données qui se connecte avec des points de terminaison privés à vos sources de données Azure.

Résidence et chiffrement des données

Les métadonnées de qualité des données et le résumé du profilage sont stockés dans le compte de stockage managé Microsoft. Ils sont stockés dans la même région que la source de données, de sorte que la résidence des données reste intacte. Toutes les données sont chiffrées. Nous tirons parti du magasin de données utilisateur régional du fournisseur de ressources Microsoft Purview pour les métadonnées, qui gère tout le chiffrement et est commun à tous les services Microsoft Purview. Si vous souhaitez plus de contrôle sur le chiffrement de vos données avec une clé CMK (clé de chiffrement gérée par le client), il existe un processus distinct pour cela. (En savoir plus sur la clé client Microsoft Purview.)

Tarification du calcul de la qualité des données

L’utilisation de la qualité des données est facturée en fonction des compteurs de paiement à l’utilisation de l’unité de traitement de gouvernance des données (DGPU). Un processeur dgpu représente la quantité de performances de service consommée pendant 60 minutes et est disponible dans trois options de performances différentes : de base, standard et avancée. L’option de référence SKU de base est définie comme option de performances par défaut jusqu’à ce qu’une option supérieure soit sélectionnée. Par exemple, si un client exécute 100 règles de qualité des données en une seule journée et que chaque exécution produit 0,02 processeur dg avec la référence SKU De base, le total du processeur dgpu pour ce jour est égal à deux processeurs généraux, ce qui coûte au client 30 $. Le prix de la référence SKU de base est de 15 dollars par unité de traitement, Standard prix de la référence SKU est de 60 dollars par unité de traitement, et le prix de la référence SKU anticipée est de 240 dollars par unité de traitement. En savoir plus sur la tarification Catalogue unifié Microsoft Purview.

Voici un exemple d’unités de traitement consommées pour des règles de base à complexes pour différents volumes de données, testées pour une référence SKU standard.

Complexité de la règle 10 000 enregistrements - 100 000 enregistrements - 1 000 000 enregistrements - 10 000 000 enregistrements - 100 000 000 enregistrements - 1 000 000 000 enregistrements -
Durée PU Durée PU Durée PU Durée PU Durée PU Durée PU
Simple Temps écoulé : 1m 1s 0.02 Temps écoulé : 1m 1s 0.02 Temps écoulé : 1m 1s 0.02 Temps écoulé : 1m 16s 0.02 Temps écoulé : 1m 16s 0.02 Temps écoulé : 1m 31s 0.03
Moyen Temps écoulé : 1m 1s 0.02 Temps écoulé : 1m 1s 0.02 Temps écoulé : 1m 1s 0.02 Temps écoulé : 1m 16s 0.02 Temps écoulé : 1m 31s 0.03 Temps écoulé : 2m 1s 0.03
Élevé Temps écoulé : 1m 1s 0.02 Temps écoulé : 1m 1s 0.02 Temps écoulé : 1m 31s 0.03 Temps écoulé : 1m 32s 0.03 Temps écoulé : 2m 1s 0.03 Temps écoulé : 2m 51s 0.04

Restriction

  • Le réseau virtuel n’est pas pris en charge pour Google Big Query, Snowflake et Azure Databricks Unity Catalog.

Étapes suivantes

  1. Attribuez aux utilisateurs des autorisations de gestionnaire de la qualité des données dans Catalogue unifié d’utiliser toutes les fonctionnalités de qualité des données.
  2. Configurez une connexion à la source de données pour préparer votre source pour l’évaluation de la qualité des données.
  3. Configurez et exécutez le profilage des données pour une ressource dans votre source de données.