Compartilhar via


Qualidade dos dados com Catálogo unificado do Microsoft Purview

A qualidade dos dados no Catálogo unificado do Microsoft Purview capacita os proprietários de dados e domínios de governação a avaliar e supervisionar a qualidade do respetivo ecossistema de dados, facilitando ações direcionadas de melhoria. No panorama atual orientado pela IA, a fiabilidade dos dados afeta diretamente a precisão das informações e recomendações orientadas por IA. Sem dados fidedignos, existe o risco de corroer a confiança nos sistemas de IA e impedir a sua adoção.

A má qualidade dos dados ou as estruturas de dados incompatíveis podem dificultar os processos empresariais e as capacidades de tomada de decisões. A qualidade dos dados resolve estes desafios ao oferecer aos utilizadores a capacidade de avaliar a qualidade dos dados através de regras sem código/de baixo código, incluindo regras OOB (out-of-the-box) e regras geradas por IA. Estas regras são aplicadas ao nível da coluna e agregadas para fornecer pontuações nos níveis de recursos de dados, produtos de dados e domínios de governação, garantindo a visibilidade ponto a ponto da qualidade dos dados em cada domínio.

A qualidade dos dados também incorpora capacidades de criação de perfis de dados com tecnologia de IA, recomendando colunas para criação de perfis e permitindo que a intervenção humana refine estas recomendações. Este processo iterativo não só melhora a precisão da criação de perfis de dados, como também contribui para a melhoria contínua dos modelos de IA subjacentes.

Ao aplicar a qualidade dos dados, as organizações podem medir, monitorizar e melhorar eficazmente a qualidade dos seus recursos de dados, reforçando a fiabilidade das informações orientadas por IA e fomentando a confiança nos processos de tomada de decisões baseados em IA.

Ciclo de vida da qualidade de dados

  1. Atribua permissões de administrador de qualidade de dados aos utilizadores no Catálogo unificado para utilizar todas as funcionalidades de qualidade de dados.
  2. Registe e analise uma origem de dados no seu Mapa de Dados do Microsoft Purview.
  3. Adicionar o recurso de dados a um produto de dados
  4. Configure uma ligação de origem de dados para preparar a sua origem para a avaliação da qualidade dos dados.
  5. Configure e execute a criação de perfis de dados para um recurso na sua origem de dados.
    1. Quando a criação de perfis estiver concluída, procure os resultados de cada coluna no recurso de dados para compreender a estrutura e o estado atuais dos seus dados.
  6. Configure regras de qualidade de dados com base nos resultados da criação de perfis e aplique-as ao recurso de dados.
  7. Configure e execute uma análise de qualidade de dados num produto de dados para avaliar a qualidade de todos os recursos suportados no produto de dados.
  8. Reveja os resultados da análise para avaliar a qualidade atual dos dados do produto de dados.
  9. Repita os passos 5 a 8 periodicamente ao longo do ciclo de vida do recurso de dados para garantir que mantém a qualidade.
  10. Monitorizar continuamente a qualidade dos dados
    1. Reveja as ações de qualidade dos dados para identificar e resolve problemas.
    2. Defina notificações de qualidade de dados para alertá-lo para problemas de qualidade.

Regiões de qualidade de dados suportadas

A qualidade dos dados é atualmente suportada nas seguintes regiões.

Origens de dados multicloud suportadas

Veja a lista de origens de dados suportadas.

Importante

A qualidade dos dados do ficheiro Parquet foi concebida para suportar:

  1. Um diretório com o Ficheiro de Peça Parquet. Por exemplo: ./Sales/{Parquet Part Files}. O Nome Completamente Qualificado tem de seguir https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Certifique-se de que não temos {n} padrões na estrutura de diretório/subdiretório. Em vez disso, tem de ser um FQN direto que conduza a {SparkPartitions}.
  2. Um diretório com Ficheiros Parquet Particionados, particionado por Colunas no conjunto de dados, como dados de vendas particionados por ano e mês. Por exemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Ambos os cenários essenciais, que apresentam um esquema de conjunto de dados Parquet consistente, são suportados. Limitação: Não foi concebido para ou não suporta N Hierarquias arbitrárias de Diretórios com Ficheiros Parquet. Recomendamos a apresentação de dados na estrutura construída (1) ou (2).

Atualmente, o Microsoft Purview só pode executar análises de qualidade de dados com a Identidade Gerida como opção de autenticação. Os serviços de qualidade de dados são executados no Apache Spark 3.4 e no Delta Lake 2.4.

Funcionalidades de qualidade de dados

  • Configuração da ligação da origem de dados
    • Configure a ligação para permitir que a aplicação SaaS do DQ do Purview tenha acesso de leitura aos dados para Análise de qualidade e criação de perfis.
    • O MS Purview utiliza a Identidade Gerida como uma opção de autenticação
  • Criação de perfil de dados
    • Experiência de criação de perfis de dados ativada para IA
    • Snapshot estatística padrão da indústria (distribuição, min, máx., desvio padrão, exclusividade, conclusão, duplicado, ...)
    • Desagregar medidas de criação de perfis ao nível da coluna.
  • Regras de qualidade de dados
    • Regras in box para medir seis normas da indústria Dimensões de qualidade dos dados (integridade, consistência, conformidade, precisão, frescura e exclusividade)
    • As funcionalidades de criação de regras personalizadas incluem o número de funções e valores de expressão fora da caixa.
    • Regras geradas automaticamente com experiência integrada de IA
  • Análise da qualidade dos dados
    • Selecione e atribua regras a colunas para análise da qualidade dos dados.
    • Aplique a regra de atualização de dados ao nível da entidade/tabela para medir o SLA de atualização de dados.
    • Agendar tarefa de análise da qualidade dos dados para o período de tempo (hora a hora, diariamente, semanalmente, mensalmente, etc.)
  • Monitorização de tarefas de qualidade de dados
    • Ative a monitorização da tarefa de qualidade dos dados status (ativa, concluída, falhada, etc.)
    • Ative a navegação no histórico de análise do DQ.
  • Classificação da qualidade dos dados
    • Pontuação da qualidade dos dados ao nível da regra (qual é a classificação de qualidade de uma regra aplicada a uma coluna)
    • Classificação da qualidade dos dados para Recursos de dados, Produtos de Dados e Domínios de Governação (um domínio de governação pode ter muitos produtos de dados, um produto de dados pode ter muitos recursos de dados, um recurso de dados pode ter muitas colunas de dados)
  • Qualidade dos dados para elementos de dados críticos (CDEs)
    • Esta é uma das principais funcionalidades da qualidade dos dados, a capacidade de aplicar regras de qualidade de dados à construção lógica de CDEs, que depois se propagam para os elementos de dados físicos que os compõem. Ao definir regras de qualidade de dados ao nível dos CDEs, as organizações podem estabelecer critérios e limiares específicos que os CDEs têm de cumprir para manter a sua qualidade
  • Alertas de qualidade de dados
    • Configure alertas para notificar os proprietários de dados, responsáveis pelos dados se o limiar de qualidade dos dados não tiver sido esperado.
    • configure o alias de e-mail ou o grupo de distribuição para enviar a notificação sobre problemas de qualidade de dados.
  • Ações de qualidade de dados
    • Centro de ações para DQ com ações para resolver estados de anomalias de DQ, incluindo consultas de diagnóstico do responsável pelo DQ para zero nos dados específicos a corrigir para cada estado de anomalia.
  • Rede virtual gerenciada de qualidade de dados
    • Uma rede virtual gerida pela qualidade dos dados que se liga aos pontos finais privados às origens de dados do Azure.

Residência e encriptação de dados

Os metadados de qualidade de dados e o resumo da criação de perfis são armazenados na conta de Armazenamento Gerido da Microsoft. São armazenados na mesma região que a origem de dados, pelo que a residência dos dados permanece intacta. Todos os dados são encriptados. Estamos a tirar partido do arquivo de dados de utilizador regional do Fornecedor de Recursos do Microsoft Purview para metadados, que processa toda a encriptação e é comum em todos os serviços do Microsoft Purview. Se quiser ter mais controlo sobre a encriptação de dados com uma CMK (chave de encriptação gerida pelo cliente), existe um processo separado para a mesma. (Saiba mais sobre a Chave de Cliente do Microsoft Purview.)

Preços de computação de qualidade de dados

A utilização da qualidade dos dados é faturada com base nos medidores pay as you go da Unidade de Processamento de Governação de Dados (DGPU). Uma DGPU é a quantidade de desempenho do serviço consumida durante 60 minutos e está disponível em três opções de desempenho diferentes: básico, padrão e avançado. A opção SKU básica é definida como a opção de desempenho predefinida até que seja selecionada uma opção superior. Por exemplo, se um cliente executar 100 regras de qualidade de dados num único dia e cada execução produzir 0,02 DGPU com o SKU Básico, o total de DGPU desse dia equivaleria a duas DGPU, custando ao cliente 30 $. O preço básico do SKU é de 15 dólares por unidade de processamento, Standard preço de SKU é de 60 dólares por unidade de processamento e o preço de SKU avançado é de 240 dólares por unidade de processamento. Saiba mais sobre os preços do Catálogo unificado do Microsoft Purview.

Eis um exemplo de unidades de processamento consumidas para regras básicas a complexas para diferentes volumes de dados, testadas para um SKU padrão.

Complexidade das regras 10 000 registos - 100 000 registos - 1000 000 registos - 10 000 000 registos - 100.000.000 registos - 1.000.000.000 registos -
Duração PU Duração PU Duração PU Duração PU Duração PU Duração PU
Simples Tempo decorrido: 1m 1s 0.02 Tempo decorrido: 1m 1s 0.02 Tempo decorrido: 1m 1s 0.02 Tempo decorrido: 1m 16s 0.02 Tempo decorrido: 1m 16s 0.02 Tempo decorrido: 1m 31s 0.03
Médio Tempo decorrido: 1m 1s 0.02 Tempo decorrido: 1m 1s 0.02 Tempo decorrido: 1m 1s 0.02 Tempo decorrido: 1m 16s 0.02 Tempo decorrido: 1m 31s 0.03 Tempo decorrido: 2m 1s 0.03
Alto Tempo decorrido: 1m 1s 0.02 Tempo decorrido: 1m 1s 0.02 Tempo decorrido: 1m 31s 0.03 Tempo decorrido: 1m 32s 0.03 Tempo decorrido: 2m 1s 0.03 Tempo decorrido: 2m 51s 0.04

Limitação

  • A vNet não é suportada para o Google Big Query, Snowflake e Catálogo do Unity do Azure Databricks.

Próximas etapas

  1. Atribua permissões de administrador de qualidade de dados aos utilizadores no Catálogo unificado para utilizar todas as funcionalidades de qualidade de dados.
  2. Configure uma ligação de origem de dados para preparar a sua origem para a avaliação da qualidade dos dados.
  3. Configure e execute a criação de perfis de dados para um recurso na sua origem de dados.