다음을 통해 공유


데이터 품질 검사 구성 및 실행

데이터 품질 검사는 적용된 데이터 품질 규칙에 따라 데이터 자산을 검토하고 점수를 생성합니다. 데이터 관리자는 해당 점수를 사용하여 데이터 상태를 평가하고 데이터 품질을 낮출 수 있는 문제를 해결할 수 있습니다.

필수 구성 요소

  • 데이터 품질 평가 검사를 실행하고 예약하려면 사용자가 데이터 품질 관리자 역할에 있어야 합니다.
  • 현재 Microsoft Purview 계정은 데이터 품질 검사를 실행할 수 있도록 공용 액세스 또는 관리형 vNet 액세스를 허용하도록 설정할 수 있습니다.

데이터 품질 수명 주기

데이터 품질 검사는 데이터 자산의 데이터 품질 수명 주기일곱 번째 단계입니다. 이전 단계는 다음과 같습니다.

  1. 통합 카탈로그 사용자 데이터 품질 관리자 권한을 할당하여 모든 데이터 품질 기능을 사용합니다.
  2. Microsoft Purview 데이터 맵 데이터 원본을 등록하고 검사합니다.
  3. 데이터 제품에 데이터 자산 추가
  4. 데이터 품질 평가를 위해 원본을 준비하도록 데이터 원본 연결을 설정합니다.
  5. 데이터 원본의 자산에 대한 데이터 프로파일링을 구성하고 실행합니다.
    1. 프로파일링이 완료되면 데이터 자산의 각 열에 대한 결과를 찾아 데이터의 현재 구조와 상태를 이해합니다.
  6. 프로파일링 결과에 따라 데이터 품질 규칙을 설정하고 데이터 자산에 적용합니다.

지원되는 다중 클라우드 데이터 원본

지원되는 데이터 원본 문서를 찾아 vNet 지원 여부와 관계없이 데이터 프로파일링 및 데이터 품질 검사에 대한 파일 형식을 포함하여 지원되는 데이터 원본 목록을 확인합니다.

중요

Parquet 파일의 데이터 품질은 다음을 지원하도록 설계되었습니다.

  1. Parquet 파트 파일이 있는 디렉터리입니다. 예: ./Sales/{Parquet Part Files}. 정규화된 이름은 을 따라 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}야 합니다. 디렉터리/하위 디렉터리 구조에 {n} 패턴이 없는지 확인합니다. 대신 {SparkPartitions}로 이어지는 직접 FQN이어야 합니다.
  2. 분할된 Parquet 파일이 있는 디렉터리로, 연도 및 월별로 분할된 판매 데이터와 같이 데이터 세트 내의 열로 분할됩니다. 예: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

일관된 parquet 데이터 세트 스키마를 제공하는 이러한 필수 시나리오가 모두 지원됩니다. 제한: Parquet Files를 사용하여 디렉터리의 N 임의 계층 구조를 지원하거나 지원하지 않습니다. (1) 또는 (2) 생성 구조에서 데이터를 표시하는 것이 좋습니다.

지원되는 인증 방법

현재 Microsoft Purview는 관리 ID 를 인증 옵션으로 사용하여 데이터 품질 검사만 실행할 수 있습니다. 데이터 품질 서비스는 Apache Spark 3.4Delta Lake 2.4에서 실행됩니다. 지원되는 지역에 대한 자세한 내용은 데이터 품질 개요를 참조하세요.

중요

  • 스키마가 데이터 원본에서 업데이트되는 경우 데이터 품질 검사를 실행하기 전에 데이터 맵 검사를 다시 실행해야 합니다. 데이터 품질 개요 페이지에서 스키마 가져오기 기능을 사용할 수도 있습니다.
  • 관리형 vNet 또는 프라이빗 엔드포인트에서 실행되는 데이터 원본에는 스키마 가져오기가 지원되지 않습니다.
  • vNet은 Azure Databricks, Google BigQuery 및 Snowflake에서 지원되지 않습니다.

데이터 품질 검사 실행

  1. 데이터 품질을 검사하는 자산에 대한 데이터 원본 연결을 구성합니다(앨러디를 수행하지 않은 경우).

  2. Microsoft Purview 통합 카탈로그 상태 관리를 선택한 다음 데이터 품질을 선택합니다.

  3. 목록에서 거버넌스 도메인 을 선택합니다.

  4. 데이터 제품을 선택하여 해당 제품에 연결된 데이터 자산의 데이터 품질을 평가합니다.

  5. 데이터 품질 개요 페이지로 이동되는 데이터 자산의 이름을 선택합니다.

  6. 기존 데이터 품질 규칙을 찾아보고 규칙을 선택하여 새 규칙을 추가할 수 있습니다. 스키마를 선택하여 데이터 자산의 스키마를 찾아볼 수 있습니다. 이미 추가된 규칙을 켜거나 끌 수 있습니다.

  7. 개요 페이지에서 품질 검사 실행을 선택하여 품질 검사를 실행 합니다.

  8. 검사가 실행되는 동안 거버넌스 도메인의 데이터 품질 모니터링 페이지에서 진행 상황을 추적할 수 있습니다.

데이터 품질 검사 예약

품질 검사 실행 단추를 선택하여 임시로 데이터 품질 검사를 실행할 수 있지만 프로덕션 시나리오에서는 원본 데이터가 지속적으로 업데이트되고 있으므로 문제를 검색하기 위해 정기적으로 데이터 품질을 모니터링하고 있는지 확인하려고 합니다. 품질 검사를 정기적으로 업데이트할 수 있도록 검사 프로세스를 자동화할 수 있습니다.

  1. Microsoft Purview 통합 카탈로그 상태 관리를 선택한 다음 데이터 품질을 선택합니다.

  2. 목록에서 거버넌스 도메인 을 선택합니다.

  3. 관리를 선택한 다음 예약된 검사를 선택합니다.

  4. 예약된 검사 만들기 페이지에서 양식을 작성합니다. 일정을 설정하는 원본의 이름과설명을 추가합니다.

  5. 계속을 선택합니다.

  6. 범위 탭에서 개별 데이터 제품 및 자산 또는 전체 거버넌스 도메인의 모든 데이터 제품 및 데이터 자산을 선택합니다.

  7. 계속을 선택합니다.

  8. 기본 설정에 따라 일정을 설정하고 계속을 선택합니다.

  9. 검토 탭에서 저장(또는 저장 후 실행하여 즉시 테스트)을 선택하여 데이터 품질 평가 검사 예약을 완료합니다.

검사 탭 아래의 데이터 품질 작업 모니터링 페이지에서 예약된 검사를 모니터링할 수 있습니다 .

이전 데이터 품질 검사 및 기록 삭제

데이터 제품에서 데이터 자산을 제거하는 경우 해당 데이터 자산에 데이터 품질 점수가 있는 경우 먼저 데이터 품질 점수를 삭제한 다음 데이터 제품에서 데이터 자산을 제거해야 합니다.

데이터 품질 기록 데이터를 삭제하면 프로필 기록, 데이터 품질 검사 기록 및 데이터 품질 규칙이 제거되지만 데이터 품질 작업은 삭제되지 않습니다.

아래 단계에 따라 이전 데이터 품질 검사를 삭제합니다.

  1. Microsoft Purview 통합 카탈로그 상태 관리 메뉴 및 데이터 품질 하위 메뉴를 선택합니다.
  2. 목록에서 거버넌스 도메인 을 선택합니다.
  3. 페이지 오른쪽 위에 있는 줄임표(...)를 선택합니다.
  4. 데이터 품질 데이터 삭제를 선택하여 데이터 품질 실행 기록을 삭제합니다.

참고

  • 테스트 실행, 오류 데이터 품질 실행 또는 데이터 제품에서 데이터 자산을 제거하는 경우에만 데이터 품질 데이터 삭제를 사용하는 것이 좋습니다.
  • 데이터 품질 프로파일링 및 데이터 품질 평가 기록의 스냅샷을 최대 50개까지 저장합니다. 특정 스냅샷 삭제하려면 원하는 기록 실행을 선택하고 삭제 아이콘을 선택합니다.

다음 단계