스토리지 탐색 및 데이터 파일 찾기
이 문서에서는 Catalog Explorer를 사용하여 volumes 탐색하기 위한 UI 기반 지침을 포함하여 Unity Catalogvolumes관리되는 디렉터리 및 데이터 파일을 검색하고 탐색하는 데 중점을 둡니다. 이 문서에서는 볼륨 경로 및 클라우드 URI를 사용하여 클라우드 개체 스토리지의 데이터를 프로그래밍 방식으로 탐색하는 예제도 제공합니다.
Databricks는 volumes 사용하여 클라우드 개체 스토리지의 데이터에 대한 액세스를 관리하는 것이 좋습니다. 클라우드 개체 스토리지의 데이터에 연결하는 방법에 대한 자세한 내용은 데이터 원본에 연결을 참조 하세요.
모든 위치에서 파일과 상호 작용하는 방법에 대한 전체 연습은 Azure Databricks의 파일 작업을 참조 하세요.
Important
작업 영역 UI에서 파일을 검색할 때 작업 영역 파일로 저장된 데이터 파일을 검색할 수 있습니다. Databricks는 주로 코드(예: 스크립트 및 라이브러리), init 스크립트 또는 구성 파일에 작업 영역 파일을 사용하는 것이 좋습니다. 개발 및 QA 중 테스트와 같은 작업에 사용할 수 있는 작은 데이터 세트에 작업 영역 파일로 저장된 데이터를 limit 것이 좋습니다. 작업 영역 파일이란?을 참조하세요.
Volumes 및 레거시 클라우드 개체 구성
volumes 사용하여 클라우드 개체 스토리지의 데이터에 대한 액세스를 관리하는 경우 volumes 경로만 사용하여 데이터에 액세스할 수 있으며, 이러한 경로는 모든 Unity Catalog사용 가능한 컴퓨팅에서 사용할 수 있습니다. Unity Catalogtables을 지원하는 데이터 파일을 volumes를 사용하여 등록할 수 없습니다. Databricks는 파일 경로 대신 table 이름을 사용하는 것이 Unity Catalogtables에 등록된 구조적 데이터와 상호 작용하는 데 더 좋습니다. Unity Catalog관리되는 데이터에 대한 경로는 어떻게 작동합니까?.
레거시 메서드를 사용하여 클라우드 개체 스토리지의 데이터에 대한 액세스를 구성하는 경우 Azure Databricks는 레거시 table ACL 권한으로 되돌려집니다. SQL 웨어하우스 또는 공유 액세스 모드로 구성된 컴퓨팅에서 클라우드 URI를 사용하여 데이터에 액세스하려는 사용자에게는 권한이 필요합니다 ANY FILE
.
Hive 메타스토어 table 액세스 제어(레거시)참조하세요.
Azure Databricks는 클라우드 개체 스토리지에 파일을 나열하기 위한 여러 API를 제공합니다. 이 문서의 대부분의 예제에서는 volumes사용에 중점을 줍니다. volumes없이 구성된 개체 스토리지의 데이터와 상호 작용하는 예제를 보려면 List 파일의 URI을 참조하세요.
volumes 탐색
Catalog 탐색기를 사용하여 volumes 데이터를 탐색하고 볼륨의 세부 정보를 검토할 수 있습니다. 읽을 수 있는 권한이 있는 volumes만 볼 수 있으므로, 이러한 방식으로 검색된 모든 데이터를 쿼리할 수 있습니다.
SQL을 사용하여 volumes 및 해당 메타데이터를 탐색할 수 있습니다.
volumes파일을 list 위해 SQL, %fs
매직 명령 또는 Databricks 유틸리티를 사용할 수 있습니다.
volumes데이터와 상호 작용할 때는 Unity Catalog에서 제공된 경로를 사용합니다. 이 경로는 항상 다음 형식입니다.
/Volumes/catalog_name/schema_name/volume_name/path/to/data
표시 volumes
SQL
다음 명령을 실행하여 지정된 schema에서 list의 volumes을 확인합니다.
SHOW VOLUMES IN catalog_name.schema_name;
SHOW VOLUMES을 참조하세요.
Catalog 탐색기
지정된 schema에 있는 volumes를 Catalog 탐색기를 사용하여 표시하려면 다음을 수행합니다.
-
Select 아이콘
Catalog 아이콘.
- Select catalog.
- Select schema.
- Volumes을 클릭하여 schema에서 모든 volumes을 확장합니다.
참고 항목
volumes가 schema에 등록되어 있지 않으면 Volumes 옵션이 표시되지 않습니다. 사용할 수 있는 tables의 list 대신 표시됩니다.
볼륨 세부 정보 보기
SQL
다음 명령을 실행하여 볼륨을 설명합니다.
DESCRIBE VOLUME volume_name
DESCRIBE VOLUME을 참조하세요.
Catalog 탐색기
볼륨 이름을 클릭하고 select세부 정보 탭을 선택하여 볼륨 세부 정보를 검토합니다.
volumes 파일 보기
SQL
다음 명령을 실행하여 볼륨의 파일을 list.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Catalog 탐색기
볼륨 이름을 클릭한 다음 세부 정보 탭으로 이동하여 select 볼륨 세부 정보를 검토합니다.
%fs
다음 명령을 실행하여 볼륨의 파일을 list 처리하십시오.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Databricks 유틸리티
다음 명령어를 실행하여 볼륨의 파일을 list 처리하십시오.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
List 파일 URI를 사용하여
URI를 사용하여 volumes 이외의 방법으로 구성된 클라우드 개체 스토리지를 쿼리할 수 있습니다. 클라우드 위치에 액세스하려면 권한이 있는 컴퓨팅에 연결해야 합니다.
ANY FILE
SQL 웨어하우스 및 공유 액세스 모드로 구성된 컴퓨팅에 대한 권한이 필요합니다.
참고 항목
volumes 구성된 개체 스토리지에 대한 URI 액세스는 지원되지 않습니다. Catalog Explorer를 사용하여 volumes구성되지 않은 개체 스토리지의 내용을 검토할 수 없습니다.
다음 예제에는 Azure Data Lake Storage Gen2, S3 및 GCS와 함께 저장된 데이터에 대한 예제 URI가 포함됩니다.
SQL
다음 명령을 실행하여 클라우드 객체 스토리지에 있는 파일에 list 작업을 수행하십시오.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
%fs
다음 명령을 실행해 클라우드 오브젝트 스토리지에 파일을 list.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Databricks 유틸리티
다음 명령을 실행하여 클라우드 객체 저장소에 있는 파일을 list 처리하세요.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")