Menjelajahi penyimpanan dan menemukan file data
Artikel ini berfokus pada menemukan dan menjelajahi direktori dan file data yang dikelola dengan volume Unity Catalog, termasuk instruksi berbasis UI untuk menjelajahi volume dengan Catalog Explorer. Artikel ini juga menyediakan contoh untuk eksplorasi data terprogram dalam penyimpanan objek cloud menggunakan jalur volume dan URI cloud.
Databricks merekomendasikan penggunaan volume untuk mengelola akses ke data di penyimpanan objek cloud. Untuk informasi selengkapnya tentang menyambungkan ke data di penyimpanan objek cloud, lihat Menyambungkan ke sumber data.
Untuk panduan lengkap tentang cara berinteraksi dengan file di semua lokasi, lihat Bekerja dengan file di Azure Databricks.
Penting
Saat mencari File di UI ruang kerja, Anda mungkin menemukan file data yang disimpan sebagai file ruang kerja. Databricks merekomendasikan penggunaan file ruang kerja terutama untuk kode (seperti skrip dan pustaka), skrip init, atau file konfigurasi. Anda idealnya harus membatasi data yang disimpan sebagai file ruang kerja ke himpunan data kecil yang mungkin digunakan untuk tugas seperti pengujian selama pengembangan dan QA. Lihat Apa itu file ruang kerja?.
Konfigurasi objek cloud volume vs. warisan
Saat Anda menggunakan volume untuk mengelola akses ke data di penyimpanan objek cloud, Anda hanya dapat menggunakan jalur volume untuk mengakses data, dan jalur ini tersedia dengan semua komputasi yang mendukung Katalog Unity. Anda tidak dapat mendaftarkan file data yang mendukung tabel Unity Catalog menggunakan volume. Databricks merekomendasikan penggunaan nama tabel alih-alih jalur file untuk berinteraksi dengan data terstruktur yang terdaftar sebagai tabel Unity Catalog. Lihat Bagaimana cara kerja jalur untuk data yang dikelola oleh Unity Catalog?.
Jika Anda menggunakan metode warisan untuk mengonfigurasi akses ke data di penyimpanan objek cloud, Azure Databricks kembali ke izin ACL tabel warisan. Pengguna yang ingin mengakses data menggunakan URI cloud dari gudang SQL atau komputasi yang dikonfigurasi dengan mode akses bersama memerlukan ANY FILE
izin. Lihat Kontrol akses tabel metastore Apache Hive (warisan).
Azure Databricks menyediakan beberapa API untuk mencantumkan file di penyimpanan objek cloud. Sebagian besar contoh dalam artikel ini berfokus pada penggunaan volume. Untuk contoh tentang berinteraksi dengan data pada penyimpanan objek yang dikonfigurasi tanpa volume, lihat Mencantumkan file dengan URI.
Menjelajahi volume
Anda dapat menggunakan Catalog Explorer untuk menjelajahi data dalam volume dan meninjau detail volume. Anda hanya dapat melihat volume yang memiliki izin untuk dibaca, sehingga Anda bisa mengkueri semua data yang ditemukan dengan cara ini.
Anda dapat menggunakan SQL untuk menjelajahi volume dan metadatanya. Untuk mencantumkan file dalam volume, Anda dapat menggunakan SQL, %fs
perintah ajaib, atau utilitas Databricks. Saat berinteraksi dengan data dalam volume, Anda menggunakan jalur yang disediakan oleh Unity Catalog, yang selalu memiliki format berikut:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
Menampilkan volume
SQL
Jalankan perintah berikut untuk melihat daftar volume dalam skema tertentu.
SHOW VOLUMES IN catalog_name.schema_name;
Lihat SHOW VOLUMES.
Penjelajah Katalog
Untuk menampilkan volume dalam skema tertentu dengan Catalog Explorer, lakukan hal berikut:
- Catalog icon Pilih ikon Katalog.
- Pilih katalog.
- Pilih skema.
- Klik Volume untuk memperluas semua volume dalam skema.
Catatan
Jika tidak ada volume yang terdaftar ke skema, opsi Volume tidak ditampilkan. Sebagai gantinya, Anda akan melihat daftar tabel yang tersedia.
Lihat detail volume
SQL
Jalankan perintah berikut untuk menjelaskan volume.
DESCRIBE VOLUME volume_name
Lihat DESCRIBE VOLUME.
Penjelajah Katalog
Klik nama volume dan pilih tab Detail untuk meninjau detail volume.
Lihat file dalam volume
SQL
Jalankan perintah berikut untuk mencantumkan file dalam volume.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Penjelajah Katalog
Klik nama volume dan pilih tab Detail untuk meninjau detail volume.
%fs
Jalankan perintah berikut untuk mencantumkan file dalam volume.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Utilitas Databricks
Jalankan perintah berikut untuk mencantumkan file dalam volume.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
Mencantumkan file dengan URI
Anda dapat mengkueri penyimpanan objek cloud yang dikonfigurasi dengan metode selain volume menggunakan URI. Anda harus terhubung ke komputasi dengan hak istimewa untuk mengakses lokasi cloud. Izin ANY FILE
diperlukan pada gudang SQL dan komputasi yang dikonfigurasi dengan mode akses bersama.
Catatan
Akses URI ke penyimpanan objek yang dikonfigurasi dengan volume tidak didukung. Anda tidak dapat menggunakan Catalog Explorer untuk meninjau konten penyimpanan objek yang tidak dikonfigurasi dengan volume.
Contoh berikut mencakup contoh URI untuk data yang disimpan dengan Azure Data Lake Storage Gen2, S3, dan GCS.
SQL
Jalankan perintah berikut untuk mencantumkan file di penyimpanan objek cloud.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
%fs
Jalankan perintah berikut untuk mencantumkan file di penyimpanan objek cloud.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Utilitas Databricks
Jalankan perintah berikut untuk mencantumkan file di penyimpanan objek cloud.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")