Depolamayı keşfetme ve veri dosyalarını bulma
Bu makale, Unity Kataloğu birimleriyle yönetilen dizinleri ve veri dosyalarını bulmaya ve keşfetmeye odaklanır. Bu makale, Katalog Gezgini ile birimleri keşfetmeye yönelik kullanıcı arabirimi tabanlı yönergeler de dahil olmak üzere. Bu makalede, birim yolları ve bulut URI'leri kullanılarak bulut nesne depolamadaki verilerin program aracılığıyla keşfine yönelik örnekler de sağlanır.
Databricks, bulut nesne depolamadaki verilere erişimi yönetmek için birimlerin kullanılmasını önerir. Bulut nesne depolamadaki verilere bağlanma hakkında daha fazla bilgi için bkz . Veri kaynaklarına bağlanma.
Tüm konumlardaki dosyalarla etkileşim kurma hakkında ayrıntılı bilgi için bkz . Azure Databricks'te dosyalarla çalışma.
Önemli
Çalışma alanı kullanıcı arabiriminde Dosyalar'ı ararken, çalışma alanı dosyaları olarak depolanan veri dosyalarını keşfedebilirsiniz. Databricks öncelikle kod (betikler ve kitaplıklar gibi), başlatma betikleri veya yapılandırma dosyaları için çalışma alanı dosyalarının kullanılmasını önerir. İdeal olarak çalışma alanı dosyaları olarak depolanan verileri geliştirme ve soru-cevap sırasında test etme gibi görevler için kullanılabilecek küçük veri kümeleriyle sınırlamanız gerekir. Bkz . Çalışma alanı dosyaları nedir?.
Birimler ve eski bulut nesnesi yapılandırmaları karşılaştırması
Bulut nesne depolamadaki verilere erişimi yönetmek için birimleri kullandığınızda, yalnızca verilere erişmek için birimler yolunu kullanabilirsiniz ve bu yollar Unity Kataloğu özellikli tüm işlemlerde kullanılabilir. Birimleri kullanarak Unity Kataloğu tablolarını yedekleyerek veri dosyalarını kaydedemezsiniz. Databricks, Unity Kataloğu tabloları olarak kaydedilen yapılandırılmış verilerle etkileşime geçmek için dosya yolları yerine tablo adlarının kullanılmasını önerir. Bkz. Unity Kataloğu tarafından yönetilen veriler için yollar nasıl çalışır?
Bulut nesne depolamadaki verilere erişimi yapılandırmak için eski bir yöntem kullanırsanız, Azure Databricks eski tablo ACL'leri izinlerine geri döner. SQL ambarlarından veya paylaşılan erişim moduyla yapılandırılmış işlemden bulut URI'lerini kullanarak verilere erişmek isteyen kullanıcılara izin gerekir ANY FILE
. Bkz. Hive meta veri deposu tablo erişim denetimi (eski).
Azure Databricks, dosyaları bulut nesne depolama alanında listelemek için çeşitli API'ler sağlar. Bu makaledeki örneklerin çoğu birimleri kullanmaya odaklanır. Birimler olmadan yapılandırılmış nesne depolamadaki verilerle etkileşime ilişkin örnekler için bkz . URI'lerle dosyaları listeleme.
Birimleri keşfetme
Birimlerdeki verileri keşfetmek ve birimin ayrıntılarını gözden geçirmek için Katalog Gezgini'ni kullanabilirsiniz. Yalnızca okuma izinlerine sahip olduğunuz birimleri görebilirsiniz, böylece bu şekilde bulunan tüm verileri sorgulayabilirsiniz.
Birimleri ve bunların meta verilerini keşfetmek için SQL'i kullanabilirsiniz. Birimlerdeki dosyaları listelemek için SQL, %fs
sihirli komut veya Databricks yardımcı programlarını kullanabilirsiniz. Birimlerdeki verilerle etkileşim kurarken, Unity Kataloğu tarafından sağlanan ve her zaman aşağıdaki biçime sahip olan yolu kullanırsınız:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
Birimleri görüntüleme
SQL
Belirli bir şemadaki birimlerin listesini görmek için aşağıdaki komutu çalıştırın.
SHOW VOLUMES IN catalog_name.schema_name;
Bkz. SHOW VOLUMES.
Katalog Gezgini
Belirli bir şemadaki birimleri Katalog Gezgini ile görüntülemek için aşağıdakileri yapın:
-
Katalog simgesini seçin.
- Bir katalog seçin.
- Bir şema seçin.
- Şemadaki tüm birimleri genişletmek için Birimler'e tıklayın.
Not
Şemaya kayıtlı birim yoksa, Birimler seçeneği görüntülenmez. Bunun yerine, kullanılabilir tabloların listesini görürsünüz.
Birim ayrıntılarına bakın
SQL
Birimi açıklamak için aşağıdaki komutu çalıştırın.
DESCRIBE VOLUME volume_name
Bkz. DESCRIBE VOLUME.
Katalog Gezgini
Birim adına tıklayın ve birim ayrıntılarını gözden geçirmek için Ayrıntılar sekmesini seçin.
Birimlerdeki dosyaları görme
SQL
Bir birimdeki dosyaları listelemek için aşağıdaki komutu çalıştırın.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Katalog Gezgini
Birim adına tıklayın ve birim ayrıntılarını gözden geçirmek için Ayrıntılar sekmesini seçin.
%fs
Bir birimdeki dosyaları listelemek için aşağıdaki komutu çalıştırın.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Databricks yardımcı programları
Bir birimdeki dosyaları listelemek için aşağıdaki komutu çalıştırın.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
URI'lerle dosyaları listeleme
URI'leri kullanarak birimler dışındaki yöntemlerle yapılandırılmış bulut nesnesi depolama alanını sorgulayabilirsiniz. Bulut konumuna erişmek için işleme ayrıcalıklarla bağlı olmanız gerekir. İzin ANY FILE
, sql ambarlarında ve paylaşılan erişim moduyla yapılandırılmış işlemde gereklidir.
Not
Birimlerle yapılandırılan nesne depolamaya URI erişimi desteklenmez. Birimlerle yapılandırılmamış nesne depolama içeriğini gözden geçirmek için Katalog Gezgini'ni kullanamazsınız.
Aşağıdaki örnekler Azure Data Lake Storage 2. Nesil, S3 ve GCS ile depolanan veriler için örnek URI'leri içerir.
SQL
Bulut nesne depolamasındaki dosyaları listelemek için aşağıdaki komutu çalıştırın.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
%fs
Bulut nesne depolamasındaki dosyaları listelemek için aşağıdaki komutu çalıştırın.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Databricks yardımcı programları
Bulut nesne depolamasındaki dosyaları listelemek için aşağıdaki komutu çalıştırın.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")