Aracılığıyla paylaş


Birimlerdeki dosyalar ve çalışma alanı dosyaları için öneriler

Verileri veya dosyaları Azure Databricks'e yüklediğinizde veya kaydettiğinizde, Unity Kataloğu birimlerini veya çalışma alanı dosyalarını kullanarak bu dosyaları depolamayı seçebilirsiniz. Bu makale, bu konumları kullanmaya yönelik öneriler ve gereksinimler içerir. Birimler ve çalışma alanı dosyaları hakkında daha fazla bilgi için bkz. Unity Kataloğu birimleri nedir? ve Çalışma alanı dosyaları nedir?.

Databricks verileri, kitaplıkları ve yapıtları depolamak için Unity Kataloğu birimlerinin kullanılmasını önerir. Not defterlerini, SQL sorgularını ve kod dosyalarını çalışma alanı dosyaları olarak depolayın. Çalışma alanı dosya dizinlerini git klasörleri olarak yapılandırarak uzak Git depolarıyla eşitleme yapabilirsiniz. Databricks Git klasörleri için Git tümleştirmesi bölümüne bakın. Test senaryoları için kullanılan küçük veri dosyaları da çalışma alanı dosyaları olarak depolanabilir.

Aşağıdaki tablolar, dosya türünüz veya özellik gereksinimlerinize bağlı olarak dosyalar için belirli öneriler sağlar.

Önemli

Databricks Dosya Sistemi (DBFS) dosya depolama için de kullanılabilir, ancak tüm çalışma alanı kullanıcılarının DBFS'deki dosyalara erişimi olduğundan önerilmez. Bkz. DBFS.

Dosya türleri

Aşağıdaki tabloda dosya türleri için depolama önerileri sağlanmaktadır. Databricks, örnek olarak bu tabloda sağlananların ötesinde birçok dosya biçimi destekler.

Dosya türü Öneri
Not defterleri ve sorgular gibi Databricks nesneleri Çalışma alanı dosyaları olarak depolama
Parquet dosyaları ve ORC dosyaları gibi yapılandırılmış veri dosyaları Unity Kataloğu birimlerinde depolama
Metin dosyaları (, .csv) ve JSON dosyaları (.txt) gibi yarı yapılandırılmış veri dosyaları.json Unity Kataloğu birimlerinde saklayın
Görüntü dosyaları (, ), ses dosyaları (.png.svg) ve belge dosyaları.mp3 (, .pdf) gibi yapılandırılmamış veri dosyaları.docx Unity Kataloğu'ndaki birimlerde depolama
Geçici veya erken veri keşfi için kullanılan ham veri dosyaları Unity Kataloğu birimlerinde depolama
Günlük dosyaları gibi işlemsel veriler Unity Kataloğu birimlerinde depolayın
ZIP dosyaları gibi büyük arşiv dosyaları (.zip) Unity Kataloğu birimlerinde depolayın
Python dosyaları (), Java dosyaları (.py) ve Scala dosyaları.java (.scala) gibi kaynak kod dosyaları Varsa, not defterleri ve sorgular gibi diğer ilgili nesnelerle çalışma alanı dosyaları olarak depolayın.
Databricks, bu dosyaların sürüm denetimi ve değişiklik izlemesi için bir Git klasöründe yönetilmesini önerir.
Python tekerlekleri () ve JAR dosyaları.whl (.jar) gibi yapıtlar ve kitaplıklar oluşturma Unity Kataloğu birimlerinde depolama yapmak
Yapılandırma dosyaları Çalışma alanları arasında gereken yapılandırma dosyalarını Unity Kataloğu birimlerinde depolayın, ancakGit klasöründe proje dosyalarıysa çalışma alanı dosyaları olarak depolayın.

Özellik karşılaştırması

Aşağıdaki tablo, çalışma alanı dosyaları ve Unity Kataloğu birimlerininözelliklerini karşılaştırır.

Özellik Çalışma alanı dosyaları Unity Kataloğu hacimleri
Dosya erişimi Çalışma alanı dosyalarına yalnızca aynı çalışma alanı içinde erişilebilir. Dosyalara çalışma alanları arasında genel olarak erişilebilir.
Program aracılığıyla erişim Dosyalara aşağıdakiler kullanılarak erişilebilir:
Dosyalara aşağıdakiler kullanılarak erişilebilir:
Databricks Varlık Paketleri Varsayılan olarak, kitaplıkları ve not defterleri ve sorgular gibi Databricks nesnelerini içeren bir paketteki tüm dosyalar çalışma alanı dosyaları olarak güvenli bir şekilde dağıtılır. İzinler paket yapılandırmasında tanımlanır. Paketler, çalışma alanı dosyalarının boyut sınırını aştığında, zaten birimlerde bulunan kitaplıkları içerecek şekilde özelleştirilebilir. Bkz Databricks Varlık Paketleri kitaplık bağımlılıkları.
Dosya izin düzeyi dosyabir Git klasöründeyse, izinler Git klasörü düzeyindedir; aksi takdirde izinler dosya düzeyinde ayarlanır. İzinler birim düzeyindedir.
İzin yönetimi İzinler, çalışma alanındaki ACL'ler tarafından yönetilir ve yalnızca ilgili çalışma alanıyla sınırlıdır. Meta veriler ve izinler Unity Catalogtarafından yönetiliyor. Bu izinler kataloğa erişimi olan tüm çalışma alanlarında geçerlidir.
Dış depolama birimi monte etme Harici depolama birimlerinin bağlanmasını desteklemez Dış birim oluşturarak dış depolamada önceden var olan veri kümelerini işaret etme seçeneği sağlar. Bkz. Unity Kataloğu birimleri nelerdir?.
UDF desteği Desteklenmez UDF'lerden yazma, Volumes FUSE kullanılarak desteklenir
Dosya boyutu Not defterleriyle birlikte gereken kaynak kod dosyaları (.py, .md, .yml) gibi 500 MB'tan küçük dosyaları depolayın. Çok büyük veri dosyalarını bulut hizmeti sağlayıcıları tarafından belirlenen sınırlarda depolayın.
Yükle ve indir 10 MB'a kadar karşıya yükleme ve indirme desteği. 5 GB'ye kadar yükleme ve indirme desteği.
Tablo oluşturma desteği Tablolar, konum olarak çalışma alanı dosyalarıyla oluşturulamaz. COPY INTO, Yükleyici veya diğer seçenekler çalıştırılarak bir birimdeki dosyalardan tablolar oluşturulabilir. Bu seçenekler Azure Databricks lakehouseveri alma bölümünde açıklanmıştır.
Dizin yapısı ve dosya yolları Dosyalar, her biri kendi izin modeline sahip iç içe dizinlerde düzenlenir:
  • Çalışma alanında her kullanıcı ve hizmet sorumlusu için birer tane olan kullanıcı giriş dizinleri
  • Git klasörleri
  • Paylaşılan
Dosyalar bir birimin içindeki iç içe dizinlerde düzenlenir
Bkz. Unity Kataloğu'nda verilere nasıl erişebilirsiniz?.
Dosya geçmişi Dosya değişikliklerini izlemek için çalışma alanları içindeki Git klasörünü kullanın. Denetim günlükleri kullanılabilir.