Birimlerdeki dosyalar ve çalışma alanı dosyaları için öneriler
Verileri veya dosyaları Azure Databricks'e yüklediğinizde veya kaydettiğinizde, Unity Kataloğu birimlerini veya çalışma alanı dosyalarını kullanarak bu dosyaları depolamayı seçebilirsiniz. Bu makale, bu konumları kullanmaya yönelik öneriler ve gereksinimler içerir. Birimler ve çalışma alanı dosyaları hakkında daha fazla bilgi için bkz. Unity Kataloğu birimleri nedir? ve Çalışma alanı dosyaları nedir?.
Databricks verileri, kitaplıkları ve yapıtları depolamak için Unity Kataloğu birimlerinin kullanılmasını önerir. Not defterlerini, SQL sorgularını ve kod dosyalarını çalışma alanı dosyaları olarak depolayın. Çalışma alanı dosya dizinlerini git klasörleri olarak yapılandırarak uzak Git depolarıyla eşitleme yapabilirsiniz. Databricks Git klasörleri için Git tümleştirmesi bölümüne bakın. Test senaryoları için kullanılan küçük veri dosyaları da çalışma alanı dosyaları olarak depolanabilir.
Aşağıdaki tablolar, dosya türünüz veya özellik gereksinimlerinize bağlı olarak dosyalar için belirli öneriler sağlar.
Önemli
Databricks Dosya Sistemi (DBFS) dosya depolama için de kullanılabilir, ancak tüm çalışma alanı kullanıcılarının DBFS'deki dosyalara erişimi olduğundan önerilmez. Bkz. DBFS.
Dosya türleri
Aşağıdaki tabloda dosya türleri için depolama önerileri sağlanmaktadır. Databricks, örnek olarak bu tabloda sağlananların ötesinde birçok dosya biçimi destekler.
Dosya türü | Öneri |
---|---|
Not defterleri ve sorgular gibi Databricks nesneleri | Çalışma alanı dosyaları olarak depolama |
Parquet dosyaları ve ORC dosyaları gibi yapılandırılmış veri dosyaları | Unity Kataloğu birimlerinde depolama |
Metin dosyaları (, .csv ) ve JSON dosyaları (.txt ) gibi yarı yapılandırılmış veri dosyaları.json |
Unity Kataloğu birimlerinde saklayın |
Görüntü dosyaları (, ), ses dosyaları (.png .svg ) ve belge dosyaları.mp3 (, .pdf ) gibi yapılandırılmamış veri dosyaları.docx |
Unity Kataloğu'ndaki birimlerde depolama |
Geçici veya erken veri keşfi için kullanılan ham veri dosyaları | Unity Kataloğu birimlerinde depolama |
Günlük dosyaları gibi işlemsel veriler | Unity Kataloğu birimlerinde depolayın |
ZIP dosyaları gibi büyük arşiv dosyaları (.zip ) |
Unity Kataloğu birimlerinde depolayın |
Python dosyaları (), Java dosyaları (.py ) ve Scala dosyaları.java (.scala ) gibi kaynak kod dosyaları |
Varsa, not defterleri ve sorgular gibi diğer ilgili nesnelerle çalışma alanı dosyaları olarak depolayın. Databricks, bu dosyaların sürüm denetimi ve değişiklik izlemesi için bir Git klasöründe yönetilmesini önerir. |
Python tekerlekleri () ve JAR dosyaları.whl (.jar ) gibi yapıtlar ve kitaplıklar oluşturma |
Unity Kataloğu birimlerinde depolama yapmak |
Yapılandırma dosyaları | Çalışma alanları arasında gereken yapılandırma dosyalarını Unity Kataloğu birimlerinde depolayın, ancak |
Özellik karşılaştırması
Aşağıdaki tablo, çalışma alanı dosyaları ve Unity Kataloğu birimlerininözelliklerini karşılaştırır.
Özellik | Çalışma alanı dosyaları | Unity Kataloğu hacimleri |
---|---|---|
Dosya erişimi | Çalışma alanı dosyalarına yalnızca aynı çalışma alanı içinde erişilebilir. | Dosyalara çalışma alanları arasında genel olarak erişilebilir. |
Program aracılığıyla erişim | Dosyalara aşağıdakiler kullanılarak erişilebilir:
|
Dosyalara aşağıdakiler kullanılarak erişilebilir:
|
Databricks Varlık Paketleri | Varsayılan olarak, kitaplıkları ve not defterleri ve sorgular gibi Databricks nesnelerini içeren bir paketteki tüm dosyalar çalışma alanı dosyaları olarak güvenli bir şekilde dağıtılır. İzinler paket yapılandırmasında tanımlanır. | Paketler, çalışma alanı dosyalarının boyut sınırını aştığında, zaten birimlerde bulunan kitaplıkları içerecek şekilde özelleştirilebilir. Bkz Databricks Varlık Paketleri kitaplık bağımlılıkları. |
Dosya izin düzeyi | dosyabir |
İzinler birim düzeyindedir. |
İzin yönetimi | İzinler, çalışma alanındaki ACL'ler tarafından yönetilir ve yalnızca ilgili çalışma alanıyla sınırlıdır. | Meta veriler ve izinler Unity Catalogtarafından yönetiliyor. Bu izinler kataloğa erişimi olan tüm çalışma alanlarında geçerlidir. |
Dış depolama birimi monte etme | Harici depolama birimlerinin bağlanmasını desteklemez | Dış birim oluşturarak dış depolamada önceden var olan veri kümelerini işaret etme seçeneği sağlar. Bkz. Unity Kataloğu birimleri nelerdir?. |
UDF desteği | Desteklenmez | UDF'lerden yazma, Volumes FUSE kullanılarak desteklenir |
Dosya boyutu | Not defterleriyle birlikte gereken kaynak kod dosyaları (.py , .md , .yml ) gibi 500 MB'tan küçük dosyaları depolayın. |
Çok büyük veri dosyalarını bulut hizmeti sağlayıcıları tarafından belirlenen sınırlarda depolayın. |
Yükle ve indir | 10 MB'a kadar karşıya yükleme ve indirme desteği. | 5 GB'ye kadar yükleme ve indirme desteği. |
Tablo oluşturma desteği | Tablolar, konum olarak çalışma alanı dosyalarıyla oluşturulamaz. |
COPY INTO , Yükleyici veya diğer seçenekler çalıştırılarak bir birimdeki dosyalardan tablolar oluşturulabilir. Bu seçenekler Azure Databricks lakehouseveri alma bölümünde açıklanmıştır. |
Dizin yapısı ve dosya yolları | Dosyalar, her biri kendi izin modeline sahip iç içe dizinlerde düzenlenir:
|
Dosyalar bir birimin içindeki iç içe dizinlerde düzenlenir Bkz. Unity Kataloğu'nda verilere nasıl erişebilirsiniz?. |
Dosya geçmişi | Dosya değişikliklerini izlemek için çalışma alanları içindeki Git klasörünü kullanın. | Denetim günlükleri kullanılabilir. |