Bagikan melalui


Rekomendasi untuk file pada volume dan file di ruang kerja

Saat mengunggah atau menyimpan data atau file ke Azure Databricks, Anda dapat memilih untuk menyimpan file-file ini menggunakan volume Unity Catalog atau file ruang kerja. Artikel ini berisi rekomendasi dan persyaratan untuk menggunakan lokasi ini. Untuk detail selengkapnya tentang volume dan file ruang kerja, lihat Apa itu volume Katalog Unity? dan Apa itu file ruang kerja?.

Databricks merekomendasikan penggunaan volume Unity Catalog untuk menyimpan data, pustaka, dan membangun artefak. Simpan buku catatan, kueri SQL, dan file kode sebagai file ruang kerja. Anda dapat mengonfigurasi direktori file ruang kerja sebagai folder Git untuk disinkronkan dengan repositori Git jarak jauh. Lihat Integrasi Git untuk folder Git Databricks. File data kecil yang digunakan untuk skenario pengujian juga dapat disimpan sebagai file ruang kerja.

Tabel di bawah ini memberikan rekomendasi khusus untuk file, tergantung pada jenis file atau kebutuhan fitur Anda.

Penting

Databricks File System (DBFS) juga tersedia untuk penyimpanan file, tetapi tidak disarankan, karena semua pengguna ruang kerja memiliki akses ke file di DBFS. Lihat DBFS.

Tipe file

Tabel berikut ini menyediakan rekomendasi penyimpanan untuk jenis file. Databricks mendukung banyak format file di luar apa yang disediakan dalam tabel ini sebagai contoh.

Jenis file Rekomendasi
Objek Databricks, seperti buku catatan dan kueri Simpan sebagai file ruang kerja
File data terstruktur, seperti file Parquet dan file ORC Simpan dalam volume Katalog Unity
File data semi-terstruktur, seperti file teks (.csv, .txt) dan file JSON (.json) Simpan dalam volume Katalog Unity
File data yang tidak terstruktur, seperti file gambar (.png, .svg), file audio (.mp3), dan file dokumen (.pdf, .docx) Simpan dalam volume Katalog Unity
File data mentah yang digunakan untuk adhoc atau eksplorasi data awal Simpan pada volume Katalog Unity
Data operasional, seperti file log Simpan dalam volume Katalog Unity
File arsip besar, seperti file ZIP (.zip) Simpan ke dalam volume di Katalog Unity
File kode sumber, seperti file Python (.py), file Java (.java), dan file Scala (.scala) Simpan sebagai file ruang kerja, jika berlaku, dengan objek terkait lainnya, seperti buku catatan dan kueri.
Databricks merekomendasikan pengelolaan file-file ini di folder Git untuk kontrol versi dan pelacakan perubahan file-file ini.
Membangun artefak dan pustaka, seperti roda Python (.whl) dan file JAR (.jar) Simpan ke dalam volume di Katalog Unity
File konfigurasi Simpan file konfigurasi yang diperlukan di seluruh ruang kerja dalam volume Katalog Unity, tetapi simpan sebagai file ruang kerja jika file tersebut adalah file proyek di folder Git.

Perbandingan fitur

Tabel berikut membandingkan fitur dari file ruang kerja dan volume Unity Catalog.

Fitur File ruang kerja Katalog Volume Unity
Akses file File ruang kerja hanya dapat diakses satu sama lain dalam ruang kerja yang sama. File dapat diakses secara global di seluruh ruang kerja.
Akses terprogram File dapat diakses menggunakan:
File dapat diakses menggunakan:
Bundel Aset Databricks Secara default, semua file dalam bundel, yang mencakup pustaka dan objek Databricks seperti notebook dan kueri, disebarkan dengan aman sebagai file ruang kerja. Izin ditentukan dalam konfigurasi bundel. Bundel dapat disesuaikan untuk menyertakan pustaka yang sudah ada dalam volume ketika pustaka melebihi batas ukuran file ruang kerja. Lihat dependensi pustaka Bundel Aset Databricks.
Tingkat izin berkas Izin berada di tingkat Git-folder jika file berada di folder Git, sedangkan jika tidak, izin diatur di tingkat file. Hak akses berada di tingkat volume.
Pengelolaan izin Izin dikelola oleh ACL ruang kerja dan terbatas pada ruang kerja yang menaunginya. Metadata dan izin dikelola oleh Unity Catalog. Izin ini berlaku di semua ruang kerja yang memiliki akses ke katalog.
Pemasangan penyimpanan eksternal Tidak mendukung pemasangan penyimpanan eksternal Menyediakan opsi untuk menunjuk ke himpunan data yang sudah ada sebelumnya pada penyimpanan eksternal dengan membuat volume eksternal. Lihat Apa yang dimaksud dengan volume Katalog Unity?.
Dukungan UDF Tidak didukung Penulisan dari UDF didukung menggunakan Volumes FUSE
Ukuran file Simpan file yang lebih kecil, kurang dari 500MB, seperti file kode sumber (.py, .md, .yml) yang diperlukan bersama notebook. Simpan file data yang sangat besar pada batas yang ditentukan oleh penyedia layanan cloud.
Unggah & unduh Dukungan untuk mengunggah dan mengunduh hingga 10MB. Dukungan untuk mengunggah dan mengunduh hingga 5GB.
Dukungan pembuatan tabel Tabel tidak dapat dibuat dengan file ruang kerja sebagai lokasi. Tabel dapat dibuat dari file dalam volume dengan menjalankan COPY INTO, Autoloader, atau opsi lain yang dijelaskan dalam mengimpor data ke dalam Azure Databricks lakehouse.
Struktur direktori & jalur file File diatur dalam direktori berlapis, masing-masing dengan model izinnya sendiri:
  • Direktori beranda pengguna, satu untuk setiap pengguna dan perwakilan layanan di ruang kerja
  • Folder Git
  • Dibagi
File diatur dalam direktori berlapis di dalam volume
Lihat Bagaimana Anda dapat mengakses data di Unity Catalog?.
Riwayat file Gunakan folder Git dalam ruang kerja untuk melacak perubahan file. Log audit tersedia.