Apa itu file ruang kerja?
File ruang kerja adalah file di pohon file ruang kerja Azure Databricks Anda yang bukan salah satu jenis yang tercantum sebagai berikut:
- Kueri
- Dashboard
- Ruang jin
- Percobaan
Selain jenis yang dikecualikan ini, file ruang kerja dapat berupa jenis file apa pun. Contoh umumnya termasuk:
- buku catatan
.ipynb
- notebook sumber, yang menggunakan ekstensi
.py
,.sql
,.r
, dan.scala
-
.py
file yang digunakan dalam modul kustom -
.md
file, sepertiREADME.md
-
.csv
atau file data kecil lainnya -
.txt
file - pustaka
.whl
- Berkas catatan
Untuk rekomendasi tentang bekerja dengan file, lihat rekomendasi untuk file dalam volume dan file ruang kerja.
Pohon file ruang kerja Azure Databricks Anda dapat berisi folder yang dilampirkan ke repositori Git yang disebut "Folder Git Databricks". Mereka memiliki beberapa batasan tambahan dalam dukungan jenis file. Untuk daftar jenis file yang didukung di folder Git (sebelumnya "Repos"), lihat jenis Aset yang didukung di folder Git.
Penting
File ruang kerja diaktifkan di mana saja secara default di Databricks Runtime versi 11.2. Untuk beban kerja produksi, gunakan Databricks Runtime 11.3 LTS atau lebih tinggi. Hubungi administrator ruang kerja Anda jika Anda tidak dapat mengakses fungsionalitas ini.
Apa yang dapat Anda lakukan dengan file ruang kerja
Azure Databricks menyediakan fungsionalitas yang mirip dengan pengembangan lokal untuk banyak jenis file ruang kerja, termasuk editor file bawaan. Tidak semua kasus penggunaan untuk semua jenis file didukung.
Anda dapat membuat, mengedit, dan mengelola akses ke file ruang kerja menggunakan pola yang sudah dikenal dari interaksi buku catatan. Anda dapat menggunakan jalur relatif untuk impor pustaka dari file ruang kerja, mirip dengan pengembangan lokal. Untuk detail selengkapnya, lihat:
- Penggunaan dasar file ruang kerja
- Berinteraksi secara terprogram dengan file ruang kerja
- Bekerja dengan modul Python dan R
- Tampilkan gambar
- Mengelola buku catatan
- ACL File
Skrip init yang disimpan dalam file ruang kerja memiliki perilaku khusus. Anda dapat menggunakan file ruang kerja untuk menyimpan dan mereferensikan skrip init dalam versi Databricks Runtime apa pun. Lihat Menyimpan skrip init dalam file ruang kerja.
Catatan
Dalam Databricks Runtime 14.0 ke atas, direktori kerja default saat ini (CWD) untuk kode yang dijalankan secara lokal adalah direktori yang berisi notebook atau skrip yang dijalankan. Ini adalah perubahan perilaku dari Databricks Runtime 13.3 LTS dan di bawahnya. Lihat Apa direktori kerja default saat ini?.
Batasan
- Jika alur kerja Anda menggunakan kode sumber yang terletak di repositori Git jarak jauh, Anda tidak dapat menulis ke direktori saat ini atau menulis menggunakan jalur relatif. Menulis data ke opsi lokasi lain.
- Anda tidak dapat menggunakan
git
perintah saat menyimpan ke file ruang kerja. Pembuatan.git
direktori tidak diperbolehkan dalam file ruang kerja. - Membaca dari file ruang kerja menggunakan pelaksana Spark (seperti
spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")
) tidak didukung dengan komputasi tanpa server. - Pelaksana tidak dapat menulis ke file ruang kerja.
- Symlinks hanya didukung untuk direktori target di bawah folder akar
/Workspace
, sepertios.symlink("/Workspace/Users/someone@example.com/Testing", "Testing")
. - File ruang kerja tidak dapat diakses dari fungsi yang ditentukan pengguna (UDF) pada kluster dengan mode akses bersama pada Databricks Runtime 14.2 ke bawah.
- Notebook hanya didukung sebagai file ruang kerja pada Databricks Runtime 16.2 ke atas, dan di lingkungan tanpa server 2 ke atas.
Batas ukuran file
- Ukuran file ruang kerja dibatasi hingga 500MB. Operasi yang mencoba mengunduh atau membuat file yang lebih besar dari batas ini akan gagal.
Pembatasan izin akses file
Izin untuk mengakses file dalam folder di bawah /Workspace
kedaluwarsa setelah 36 jam untuk komputasi interaktif dan setelah 30 hari untuk pekerjaan. Databricks merekomendasikan untuk menjalankan eksekusi panjang sebagai pekerjaan jika memerlukan akses file /Workspace.
Mengaktifkan file ruang kerja
Untuk mengaktifkan dukungan untuk file non-notebook di ruang kerja Databricks Anda, panggil REST API /api/2.0/workspace-conf dari notebook atau lingkungan lain dengan akses ke ruang kerja Databricks Anda. File ruang kerja diaktifkan secara default.
Untuk mengaktifkan atau mengaktifkan kembali dukungan untuk file non-buku catatan di ruang kerja Databricks Anda, panggil /api/2.0/workspace-conf
dan dapatkan nilai kunci enableWorkspaceFileSystem
. Jika diatur ke true
, file selain buku catatan sudah diaktifkan untuk ruang kerja Anda.
Contoh berikut menunjukkan bagaimana Anda dapat memanggil API ini dari notebook untuk memeriksa apakah file ruang kerja dinonaktifkan dan jika demikian, aktifkan kembali.
Contoh: Notebook untuk mengaktifkan kembali dukungan file ruang kerja Databricks
Dapatkan buku catatan