Bagikan melalui


Apa itu file ruang kerja?

File ruang kerja adalah file di pohon file ruang kerja Azure Databricks Anda yang bukan salah satu jenis yang tercantum sebagai berikut:

  • Kueri
  • Dashboard
  • Ruang jin
  • Percobaan

Selain jenis yang dikecualikan ini, file ruang kerja dapat berupa jenis file apa pun. Contoh umumnya termasuk:

  • buku catatan .ipynb
  • notebook sumber, yang menggunakan ekstensi .py, .sql, .r, dan .scala
  • .py file yang digunakan dalam modul kustom
  • .md file, seperti README.md
  • .csv atau file data kecil lainnya
  • .txt file
  • pustaka .whl
  • Berkas catatan

Untuk rekomendasi tentang bekerja dengan file, lihat rekomendasi untuk file dalam volume dan file ruang kerja.

Pohon file ruang kerja Azure Databricks Anda dapat berisi folder yang dilampirkan ke repositori Git yang disebut "Folder Git Databricks". Mereka memiliki beberapa batasan tambahan dalam dukungan jenis file. Untuk daftar jenis file yang didukung di folder Git (sebelumnya "Repos"), lihat jenis Aset yang didukung di folder Git.

Penting

File ruang kerja diaktifkan di mana saja secara default di Databricks Runtime versi 11.2. Untuk beban kerja produksi, gunakan Databricks Runtime 11.3 LTS atau lebih tinggi. Hubungi administrator ruang kerja Anda jika Anda tidak dapat mengakses fungsionalitas ini.

Apa yang dapat Anda lakukan dengan file ruang kerja

Azure Databricks menyediakan fungsionalitas yang mirip dengan pengembangan lokal untuk banyak jenis file ruang kerja, termasuk editor file bawaan. Tidak semua kasus penggunaan untuk semua jenis file didukung.

Anda dapat membuat, mengedit, dan mengelola akses ke file ruang kerja menggunakan pola yang sudah dikenal dari interaksi buku catatan. Anda dapat menggunakan jalur relatif untuk impor pustaka dari file ruang kerja, mirip dengan pengembangan lokal. Untuk detail selengkapnya, lihat:

Skrip init yang disimpan dalam file ruang kerja memiliki perilaku khusus. Anda dapat menggunakan file ruang kerja untuk menyimpan dan mereferensikan skrip init dalam versi Databricks Runtime apa pun. Lihat Menyimpan skrip init dalam file ruang kerja.

Catatan

Dalam Databricks Runtime 14.0 ke atas, direktori kerja default saat ini (CWD) untuk kode yang dijalankan secara lokal adalah direktori yang berisi notebook atau skrip yang dijalankan. Ini adalah perubahan perilaku dari Databricks Runtime 13.3 LTS dan di bawahnya. Lihat Apa direktori kerja default saat ini?.

Batasan

  • Jika alur kerja Anda menggunakan kode sumber yang terletak di repositori Git jarak jauh, Anda tidak dapat menulis ke direktori saat ini atau menulis menggunakan jalur relatif. Menulis data ke opsi lokasi lain.
  • Anda tidak dapat menggunakan git perintah saat menyimpan ke file ruang kerja. Pembuatan .git direktori tidak diperbolehkan dalam file ruang kerja.
  • Membaca dari file ruang kerja menggunakan pelaksana Spark (seperti spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) tidak didukung dengan komputasi tanpa server.
  • Pelaksana tidak dapat menulis ke file ruang kerja.
  • Symlinks hanya didukung untuk direktori target di bawah folder akar /Workspace, seperti os.symlink("/Workspace/Users/someone@example.com/Testing", "Testing").
  • File ruang kerja tidak dapat diakses dari fungsi yang ditentukan pengguna (UDF) pada kluster dengan mode akses bersama pada Databricks Runtime 14.2 ke bawah.
  • Notebook hanya didukung sebagai file ruang kerja pada Databricks Runtime 16.2 ke atas, dan di lingkungan tanpa server 2 ke atas.

Batas ukuran file

  • Ukuran file ruang kerja dibatasi hingga 500MB. Operasi yang mencoba mengunduh atau membuat file yang lebih besar dari batas ini akan gagal.

Pembatasan izin akses file

Izin untuk mengakses file dalam folder di bawah /Workspace kedaluwarsa setelah 36 jam untuk komputasi interaktif dan setelah 30 hari untuk pekerjaan. Databricks merekomendasikan untuk menjalankan eksekusi panjang sebagai pekerjaan jika memerlukan akses file /Workspace.

Mengaktifkan file ruang kerja

Untuk mengaktifkan dukungan untuk file non-notebook di ruang kerja Databricks Anda, panggil REST API /api/2.0/workspace-conf dari notebook atau lingkungan lain dengan akses ke ruang kerja Databricks Anda. File ruang kerja diaktifkan secara default.

Untuk mengaktifkan atau mengaktifkan kembali dukungan untuk file non-buku catatan di ruang kerja Databricks Anda, panggil /api/2.0/workspace-conf dan dapatkan nilai kunci enableWorkspaceFileSystem. Jika diatur ke true, file selain buku catatan sudah diaktifkan untuk ruang kerja Anda.

Contoh berikut menunjukkan bagaimana Anda dapat memanggil API ini dari notebook untuk memeriksa apakah file ruang kerja dinonaktifkan dan jika demikian, aktifkan kembali.

Contoh: Notebook untuk mengaktifkan kembali dukungan file ruang kerja Databricks

Dapatkan buku catatan