Bagikan melalui


Menginstal dependensi buku catatan

Anda dapat menginstal dependensi Python untuk notebook tanpa server menggunakan panel sisi Lingkungan . Panel ini menyediakan satu tempat untuk mengedit, melihat, dan mengekspor persyaratan pustaka buku catatan. Dependensi ini dapat ditambahkan menggunakan lingkungan dasar atau secara individual.

Panel lingkungan tanpa server dengan kebijakan anggaran

Untuk tugas non-buku catatan, lihat Mengonfigurasi lingkungan dan dependensi untuk tugas non-buku catatan.

Penting

Jangan instal PySpark atau pustaka apa pun yang menginstal PySpark sebagai dependensi pada notebook tanpa server Anda. Melakukannya akan menghentikan sesi Anda dan mengakibatkan kesalahan. Jika ini terjadi, hapus pustaka dan reset lingkungan Anda.

Mengonfigurasi lingkungan dasar

Lingkungan dasar adalah file YAML yang disimpan sebagai file ruang kerja atau pada volume Katalog Unity yang menentukan dependensi lingkungan tambahan. Lingkungan dasar dapat dibagikan di antara buku catatan. Untuk mengonfigurasi lingkungan dasar:

  1. Buat file YAML yang menentukan pengaturan untuk lingkungan virtual Python. Contoh YAML berikut, yang didasarkan pada spesifikasi lingkungan proyek MLflow, menentukan lingkungan dasar dengan beberapa dependensi pustaka:

    client: "1"
    dependencies:
      - --index-url https://pypi.org/simple
      - -r "/Workspace/Shared/requirements.txt"
      - my-library==6.1
      - "/Workspace/Shared/Path/To/simplejson-3.19.3-py3-none-any.whl"
      - git+https://github.com/databricks/databricks-cli
    
  2. Unggah file YAML sebagai file ruang kerja atau ke volume Katalog Unity. Lihat Mengimpor file atau Mengunggah file ke volume Unity Catalog.

  3. Di sebelah kanan buku catatan, klik tomboluntuk memperluas panel samping Lingkungan. Tombol ini hanya muncul ketika buku catatan tersambung ke komputasi tanpa server.

  4. Di bidang Lingkungan Dasar, masukkan jalur file YAML yang diunggah atau navigasikan dan pilih.

  5. Klik Terapkan. Ini menginstal dependensi di lingkungan virtual notebook dan memulai ulang proses Python.

Pengguna dapat mengambil alih dependensi yang ditentukan di lingkungan dasar dengan menginstal dependensi satu per satu.

Mengonfigurasi lingkungan notebook

Anda juga dapat menginstal dependensi pada notebook yang tersambung ke komputasi tanpa server menggunakan panel samping Environment:

  1. Di sebelah kanan notebook, klik tombol lingkungan untuk memperluas panel samping Lingkungan . Tombol ini hanya muncul ketika buku catatan tersambung ke komputasi tanpa server.
  2. Pilih versi lingkungan dari menu drop-down versi lingkungan . Lihat versi lingkungan Tanpa Server. Databricks merekomendasikan memilih versi terbaru untuk mendapatkan fitur notebook up-to-date paling banyak.
  3. Di bagian Dependensi , klik Tambahkan Dependensi dan masukkan jalur dependensi pustaka di bidang . Anda dapat menentukan dependensi dalam format apa pun yang valid dalam file requirements.txt .
  4. Klik Terapkan. Ini menginstal dependensi di lingkungan virtual notebook dan memulai ulang proses Python.

Catatan

Pekerjaan yang menggunakan komputasi tanpa server akan menginstal spesifikasi lingkungan notebook sebelum menjalankan kode notebook. Ini berarti bahwa tidak perlu menambahkan dependensi saat menjadwalkan notebook sebagai pekerjaan. Lihat Mengonfigurasi lingkungan dan dependensi.

Menampilkan dependensi dan log pip yang terinstal

Untuk melihat dependensi yang terinstal, klik Terinstal di panel Lingkungan untuk buku catatan. log penginstalan pip untuk lingkungan notebook juga tersedia dengan mengklik log pip di bagian bawah panel.

Reset lingkungan

Jika buku catatan Anda tersambung ke komputasi tanpa server, Databricks secara otomatis menyimpan konten lingkungan virtual notebook. Ini berarti Anda umumnya tidak perlu menginstal ulang dependensi Python yang ditentukan di panel samping Environment saat Anda membuka notebook yang ada, bahkan jika telah terputus karena tidak aktif.

Penembolokan lingkungan virtual Python juga berlaku untuk pekerjaan. Saat pekerjaan dijalankan, tugas apa pun dari pekerjaan yang berbagi serangkaian dependensi yang sama dengan tugas yang telah selesai dalam putaran tersebut akan lebih cepat, karena dependensi yang diperlukan sudah tersedia.

Catatan

Jika Anda mengubah implementasi paket Python kustom yang digunakan dalam pekerjaan tanpa server, Anda juga harus memperbarui nomor versinya sehingga pekerjaan dapat mengambil implementasi terbaru.

Untuk menghapus cache lingkungan dan melakukan penginstalan baru dependensi yang ditentukan di panel samping lingkungan buku catatan yang dilampirkan ke komputasi tanpa server, klik panah di samping Terapkan lalu klik Atur Ulang lingkungan.

Catatan

Atur ulang lingkungan virtual jika Anda menginstal paket yang merusak atau mengubah notebook inti atau lingkungan Apache Spark. Melepaskan notebook dari komputasi tanpa server dan memasangnya kembali tidak selalu menghapus seluruh cache lingkungan. Mengatur ulang lingkungan menginstal ulang semua dependensi yang ditentukan di panel sisi Lingkungan, jadi pastikan bahwa paket yang menyinggung dihapus sebelum mengatur ulang.

Mengonfigurasi lingkungan dan dependensi untuk tugas non-buku catatan

Untuk jenis tugas lain yang didukung, seperti skrip Python, roda Python, atau tugas dbt, lingkungan default menyertakan pustaka Python yang diinstal. Untuk melihat daftar pustaka yang diinstal, lihat bagian Pustaka Python terinstal versi klien yang Anda gunakan. Lihat versi lingkungan Tanpa Server. Jika tugas memerlukan pustaka Python yang tidak diinstal, Anda dapat menginstal pustaka dari file ruang kerja, Unity Catalog volume, atau repositori paket publik. Untuk menambahkan pustaka saat Anda membuat atau mengedit tugas:

  1. Di menu dropdown Lingkungan dan Pustaka, klik Edit Ikon di samping lingkungan Default atau klik + Tambahkan lingkungan baru.

    Mengedit lingkungan default

  2. Pilih versi lingkungan dari menu drop-down versi lingkungan . Lihat versi lingkungan Tanpa Server. Databricks merekomendasikan memilih versi terbaru untuk mendapatkan fitur -tanggal up-tomaksimal.

  3. Dalam dialog Konfigurasikan lingkungan, klik + Tambahkan pustaka.

  4. Pilih jenis dependensi dari menu tarik-turun di bawah Pustaka.

  5. Dalam kotak teks Jalur File, masukkan jalur ke pustaka.

  • Untuk Python Wheel dalam file ruang kerja, jalur harus absolut dan dimulai dengan /Workspace/.

  • Untuk Roda Python dalam volume Katalog Unity, jalurnya harus /Volumes/<catalog>/<schema>/<volume>/<path>.whl.

  • Untuk file requirements.txt, pilih PyPi dan masukkan -r /path/to/requirements.txt.

    Menambahkan pustaka tugas

  1. Klik Konfirmasi atau + Tambahkan pustaka untuk menambahkan pustaka lain.
  2. Jika Anda menambahkan tugas, klik Buat tugas. Jika Anda mengedit tugas, klik Simpan tugas.

Mengonfigurasi repositori paket Python default

Administrator dapat mengonfigurasi repositori paket privat atau terautentikasi dalam ruang kerja sebagai konfigurasi pip default untuk notebook tanpa server dan pekerjaan tanpa server. Ini memungkinkan pengguna untuk menginstal paket dari repositori Python internal tanpa secara eksplisit menentukan index-url atau extra-index-url. Namun, jika nilai-nilai ini ditentukan dalam kode atau di buku catatan, nilai tersebut lebih diutamakan daripada default ruang kerja.

Konfigurasi ini memanfaatkan rahasia Databricks untuk menyimpan dan mengelola URL dan kredensial repositori dengan aman. Administrator dapat mengonfigurasi penyiapan menggunakan halaman pengaturan admin ruang kerja atau menggunakan cakupan rahasia yang telah ditentukan sebelumnya dan perintah databricks CLI rahasia atau REST API.

Menyiapkan menggunakan halaman pengaturan admin ruang kerja

Admin ruang kerja dapat menambahkan atau menghapus repositori paket Python default menggunakan halaman pengaturan admin ruang kerja.

  1. Sebagai administrator ruang kerja, masuk ke ruang kerja Databricks.
  2. Klik nama pengguna Anda di bilah atas ruang kerja Databricks dan pilih Pengaturan .
  3. Klik pada tab Komputasi.
  4. Di samping Repositori Paket Default, klik Kelola.
  5. (Opsional) Menambahkan atau menghapus URL indeks, URL indeks tambahan, atau sertifikat SSL kustom.
  6. Klik Simpan untuk menyimpan perubahan.

Catatan

Modifikasi atau penghapusan rahasia diterapkan setelah menghubungkan kembali komputasi tanpa server ke notebook atau menjalankan ulang tugas tanpa server.

Penyiapan menggunakan CLI rahasia atau REST API

Untuk mengonfigurasi repositori paket Python default menggunakan CLI atau REST API, buat cakupan rahasia yang telah ditentukan dan konfigurasikan izin akses, lalu tambahkan rahasia repositori paket.

Nama cakupan rahasia yang telah ditentukan sebelumnya

Administrator ruang kerja dapat mengatur URL indeks pip default atau URL indeks tambahan bersama dengan token autentikasi dan rahasia dalam cakupan rahasia yang ditunjuk di bawah kunci yang telah ditentukan sebelumnya:

  • Nama cakupan rahasia: databricks-package-management
  • Kunci rahasia untuk url indeks: pip-index-url
  • Kunci rahasia untuk url indeks ekstra: pip-extra-index-urls
  • Kunci rahasia untuk konten sertifikasi SSL: pip-cert

Buat lingkup rahasia

Cakupan rahasia dapat dibuat menggunakan perintah Databricks CLI secrets atau REST API . Setelah membuat cakupan rahasia, konfigurasikan daftar kontrol akses untuk memberi semua pengguna ruang kerja akses baca. Ini memastikan bahwa repositori tetap aman dan tidak dapat diubah oleh pengguna individu. Cakupan rahasia harus menggunakan nama cakupan rahasia yang sudah ditentukan sebelumnya databricks-package-management.

databricks secrets create-scope databricks-package-management
databricks secrets put-acl databricks-package-management admins MANAGE
databricks secrets put-acl databricks-package-management users READ

Menambahkan rahasia repositori paket Python

Tambahkan detail repositori paket Python menggunakan nama kunci rahasia yang telah ditentukan sebelumnya, dengan ketiga bidang bersifat opsional.

# Add index URL.
databricks secrets put-secret --json '{"scope": "databricks-package-management", "key": "pip-index-url", "string_value":"<index-url-value>"}'

# Add extra index URLs. If you have multiple extra index URLs, separate them using white space.
databricks secrets put-secret --json '{"scope": "databricks-package-management", "key": "pip-extra-index-urls", "string_value":"<extra-index-url-1 extra-index-url-2>"}'

# Add cert content. If you want to pip configure a custom SSL certificate, put the cert file content here.
databricks secrets put-secret --json '{"scope": "databricks-package-management", "key": "pip-cert", "string_value":"<cert-content>"}'

Mengubah atau menghapus rahasia repositori PyPI privat

Untuk mengubah rahasia repositori PyPI, gunakan perintah put-secret. Untuk menghapus rahasia repositori PyPI, gunakan delete-secret seperti yang ditunjukkan di bawah ini:

# delete secret
databricks secrets delete-secret databricks-package-management pip-index-url

databricks secrets delete-secret databricks-package-management pip-extra-index-urls

databricks secrets delete-secret databricks-package-management pip-cert

# delete scope
databricks secrets delete-scope databricks-package-management