Menyiapkan folder Databricks Git (Repos)
Pelajari cara menyiapkan folder Databricks Git (sebelumnya Repositori) untuk kontrol versi. Setelah menyiapkan folder Git di Databricks, Anda dapat melakukan operasi Git umum seperti clone, checkout, commit, push, pull, dan manajemen cabang dari antarmuka pengguna Databricks. Anda juga dapat melihat perbedaan pada perubahan saat melakukan pengembangan dengan notebook dan file di Databricks.
Mengonfigurasi pengaturan pengguna
Folder Databricks Git menggunakan token akses pribadi (PAT) atau kredensial yang setara untuk diautentikasi dengan penyedia Git Anda untuk melakukan operasi seperti mengkloning, mendorong, menarik, dll. Untuk menggunakan folder Git, Anda harus terlebih dahulu menambahkan nama pengguna penyedia Git PAT dan Git Anda ke Databricks. Lihat Mengonfigurasi kredensial Git & menyambungkan repositori jarak jauh ke Azure Databricks.
Anda dapat mengkloning repositori jarak jauh publik tanpa kredensial Git (token akses pribadi dan nama pengguna). Untuk mengubah repositori jarak jauh publik atau mengkloning atau memodifikasi repositori jarak jauh privat, Anda harus memiliki nama pengguna penyedia Git dan PAT dengan izin Tulis (atau lebih besar) untuk repositori jarak jauh.
Folder Git diaktifkan secara default. Untuk detail selengkapnya tentang mengaktifkan atau menonaktifkan dukungan folder Git, lihat Mengaktifkan atau menonaktifkan fitur folder Databricks Git.
Menambahkan atau mengedit kredensial Git di Databricks
Penting
Folder Databricks Git hanya mendukung satu kredensial Git per pengguna, per ruang kerja.
Pilih panah bawah di samping nama akun di kanan atas layar Anda, lalu pilih Pengaturan .
Pilih tab akun tertaut
. Jika Anda menambahkan kredensial untuk pertama kalinya, ikuti instruksi di layar.
Jika sebelumnya Anda telah memasukkan kredensial, klik konfigurasi >Edit dan lanjutkan ke langkah berikutnya.
Di menu drop-down penyedia Git, pilih nama penyedia.
Masukkan nama pengguna atau email Git Anda.
Di bidang Token , tambahkan token akses pribadi (PAT) atau kredensial lainnya dari penyedia Git Anda. Untuk detailnya, lihat Mengonfigurasi kredensial Git & menyambungkan repositori jarak jauh ke Azure Databricks
Penting
Databricks merekomendasikan agar Anda menetapkan tanggal kedaluwarsa untuk semua token akses pribadi.
Untuk Azure DevOps, jika Anda tidak memasukkan token atau kata sandi aplikasi, integrasi Git menggunakan token ID Microsoft Entra Anda secara default. Jika Anda memasukkan token akses pribadi Azure DevOps, integrasi Git menggunakannya sebagai gantinya. Lihat Menyambungkan ke repositori Azure DevOps menggunakan token.
Catatan
Setelah Memperbarui kata sandi Azure, autentikasi ulang dengan Azure Databricks jika Anda memerlukan autentikasi baru untuk segera berfungsi. Jika Anda tidak mengautentikasi ulang, koneksi Azure DevOps mungkin tidak divalidasi hingga 24 jam.
Jika organisasi Anda mengaktifkan SSO SAML di GitHub, otorisasi token akses pribadi Anda untuk SSO.
Masukkan nama pengguna Anda di bidang nama pengguna penyedia Git.
Klik Simpan.
Anda juga dapat menyimpan token Pat Git dan nama pengguna ke Azure Databricks menggunakan Databricks Repos API.
Jika Anda tidak dapat mengkloning repositori dan menggunakan Azure DevOps dengan autentikasi ID Microsoft Entra, lihat Masalah dengan kebijakan akses bersyarah (CAP) untuk ID Microsoft Entra.
Konektivitas jaringan antara folder Databricks Git dan penyedia Git
Folder Git memerlukan konektivitas jaringan ke penyedia Git Anda untuk berfungsi. Biasanya, ini melalui internet dan bekerja di luar kotak. Namun, Anda mungkin telah menyiapkan pembatasan tambahan pada penyedia Git Anda untuk mengontrol akses. Misalnya, Anda mungkin memiliki daftar izin IP di tempat, atau Anda mungkin menghosting server Git lokal Anda sendiri menggunakan layanan seperti GitHub Enterprise (GHE), Bitbucket Server ( BBS), atau Gitlab Dikelola sendiri. Bergantung pada hosting dan konfigurasi jaringan Anda, server Git Anda mungkin tidak dapat diakses melalui internet.
Catatan
- Jika server Git Anda dapat diakses internet tetapi memiliki daftar ip yang diizinkan, seperti Daftar izin GitHub, Anda harus menambahkan IP NAT sarana kontrol Azure Databricks ke daftar izin IP server Git. Lihat wilayah Azure Databricks untuk daftar alamat IP NAT sarana kontrol menurut wilayah. Gunakan IP untuk wilayah tempat ruang kerja Azure Databricks Anda berada.
- Jika Anda menghosting server Git secara pribadi, baca Menyiapkan konektivitas Git pribadi untuk folder Git Azure Databricks (Repos) atau hubungi tim akun Azure Databricks Anda untuk instruksi pendaftaran akses.
Fitur keamanan di folder Git
Folder Databricks Git memiliki banyak fitur keamanan. Bagian berikut memandikan Anda melalui penyiapan dan penggunaannya:
- Penggunaan kredensial Git terenkripsi
- Daftar yang diizinkan
- Kontrol akses ruang kerja
- Penglogan Audit
- Deteksi rahasia
Bawa kunci Anda sendiri: Mengenkripsi kredensial Git
Anda dapat menggunakan Azure Key Vault untuk mengenkripsi token akses pribadi Git (PAT) atau kredensial Git lainnya. Menggunakan kunci dari layanan enkripsi disebut sebagai kunci yang dikelola pelanggan (CMK) atau membawa kunci Anda sendiri (BYOK).
Untuk informasi selengkapnya, lihat Kunci yang dikelola pelanggan untuk enkripsi.
Batasi penggunaan pada URL dalam daftar izin
Jika Anda menggunakan ID Microsoft Entra untuk mengautentikasi dengan Azure DevOps, daftar izin default membatasi URL Git untuk:
- dev.azure.com
- visualstudio.com
Untuk AAD dengan alias CNAMES atau GIT URL kustom, admin ruang kerja Anda dapat mengonfigurasi daftar izin kustom seperti yang ditunjukkan pada langkah-langkah berikut. Jika Anda menggunakan daftar izin kustom, admin ruang kerja Anda perlu menambahkan URL ini jika Anda ingin bekerja dengannya: dev.azure.com
dan visualstudio.com
.
Admin ruang kerja dapat membatasi repositori jarak jauh mana yang dapat dikloning pengguna dan menerapkan & mendorong. Ini membantu mencegah pencurian kode Anda; misalnya, pengguna tidak dapat mengirimkan kode ke repositori sembarang jika Anda telah mengaktifkan pembatasan daftar izinkan. Anda juga dapat mencegah pengguna menggunakan kode tanpa lisensi dengan membatasi operasi kloning ke daftar repositori yang diizinkan.
Untuk menyiapkan daftar izin:
Buka halaman pengaturan.
Klik tab Admin ruang kerja (terbuka secara default).
Di bagian Pengembangan
, pilih opsi dari url Git izin daftar izin izin :- Dinonaktifkan (tanpa batasan): Tidak ada pemeriksaan terhadap daftar yang diizinkan.
- Pembatasan Operasi Klon, & Push ke Repositori Git yang Diizinkan: Operasi klon, commit, dan push hanya diizinkan untuk URL repositori dalam daftar yang diizinkan.
- Hanya Batasi Penerapan & Dorong ke Repositori Git yang Diizinkan: Operasi penerapan dan pendorongan hanya diizinkan untuk URL repositori dalam daftar yang diizinkan. Operasi kloning dan penarikan tidak dibatasi.
Klik tombol Edit
di samping daftar izin URL Git : Daftar kosong dan masukkan daftar awalan URL yang dipisahkan koma.Klik Simpan.
Catatan
- Daftar yang Anda simpan akan menggantikan sekumpulan awalan URL yang sudah ada dan tersimpan.
- Diperlukan waktu hingga 15 menit agar perubahan diterapkan.
Izinkan akses ke semua repositori
Untuk menonaktifkan daftar izinkan yang ada dan mengizinkan akses ke semua repositori:
- Buka halaman pengaturan.
- Klik tab Admin ruang kerja.
- Di bagian Pengembangan
, di bawah URL Git izin daftar memungkinkan : pilihNonaktifkan (tanpa batasan) .
Mengontrol akses untuk repositori di ruang kerja Anda
Catatan
Kontrol akses hanya tersedia dalam paket Premium.
Atur izin untuk repositori untuk mengontrol akses. Izin untuk repositori berlaku untuk semua konten dalam repositori tersebut. Anda dapat menetapkan lima tingkat izin ke file: TIDAK ADA IZIN, DAPAT MEMBACA, DAPAT MENJALANKAN, DAPAT MENGEDIT, dan DAPAT MENGELOLA.
Untuk detail selengkapnya tentang izin folder Git, lihat ACL folder Git.
(Opsional) Menyiapkan proksi untuk server Git perusahaan
Jika perusahaan Anda menggunakan layanan Git perusahaan lokal, seperti GitHub Enterprise atau Azure DevOps Server, Anda dapat menggunakan Proksi Server Git Databricks untuk menyambungkan ruang kerja Databricks Anda ke repositori yang dilayaninya.
Penglogan Audit
Saat pengelogan audit diaktifkan, peristiwa audit dicatat saat Anda berinteraksi dengan folder Git. Misalnya, peristiwa audit dicatat saat Anda membuat, memperbarui, atau menghapus folder Git, saat Anda mencantumkan semua folder Git yang terkait dengan ruang kerja, dan saat Anda menyinkronkan perubahan antara folder Git dan repositori Git jarak jauh.
Deteksi rahasia
Folder Git memindai kode untuk ID kunci akses yang dimulai dengan awalan AKIA
dan memperingatkan pengguna sebelum melakukan.
Menggunakan file konfigurasi repositori
Anda bisa menambahkan pengaturan untuk setiap buku catatan ke repositori Anda dalam .databricks/commit_outputs
file yang Anda buat secara manual.
Tentukan buku catatan yang ingin Anda sertakan outputnya menggunakan pola yang mirip dengan pola gitignore.
Pola untuk file konfigurasi repo
File berisi pola jalur file positif dan negatif. Pola jalur file termasuk ekstensi file buku catatan seperti .ipynb
.
- Pola positif memungkinkan penyertaan output untuk notebook yang cocok.
- Pola negatif menonaktifkan penyertaan output untuk notebook yang cocok.
Pola dievaluasi untuk semua buku catatan. Jalur atau jalur yang tidak valid yang tidak diselesaikan ke .ipynb
buku catatan diabaikan.
Untuk menyertakan output dari jalurfolder/innerfolder/notebook.ipynb
buku catatan , gunakan pola berikut:
**/*
folder/**
folder/innerfolder/note*
Untuk mengecualikan output untuk notebook, periksa apakah tidak ada pola positif yang cocok atau tambahkan pola negatif di tempat yang benar dari file konfigurasi. Pola negatif (kecualikan) dimulai dengan !
:
!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb
Pindahkan folder Git ke sampah (hapus)
Untuk menghapus folder Git dari ruang kerja Anda:
Klik kanan folder Git, lalu pilih Pindahkan ke sampah.
Dalam kotak dialog, ketik nama folder Git yang ingin Anda hapus. Lalu, klik Konfirmasi & pindah ke sampah.