Mengubah data dengan menjalankan aktivitas Azure Databricks
Aktivitas Azure Databricks di Data Factory untuk Microsoft Fabric memungkinkan Anda mengatur pekerjaan Azure Databricks berikut:
- Notebook
- Jar
- Python
Artikel ini menyediakan panduan langkah demi langkah yang menjelaskan cara membuat aktivitas Azure Databricks menggunakan antarmuka Data Factory.
Prasyarat
Untuk memulai, Anda harus menyelesaikan prasyarat berikut:
- Akun penyewa dengan langganan aktif. Buat akun secara gratis.
- Ruang kerja dibuat.
Mengonfigurasi aktivitas Azure Databricks
Untuk menggunakan aktivitas Azure Databricks dalam alur, selesaikan langkah-langkah berikut:
Mengonfigurasi koneksi
Buat alur baru di ruang kerja Anda.
Klik tambahkan aktivitas alur dan cari Azure Databricks.
Secara bergantian, Anda dapat mencari Azure Databricks di panel Aktivitas alur, dan memilihnya untuk menambahkannya ke kanvas alur.
Pilih aktivitas Azure Databricks baru di kanvas jika belum dipilih.
Lihat panduan Pengaturan umum untuk mengonfigurasi tab Pengaturan umum.
Mengonfigurasi kluster
Pilih tab Kluster. Kemudian Anda dapat memilih koneksi Azure Databricks yang sudah ada atau membuat, lalu memilih kluster pekerjaan baru, kluster interaktif yang ada, atau kumpulan instans yang ada.
Bergantung pada apa yang Anda pilih untuk kluster, isi bidang yang sesuai seperti yang disajikan.
- Di bawah kluster pekerjaan baru dan kumpulan instans yang ada, Anda juga memiliki kemampuan untuk mengonfigurasi jumlah pekerja dan mengaktifkan instans spot.
Anda juga dapat menentukan pengaturan kluster tambahan, seperti Kebijakan kluster, konfigurasi Spark, variabel lingkungan Spark, dan tag kustom, seperti yang diperlukan untuk kluster yang Anda sambungkan. Skrip init Databricks dan jalur tujuan Log Kluster juga dapat ditambahkan di bawah pengaturan kluster tambahan.
Catatan
Semua properti kluster tingkat lanjut dan ekspresi dinamis yang didukung di layanan tertaut Azure Data Factory Azure Databricks sekarang juga didukung dalam aktivitas Azure Databricks di Microsoft Fabric di bawah bagian 'Konfigurasi kluster tambahan' di UI. Karena properti ini sekarang disertakan dalam UI aktivitas; mereka dapat dengan mudah digunakan dengan ekspresi (konten dinamis) tanpa perlu spesifikasi JSON Tingkat Lanjut di layanan tertaut Azure Data Factory Azure Databricks.
Aktivitas Azure Databricks sekarang juga mendukung kebijakan kluster dan dukungan Unity Catalog.
- Di bawah pengaturan tingkat lanjut, Anda memiliki opsi untuk memilih Kebijakan Kluster sehingga Anda dapat menentukan konfigurasi kluster mana yang diizinkan.
- Selain itu , di bawah pengaturan tingkat lanjut, Anda memiliki opsi untuk mengonfigurasi Mode Akses Katalog Unity untuk keamanan tambahan. Jenis mode akses yang tersedia adalah:
- Mode Akses Pengguna Tunggal Mode ini dirancang untuk skenario di mana setiap kluster digunakan oleh satu pengguna. Ini memastikan bahwa akses data dalam kluster dibatasi hanya untuk pengguna tersebut. Mode ini berguna untuk tugas yang memerlukan isolasi dan penanganan data individual.
- Mode Akses Bersama Dalam mode ini, beberapa pengguna dapat mengakses kluster yang sama. Ini menggabungkan tata kelola data Unity Catalog dengan daftar kontrol akses tabel warisan (ACL). Mode ini memungkinkan akses data kolaboratif sambil mempertahankan tata kelola dan protokol keamanan. Namun, ia memiliki batasan tertentu, seperti tidak mendukung Databricks Runtime ML, pekerjaan Spark-submit, dan API Spark dan UDF tertentu.
- Tidak Ada Mode Akses Mode ini menonaktifkan interaksi dengan Katalog Unity, yang berarti kluster tidak memiliki akses ke data yang dikelola oleh Katalog Unity. Mode ini berguna untuk beban kerja yang tidak memerlukan fitur tata kelola Katalog Unity.
Mengonfigurasi pengaturan
Memilih tab Pengaturan, Anda dapat memilih antara 3 opsi jenis Azure Databricks yang ingin Anda orkestrasi.
Mengatur jenis Notebook dalam aktivitas Azure Databricks:
Di bawah tab Pengaturan , Anda bisa memilih tombol radio Buku Catatan untuk menjalankan Buku Catatan. Anda harus menentukan jalur buku catatan yang akan dijalankan di Azure Databricks, parameter dasar opsional untuk diteruskan ke buku catatan, dan pustaka tambahan apa pun yang akan diinstal pada kluster untuk menjalankan pekerjaan.
Mengatur jenis Jar dalam aktivitas Azure Databricks:
Di bawah tab Pengaturan , Anda dapat memilih tombol radio Jar untuk menjalankan Jar. Anda harus menentukan nama kelas yang akan dijalankan pada Azure Databricks, parameter dasar opsional untuk diteruskan ke Jar, dan pustaka tambahan apa pun yang akan diinstal pada kluster untuk menjalankan pekerjaan.
Mengatur jenis Python dalam aktivitas Azure Databricks:
Di bawah tab Pengaturan , Anda dapat memilih tombol radio Python untuk menjalankan file Python. Anda harus menentukan jalur dalam Azure Databricks ke file Python yang akan dijalankan, parameter dasar opsional yang akan diteruskan, dan pustaka tambahan apa pun yang akan diinstal pada kluster untuk menjalankan pekerjaan.
Pustaka yang Didukung untuk aktivitas Azure Databricks
Dalam definisi aktivitas Databricks di atas, Anda dapat menentukan jenis pustaka ini: jar, telur, whl, maven, pypi, cran.
Untuk informasi selengkapnya, lihat Dokumentasi Databricks untuk mengetahui jenis pustaka.
Meneruskan parameter antara aktivitas dan alur Azure Databricks
Anda dapat meneruskan parameter ke notebook menggunakan properti baseParameters dalam aktivitas databricks.
Dalam kasus tertentu, Anda mungkin perlu mengembalikan nilai tertentu dari notebook ke layanan, yang dapat digunakan untuk aliran kontrol (pemeriksaan bersyarat) dalam layanan atau digunakan oleh aktivitas downstream (batas ukuran adalah 2 MB).
Di buku catatan Anda, misalnya, Anda dapat memanggil dbutils.notebook.exit("returnValue") dan "returnValue" yang sesuai akan dikembalikan ke layanan.
Anda dapat menggunakan output dalam layanan dengan menggunakan ekspresi seperti
@{activity('databricks activity name').output.runOutput}
.
Menyimpan dan menjalankan atau menjadwalkan alur
Setelah Anda mengonfigurasi aktivitas lain yang diperlukan untuk alur Anda, beralihlah ke tab Beranda di bagian atas editor alur, dan pilih tombol simpan untuk menyimpan alur Anda. Pilih Jalankan untuk menjalankannya secara langsung, atau Jadwalkan untuk menjadwalkannya. Anda juga dapat melihat riwayat eksekusi di sini atau mengonfigurasi pengaturan lain.