Mengelola pustaka Apache Spark di Microsoft Fabric
Pustaka adalah kumpulan kode prewritten yang dapat diimpor pengembang untuk menyediakan fungsionalitas. Dengan menggunakan pustaka, Anda dapat menghemat waktu dan upaya dengan tidak harus menulis kode dari awal untuk melakukan tugas umum. Sebagai gantinya, impor pustaka dan gunakan fungsi dan kelasnya untuk mencapai fungsionalitas yang diinginkan. Microsoft Fabric menyediakan beberapa mekanisme untuk membantu Anda mengelola dan menggunakan pustaka.
- Pustaka bawaan: Setiap runtime Fabric Spark menyediakan serangkaian pustaka populer yang telah diinstal sebelumnya. Anda dapat menemukan daftar pustaka bawaan lengkap di Fabric Spark Runtime.
- Pustaka publik: Pustaka publik bersumber dari repositori seperti PyPI dan Conda, yang saat ini didukung.
- Pustaka kustom: Pustaka kustom merujuk ke kode yang Anda atau organisasi Anda bangun. Fabric mendukungnya dalam format .whl, .jar, dan .tar.gz . Fabric hanya mendukung .tar.gz untuk bahasa R. Untuk pustaka kustom Python, gunakan format .whl .
Ringkasan praktik terbaik manajemen pustaka
Skenario berikut menjelaskan praktik terbaik saat menggunakan pustaka di Microsoft Fabric.
Skenario 1: Admin menetapkan pustaka default untuk ruang kerja
Untuk mengatur pustaka default, Anda harus menjadi administrator ruang kerja. Sebagai admin, Anda dapat melakukan tugas-tugas ini:
- Ciptakan lingkungan baru
- Menginstal pustaka yang diperlukan di lingkungan
- Lampirkan lingkungan ini sebagai default ruang kerja
Saat notebook dan definisi pekerjaan Spark Anda dilampirkan ke pengaturan Ruang Kerja, mereka memulai sesi dengan pustaka yang diinstal di lingkungan default ruang kerja.
Skenario 2: Mempertahankan spesifikasi pustaka untuk satu atau beberapa item kode
Jika Anda memiliki pustaka umum untuk item kode yang berbeda dan tidak memerlukan pembaruan yang sering, instal pustaka di lingkungan dan lampirkan ke item kode adalah pilihan yang baik.
Akan memakan waktu untuk membuat pustaka di lingkungan menjadi efektif saat menerbitkan. Biasanya diperlukan waktu 5-15 menit, tergantung pada kompleksitas pustaka. Selama proses ini, sistem akan membantu menyelesaikan potensi konflik dan mengunduh dependensi yang diperlukan.
Salah satu manfaat dari pendekatan ini adalah bahwa pustaka yang berhasil diinstal dijamin tersedia ketika sesi Spark dimulai dengan lingkungan yang terpasang. Ini menghemat upaya mempertahankan pustaka umum untuk proyek Anda.
Sangat disarankan untuk skenario alur dengan stabilitasnya.
Skenario 3: Penginstalan sebaris dalam eksekusi interaktif
Jika Anda menggunakan buku catatan untuk menulis kode secara interaktif, menggunakan penginstalan sebaris untuk menambahkan pustaka PyPI/conda baru tambahan atau memvalidasi pustaka kustom Anda untuk penggunaan satu kali adalah praktik terbaik. Perintah sebaris di Fabric memungkinkan Anda membuat pustaka efektif dalam sesi Spark notebook saat ini. Ini memungkinkan penginstalan cepat tetapi pustaka yang diinstal tidak bertahan di berbagai sesi.
Karena %pip install
menghasilkan pohon dependensi yang berbeda dari waktu ke waktu, yang mungkin menyebabkan konflik pustaka, perintah sebaris dinonaktifkan secara default dalam eksekusi alur dan TIDAK disarankan untuk digunakan dalam alur Anda.
Ringkasan jenis pustaka yang didukung
Jenis pustaka | Manajemen pustaka lingkungan | Penginstalan sebaris |
---|---|---|
Python Public (PyPI & Conda) | Didukung | Didukung |
Python Custom (.whl) | Didukung | Didukung |
R Publik (CRAN) | Tidak didukung | Didukung |
Kustom R (.tar.gz) | Didukung sebagai pustaka kustom | Didukung |
Jar | Didukung sebagai pustaka kustom | Didukung |
Penginstalan sebaris
Perintah sebaris mendukung pengelolaan pustaka di setiap sesi buku catatan.
Penginstalan sebaris Python
Sistem memulai ulang penerjemah Python untuk menerapkan perubahan pustaka. Variabel apa pun yang ditentukan sebelum Anda menjalankan sel perintah hilang. Kami sangat menyarankan Agar Anda menempatkan semua perintah untuk menambahkan, menghapus, atau memperbarui paket Python di awal buku catatan Anda.
Perintah sebaris untuk mengelola pustaka Python dinonaktifkan dalam eksekusi alur buku catatan secara default. Jika Anda ingin mengaktifkan %pip install
untuk alur, tambahkan "_inlineInstallationEnabled" karena parameter bool sama dengan True dalam parameter aktivitas buku catatan.
Catatan
dapat %pip install
menyebabkan hasil yang tidak konsisten dari waktu ke waktu. Disarankan untuk menginstal pustaka di lingkungan dan menggunakannya di alur.
Dalam eksekusi referensi buku catatan, perintah sebaris untuk mengelola pustaka Python tidak didukung. Untuk memastikan kebenaran eksekusi, disarankan untuk menghapus perintah sebaris ini dari buku catatan yang direferensikan.
Kami merekomendasikan %pip
alih-alih !pip
. !pip
adalah perintah shell bawaan IPython, yang memiliki batasan berikut:
!pip
hanya menginstal paket pada simpul driver, bukan simpul eksekutor.- Paket yang diinstal
!pip
melalui tidak memengaruhi konflik dengan paket bawaan atau apakah paket sudah diimpor dalam buku catatan.
Namun, %pip
menangani skenario ini. Pustaka yang diinstal melalui %pip
tersedia pada simpul driver dan eksekutor dan masih efektif bahkan pustaka sudah diimpor.
Tip
Perintah %conda install
biasanya membutuhkan waktu lebih lama dari %pip install
perintah untuk menginstal pustaka Python baru. Ini memeriksa dependensi penuh dan menyelesaikan konflik.
Anda mungkin ingin menggunakan %conda install
untuk lebih banyak keandalan dan stabilitas. Anda dapat menggunakan %pip install
jika Anda yakin bahwa pustaka yang ingin Anda instal tidak bertentangan dengan pustaka yang telah diinstal sebelumnya di lingkungan runtime.
Untuk semua perintah dan klarifikasi sebaris Python yang tersedia, lihat perintah %pip dan perintah %conda.
Mengelola pustaka publik Python melalui penginstalan sebaris
Dalam contoh ini, lihat cara menggunakan perintah sebaris untuk mengelola pustaka. Misalkan Anda ingin menggunakan altair, pustaka visualisasi yang kuat untuk Python, untuk eksplorasi data satu kali. Misalkan pustaka tidak diinstal di ruang kerja Anda. Contoh berikut menggunakan perintah conda untuk mengilustrasikan langkah-langkahnya.
Anda bisa menggunakan perintah sebaris untuk mengaktifkan altair pada sesi buku catatan Anda tanpa memengaruhi sesi buku catatan atau item lainnya.
Jalankan perintah berikut dalam sel kode buku catatan. Perintah pertama menginstal pustaka altair . Selain itu, instal vega_datasets, yang berisi model semantik yang dapat Anda gunakan untuk memvisualisasikan.
%conda install altair # install latest version through conda command %conda install vega_datasets # install latest version through conda command
Output sel menunjukkan hasil penginstalan.
Impor paket dan model semantik dengan menjalankan kode berikut di sel buku catatan lain.
import altair as alt from vega_datasets import data
Sekarang Anda dapat bermain-main dengan pustaka altair yang terlingkup sesi.
# load a simple dataset as a pandas DataFrame cars = data.cars() alt.Chart(cars).mark_point().encode( x='Horsepower', y='Miles_per_Gallon', color='Origin', ).interactive()
Mengelola pustaka kustom Python melalui penginstalan sebaris
Anda bisa mengunggah pustaka kustom Python Anda ke folder sumber daya buku catatan Anda atau lingkungan terlampir. Folder sumber daya adalah sistem file bawaan yang disediakan oleh setiap buku catatan dan lingkungan. Lihat Sumber daya Notebook untuk detail selengkapnya. Setelah mengunggah, Anda dapat menyeret dan meletakkan pustaka kustom ke sel kode, perintah sebaris untuk menginstal pustaka dibuat secara otomatis. Atau Anda dapat menggunakan perintah berikut untuk menginstal.
# install the .whl through pip command from the notebook built-in folder
%pip install "builtin/wheel_file_name.whl"
Penginstalan sebaris R
Untuk mengelola pustaka R, Fabric mendukung install.packages()
perintah , remove.packages()
, dan devtools::
. Untuk semua perintah dan klarifikasi sebaris R yang tersedia, lihat perintah install.packages dan perintah remove.package.
Mengelola pustaka publik R melalui penginstalan sebaris
Ikuti contoh ini untuk menelusuri langkah-langkah menginstal pustaka publik R.
Untuk menginstal pustaka umpan R:
Alihkan bahasa kerja ke SparkR (R) di pita buku catatan.
Instal pustaka caesar dengan menjalankan perintah berikut ini di sel buku catatan.
install.packages("caesar")
Sekarang Anda dapat bermain-main dengan pustaka caesar cakupan sesi dengan pekerjaan Spark.
library(SparkR) sparkR.session() hello <- function(x) { library(caesar) caesar(x) } spark.lapply(c("hello world", "good morning", "good evening"), hello)
Mengelola pustaka Jar melalui penginstalan sebaris
File .jar didukung pada sesi buku catatan dengan perintah berikut.
%%configure -f
{
"conf": {
"spark.jars": "abfss://<<Lakehouse prefix>>.dfs.fabric.microsoft.com/<<path to JAR file>>/<<JAR file name>>.jar",
}
}
Sel kode menggunakan penyimpanan Lakehouse sebagai contoh. Di penjelajah notebook, Anda dapat menyalin jalur ABFS file lengkap dan mengganti dalam kode.