Cara membaca dan menulis data dengan Pandas di Microsoft Fabric
Notebook Microsoft Fabric mendukung interaksi yang mulus dengan data Lakehouse menggunakan Pandas, pustaka Python paling populer untuk eksplorasi dan pemrosesan data. Dalam buku catatan, Anda dapat dengan cepat membaca data dari, dan menulis data kembali ke, sumber daya Lakehouse mereka dalam berbagai format file. Panduan ini menyediakan sampel kode untuk membantu Anda memulai di buku catatan Anda sendiri.
Prasyarat
Dapatkan langganan Microsoft Fabric. Atau, daftar untuk uji coba Microsoft Fabric gratis.
Masuk ke Microsoft Fabric.
Gunakan pengalih pengalaman di sisi kiri bawah halaman beranda Anda untuk beralih ke Fabric.
Memuat data Lakehouse ke dalam buku catatan
Setelah melampirkan Lakehouse ke buku catatan Microsoft Fabric, Anda dapat menjelajahi data yang disimpan tanpa meninggalkan halaman, dan membacanya ke buku catatan Anda, semuanya dengan beberapa langkah. Pemilihan file Lakehouse menampilkan opsi untuk "Memuat data" ke dalam Spark atau Pandas DataFrame. Anda juga dapat menyalin jalur ABFS lengkap file atau jalur relatif yang ramah.
Pemilihan salah satu perintah "Muat data" menghasilkan sel kode untuk memuat file tersebut ke dalam DataFrame di buku catatan Anda.
Mengonversi Spark DataFrame menjadi Pandas DataFrame
Sebagai referensi, perintah ini menunjukkan cara mengonversi Spark DataFrame menjadi Pandas DataFrame:
# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()
Membaca dan menulis berbagai format file
Catatan
Memodifikasi versi paket tertentu berpotensi merusak paket lain yang bergantung padanya. Misalnya, penurunan azure-storage-blob
tingkat dapat menyebabkan masalah dengan Pandas
dan berbagai pustaka lain yang mengandalkan Pandas
, termasuk mssparkutils
, , fsspec_wrapper
dan notebookutils
.
Anda dapat melihat daftar paket yang telah diinstal sebelumnya dan versinya untuk setiap runtime di sini.
Sampel kode ini menjelaskan operasi Pandas untuk membaca dan menulis berbagai format file.
Catatan
Anda harus mengganti jalur file dalam sampel kode ini. Panda mendukung jalur relatif, seperti yang ditunjukkan di sini, dan jalur ABFS penuh. Jalur dari salah satu jenis dapat diambil dan disalin dari antarmuka sesuai dengan langkah sebelumnya.
Membaca data dari file CSV
import pandas as pd
# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)
Menulis data sebagai file CSV
import pandas as pd
# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
Membaca data dari file Parquet
import pandas as pd
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
display(df)
Menulis data sebagai file Parquet
import pandas as pd
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
Membaca data dari file Excel
import pandas as pd
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx")
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
display(df)
Menulis data sebagai file Excel
import pandas as pd
# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
Membaca data dari file JSON
import pandas as pd
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
display(df)
Menulis data sebagai file JSON
import pandas as pd
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
Konten terkait
- Menggunakan Data Wrangler untuk membersihkan dan menyiapkan data Anda
- Mulai melatih model ML