Bagikan melalui


Cara membaca dan menulis data dengan Pandas di Microsoft Fabric

Notebook Microsoft Fabric mendukung interaksi yang mulus dengan data Lakehouse menggunakan Pandas, pustaka Python paling populer untuk eksplorasi dan pemrosesan data. Dalam buku catatan, Anda dapat dengan cepat membaca data dari, dan menulis data kembali ke, sumber daya Lakehouse mereka dalam berbagai format file. Panduan ini menyediakan sampel kode untuk membantu Anda memulai di buku catatan Anda sendiri.

Prasyarat

Memuat data Lakehouse ke dalam buku catatan

Setelah melampirkan Lakehouse ke buku catatan Microsoft Fabric, Anda dapat menjelajahi data yang disimpan tanpa meninggalkan halaman, dan membacanya ke buku catatan Anda, semuanya dengan beberapa langkah. Pemilihan file Lakehouse menampilkan opsi untuk "Memuat data" ke dalam Spark atau Pandas DataFrame. Anda juga dapat menyalin jalur ABFS lengkap file atau jalur relatif yang ramah.

Cuplikan layar yang memperlihatkan opsi untuk memuat data ke dalam Pandas DataFrame.

Pemilihan salah satu perintah "Muat data" menghasilkan sel kode untuk memuat file tersebut ke dalam DataFrame di buku catatan Anda.

Cuplikan layar yang memperlihatkan sel kode yang ditambahkan ke buku catatan.

Mengonversi Spark DataFrame menjadi Pandas DataFrame

Sebagai referensi, perintah ini menunjukkan cara mengonversi Spark DataFrame menjadi Pandas DataFrame:

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas() 

Membaca dan menulis berbagai format file

Catatan

Memodifikasi versi paket tertentu berpotensi merusak paket lain yang bergantung padanya. Misalnya, penurunan azure-storage-blob tingkat dapat menyebabkan masalah dengan Pandas dan berbagai pustaka lain yang mengandalkan Pandas, termasuk mssparkutils, , fsspec_wrapperdan notebookutils. Anda dapat melihat daftar paket yang telah diinstal sebelumnya dan versinya untuk setiap runtime di sini.

Sampel kode ini menjelaskan operasi Pandas untuk membaca dan menulis berbagai format file.

Catatan

Anda harus mengganti jalur file dalam sampel kode ini. Panda mendukung jalur relatif, seperti yang ditunjukkan di sini, dan jalur ABFS penuh. Jalur dari salah satu jenis dapat diambil dan disalin dari antarmuka sesuai dengan langkah sebelumnya.

Membaca data dari file CSV

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

Menulis data sebagai file CSV

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv") 

Membaca data dari file Parquet

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

Menulis data sebagai file Parquet

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 

Membaca data dari file Excel

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx") 
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df) 

Menulis data sebagai file Excel

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 

Membaca data dari file JSON

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df) 

Menulis data sebagai file JSON

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")