Cara membaca dan menulis data dengan Pandas di Microsoft Fabric

Artikel
10/25/2024

Notebook Microsoft Fabric mendukung interaksi yang mulus dengan data Lakehouse menggunakan Pandas, pustaka Python paling populer untuk eksplorasi dan pemrosesan data. Dalam buku catatan, Anda dapat dengan cepat membaca data dari, dan menulis data kembali ke, sumber daya Lakehouse mereka dalam berbagai format file. Panduan ini menyediakan sampel kode untuk membantu Anda memulai di buku catatan Anda sendiri.

Prasyarat

Dapatkan langganan Microsoft Fabric. Atau, daftar untuk uji coba Microsoft Fabric gratis.
Masuk ke Microsoft Fabric.
Gunakan pengalih pengalaman di sisi kiri bawah halaman beranda Anda untuk beralih ke Fabric.

Memuat data Lakehouse ke dalam buku catatan

Setelah melampirkan Lakehouse ke buku catatan Microsoft Fabric, Anda dapat menjelajahi data yang disimpan tanpa meninggalkan halaman, dan membacanya ke buku catatan Anda, semuanya dengan beberapa langkah. Pemilihan file Lakehouse menampilkan opsi untuk "Memuat data" ke dalam Spark atau Pandas DataFrame. Anda juga dapat menyalin jalur ABFS lengkap file atau jalur relatif yang ramah.

Pemilihan salah satu perintah "Muat data" menghasilkan sel kode untuk memuat file tersebut ke dalam DataFrame di buku catatan Anda.

Mengonversi Spark DataFrame menjadi Pandas DataFrame

Sebagai referensi, perintah ini menunjukkan cara mengonversi Spark DataFrame menjadi Pandas DataFrame:

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()

Membaca dan menulis berbagai format file

Catatan

Memodifikasi versi paket tertentu berpotensi merusak paket lain yang bergantung padanya. Misalnya, penurunan azure-storage-blob tingkat dapat menyebabkan masalah dengan Pandas dan berbagai pustaka lain yang mengandalkan Pandas, termasuk mssparkutils, , fsspec_wrapperdan notebookutils. Anda dapat melihat daftar paket yang telah diinstal sebelumnya dan versinya untuk setiap runtime di sini.

Sampel kode ini menjelaskan operasi Pandas untuk membaca dan menulis berbagai format file.

Catatan

Anda harus mengganti jalur file dalam sampel kode ini. Panda mendukung jalur relatif, seperti yang ditunjukkan di sini, dan jalur ABFS penuh. Jalur dari salah satu jenis dapat diambil dan disalin dari antarmuka sesuai dengan langkah sebelumnya.

Membaca data dari file CSV

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

Menulis data sebagai file CSV

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")

Membaca data dari file Parquet

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

Menulis data sebagai file Parquet

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")

Membaca data dari file Excel

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx") 
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df)

Menulis data sebagai file Excel

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")

Membaca data dari file JSON

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df)

Menulis data sebagai file JSON

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")

Menggunakan Data Wrangler untuk membersihkan dan menyiapkan data Anda
Mulai melatih model ML

Bagikan melalui

Cara membaca dan menulis data dengan Pandas di Microsoft Fabric

Prasyarat

Memuat data Lakehouse ke dalam buku catatan

Mengonversi Spark DataFrame menjadi Pandas DataFrame

Membaca dan menulis berbagai format file

Membaca data dari file CSV

Menulis data sebagai file CSV

Membaca data dari file Parquet

Menulis data sebagai file Parquet

Membaca data dari file Excel

Menulis data sebagai file Excel

Membaca data dari file JSON

Menulis data sebagai file JSON

Saran dan Komentar

Sumber Daya Tambahan:

Bagikan melalui

Cara membaca dan menulis data dengan Pandas di Microsoft Fabric

Prasyarat

Memuat data Lakehouse ke dalam buku catatan

Mengonversi Spark DataFrame menjadi Pandas DataFrame

Membaca dan menulis berbagai format file

Membaca data dari file CSV

Menulis data sebagai file CSV

Membaca data dari file Parquet

Menulis data sebagai file Parquet

Membaca data dari file Excel

Menulis data sebagai file Excel

Membaca data dari file JSON

Menulis data sebagai file JSON

Konten terkait

Saran dan Komentar

Sumber Daya Tambahan: