Ako čítať a zapisovať údaje s pandas v službe Microsoft Fabric

Článok
10/25/2024

Poznámkové bloky služby Microsoft Fabric podporujú bezproblémovú interakciu s údajmi Lakehouse pomocou knižnice Pandas, najobľúbenejšej knižnice jazyka Python na skúmanie a spracovanie údajov. V notebooku môžete rýchlo čítať údaje z ich zdrojov Lakehouse v rôznych formátoch súborov a zapisovať do ich zdrojov. Táto príručka obsahuje ukážky kódu, ktoré vám pomôžu začať pracovať vo vlastnom notebooku.

Požiadavky

Získajte predplatné na Microsoft Fabric. Alebo si zaregistrujte bezplatnú skúšobnú verziu služby Microsoft Fabric.
Prihláste sa do služby Microsoft Fabric.
Pomocou prepínača skúseností v ľavej dolnej časti domovskej stránky sa prepnete na službu Fabric.

Načítanie údajov služby Lakehouse do poznámkového bloku

Po pripojení notebooku služby Lakehouse k notebooku služby Microsoft Fabric môžete preskúmať uložené údaje bez toho, aby ste zo stránky odišli, a pomocou niekoľkých krokov si ich môžete prečítať do poznámkového bloku. Výber ľubovoľného súboru Lakehouse zobrazí možnosti na načítanie údajov do údajového rámca Spark alebo Pandas. Môžete tiež skopírovať úplnú cestu k súboru ABFS alebo priateľskú relatívnu cestu.

Výberom niektorej z výziev Načítať údaje sa vygeneruje bunka kódu, ktorá tento súbor načíta do prvku DataFrame v poznámkovom bloku.

Konverzia údajového rámca služby Spark na údajový rámec Pandas

Na odkaz ukazuje tento príkaz, ako skonvertovať údajový rámec Spark na údajový rámec Pandas:

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()

Čítanie a písanie rôznych formátov súborov

Poznámka

Úpravou verzie konkrétneho balíka sa potenciálne môžu poškodiť ďalšie balíky, ktoré sú od neho závislé. Downgrading azure-storage-blob môže napríklad spôsobiť problémy s Pandas rôznymi inými knižnicami, ktoré sa spoliehajú na Pandasknižnice , vrátane mssparkutils, fsspec_wrappera notebookutils. Zoznam predinštalovaných balíkov a ich verzií pre každú verziu modulu runtime môžete zobraziť tu.

Tieto vzorky kódu popisujú operácie pandas na čítanie a písanie rôznych formátov súborov.

Poznámka

V týchto ukážkach kódu musíte nahradiť cesty k súboru. Pandas podporuje obe relatívne cesty, ako je to znázornené tu, a úplné cesty ABFS. Cesty oboch typov je možné načítať a skopírovať z rozhrania podľa predchádzajúceho kroku.

Načítanie údajov zo súboru CSV

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

Zápis údajov ako súboru CSV

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")

Čítanie údajov zo súboru Vo formáte Parquet

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

Zápis údajov ako súboru Vo formáte Parquet

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")

Čítať údaje z excelového súboru

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx") 
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df)

Zápis údajov ako excelového súboru

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")

Čítanie údajov zo súboru JSON

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df)

Zápis údajov ako súboru JSON

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")

Použitie funkcie Data Wrangler na vyčistenie a prípravu údajov
Spustenie trénovacích modelov strojového učenia

Zdieľať cez

Ako čítať a zapisovať údaje s pandas v službe Microsoft Fabric

Požiadavky

Načítanie údajov služby Lakehouse do poznámkového bloku

Konverzia údajového rámca služby Spark na údajový rámec Pandas

Čítanie a písanie rôznych formátov súborov

Načítanie údajov zo súboru CSV

Zápis údajov ako súboru CSV

Čítanie údajov zo súboru Vo formáte Parquet

Zápis údajov ako súboru Vo formáte Parquet

Čítať údaje z excelového súboru

Zápis údajov ako excelového súboru

Čítanie údajov zo súboru JSON

Zápis údajov ako súboru JSON

Pripomienky

Ďalšie zdroje informácií

Zdieľať cez

Ako čítať a zapisovať údaje s pandas v službe Microsoft Fabric

Požiadavky

Načítanie údajov služby Lakehouse do poznámkového bloku

Konverzia údajového rámca služby Spark na údajový rámec Pandas

Čítanie a písanie rôznych formátov súborov

Načítanie údajov zo súboru CSV

Zápis údajov ako súboru CSV

Čítanie údajov zo súboru Vo formáte Parquet

Zápis údajov ako súboru Vo formáte Parquet

Čítať údaje z excelového súboru

Zápis údajov ako excelového súboru

Čítanie údajov zo súboru JSON

Zápis údajov ako súboru JSON

Súvisiaci obsah

Pripomienky

Ďalšie zdroje informácií