Zdieľať cez


Ako čítať a zapisovať údaje s pandas v službe Microsoft Fabric

Poznámkové bloky služby Microsoft Fabric podporujú bezproblémovú interakciu s údajmi Lakehouse pomocou knižnice Pandas, najobľúbenejšej knižnice jazyka Python na skúmanie a spracovanie údajov. V notebooku môžete rýchlo čítať údaje z ich zdrojov Lakehouse v rôznych formátoch súborov a zapisovať do ich zdrojov. Táto príručka obsahuje ukážky kódu, ktoré vám pomôžu začať pracovať vo vlastnom notebooku.

Požiadavky

  • Získajte predplatné na Microsoft Fabric. Alebo si zaregistrujte bezplatnú skúšobnú verziu služby Microsoft Fabric.

  • Prihláste sa do služby Microsoft Fabric.

  • Pomocou prepínača skúseností v ľavej dolnej časti domovskej stránky sa prepnete na službu Fabric.

    Snímka obrazovky ponuky prepínača prostredí zobrazujúca, kde vybrať možnosť Dátová veda.

Načítanie údajov služby Lakehouse do poznámkového bloku

Po pripojení notebooku služby Lakehouse k notebooku služby Microsoft Fabric môžete preskúmať uložené údaje bez toho, aby ste zo stránky odišli, a pomocou niekoľkých krokov si ich môžete prečítať do poznámkového bloku. Výber ľubovoľného súboru Lakehouse zobrazí možnosti na načítanie údajov do údajového rámca Spark alebo Pandas. Môžete tiež skopírovať úplnú cestu k súboru ABFS alebo priateľskú relatívnu cestu.

Snímka obrazovky znázorňujúca možnosti načítania údajov do údajového rámca Pandas.

Výberom niektorej z výziev Načítať údaje sa vygeneruje bunka kódu, ktorá tento súbor načíta do prvku DataFrame v poznámkovom bloku.

Snímka obrazovky znázorňujúca bunku kódu pridanú do poznámkového bloku.

Konverzia údajového rámca služby Spark na údajový rámec Pandas

Na odkaz ukazuje tento príkaz, ako skonvertovať údajový rámec Spark na údajový rámec Pandas:

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas() 

Čítanie a písanie rôznych formátov súborov

Poznámka

Úpravou verzie konkrétneho balíka sa potenciálne môžu poškodiť ďalšie balíky, ktoré sú od neho závislé. Downgrading azure-storage-blob môže napríklad spôsobiť problémy s Pandas rôznymi inými knižnicami, ktoré sa spoliehajú na Pandasknižnice , vrátane mssparkutils, fsspec_wrappera notebookutils. Zoznam predinštalovaných balíkov a ich verzií pre každú verziu modulu runtime môžete zobraziť tu.

Tieto vzorky kódu popisujú operácie pandas na čítanie a písanie rôznych formátov súborov.

Poznámka

V týchto ukážkach kódu musíte nahradiť cesty k súboru. Pandas podporuje obe relatívne cesty, ako je to znázornené tu, a úplné cesty ABFS. Cesty oboch typov je možné načítať a skopírovať z rozhrania podľa predchádzajúceho kroku.

Načítanie údajov zo súboru CSV

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

Zápis údajov ako súboru CSV

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv") 

Čítanie údajov zo súboru Vo formáte Parquet

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

Zápis údajov ako súboru Vo formáte Parquet

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 

Čítať údaje z excelového súboru

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx") 
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df) 

Zápis údajov ako excelového súboru

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 

Čítanie údajov zo súboru JSON

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df) 

Zápis údajov ako súboru JSON

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")