Ako čítať a zapisovať údaje s pandas v službe Microsoft Fabric
Poznámkové bloky služby Microsoft Fabric podporujú bezproblémovú interakciu s údajmi Lakehouse pomocou knižnice Pandas, najobľúbenejšej knižnice jazyka Python na skúmanie a spracovanie údajov. V notebooku môžete rýchlo čítať údaje z ich zdrojov Lakehouse v rôznych formátoch súborov a zapisovať do ich zdrojov. Táto príručka obsahuje ukážky kódu, ktoré vám pomôžu začať pracovať vo vlastnom notebooku.
Požiadavky
Získajte predplatné na Microsoft Fabric. Alebo si zaregistrujte bezplatnú skúšobnú verziu služby Microsoft Fabric.
Prihláste sa do služby Microsoft Fabric.
Pomocou prepínača skúseností v ľavej dolnej časti domovskej stránky sa prepnete na službu Fabric.
Načítanie údajov služby Lakehouse do poznámkového bloku
Po pripojení notebooku služby Lakehouse k notebooku služby Microsoft Fabric môžete preskúmať uložené údaje bez toho, aby ste zo stránky odišli, a pomocou niekoľkých krokov si ich môžete prečítať do poznámkového bloku. Výber ľubovoľného súboru Lakehouse zobrazí možnosti na načítanie údajov do údajového rámca Spark alebo Pandas. Môžete tiež skopírovať úplnú cestu k súboru ABFS alebo priateľskú relatívnu cestu.
Výberom niektorej z výziev Načítať údaje sa vygeneruje bunka kódu, ktorá tento súbor načíta do prvku DataFrame v poznámkovom bloku.
Konverzia údajového rámca služby Spark na údajový rámec Pandas
Na odkaz ukazuje tento príkaz, ako skonvertovať údajový rámec Spark na údajový rámec Pandas:
# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()
Čítanie a písanie rôznych formátov súborov
Poznámka
Úpravou verzie konkrétneho balíka sa potenciálne môžu poškodiť ďalšie balíky, ktoré sú od neho závislé. Downgrading azure-storage-blob
môže napríklad spôsobiť problémy s Pandas
rôznymi inými knižnicami, ktoré sa spoliehajú na Pandas
knižnice , vrátane mssparkutils
, fsspec_wrapper
a notebookutils
.
Zoznam predinštalovaných balíkov a ich verzií pre každú verziu modulu runtime môžete zobraziť tu.
Tieto vzorky kódu popisujú operácie pandas na čítanie a písanie rôznych formátov súborov.
Poznámka
V týchto ukážkach kódu musíte nahradiť cesty k súboru. Pandas podporuje obe relatívne cesty, ako je to znázornené tu, a úplné cesty ABFS. Cesty oboch typov je možné načítať a skopírovať z rozhrania podľa predchádzajúceho kroku.
Načítanie údajov zo súboru CSV
import pandas as pd
# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)
Zápis údajov ako súboru CSV
import pandas as pd
# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
Čítanie údajov zo súboru Vo formáte Parquet
import pandas as pd
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
display(df)
Zápis údajov ako súboru Vo formáte Parquet
import pandas as pd
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
Čítať údaje z excelového súboru
import pandas as pd
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx")
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
display(df)
Zápis údajov ako excelového súboru
import pandas as pd
# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
Čítanie údajov zo súboru JSON
import pandas as pd
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
display(df)
Zápis údajov ako súboru JSON
import pandas as pd
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
Súvisiaci obsah
- Použitie funkcie Data Wrangler na vyčistenie a prípravu údajov
- Spustenie trénovacích modelov strojového učenia