Megosztás a következőn keresztül:


Data Wrangler használata Spark DataFrame-eken

A Data Wrangler, a feltáró adatelemzés notebook-alapú eszköze mostantól támogatja a Spark DataFrame-eket és a pandas DataFrame-eket is. PySpark-kódot hoz létre a Python-kód mellett. A Data Wrangler általános áttekintéséért, amely a pandas DataFrame-ek feltárását és átalakítását ismerteti, tekintse meg a fő oktatóanyagot. Ez az oktatóanyag bemutatja, hogyan használható a Data Wrangler a Spark DataFrame-ek felderítésére és átalakítására.

Előfeltételek

  • Microsoft Fabric-előfizetés lekérése. Vagy regisztráljon egy ingyenes Microsoft Fabric-próbaverzióra.

  • Jelentkezzen be a Microsoft Fabricbe.

  • A kezdőlap bal alsó részén található élménykapcsolóval válthat Fabricre.

    Képernyőkép a felületváltó menüjéről, amelyen látható, hogy hol válassza ki a Adattudomány.

Korlátozások

  • Az egyéni kódműveletek jelenleg csak a pandas DataFrame-ekhez támogatottak.
  • A Data Wrangler kijelző nagy monitorokon működik a legjobban, bár a kisebb képernyők elhelyezéséhez minimalizálhatja vagy elrejtheti a felület különböző részeit.

A Data Wrangler indítása Spark DataFrame-lel

A felhasználók közvetlenül egy Microsoft Fabric-jegyzetfüzetből nyithatják meg a Spark DataFrame-eket a Data Wranglerben, ha ugyanarra a legördülő listára lépnek, ahol a Pandas DataFrames megjelenik. Az aktív Spark DataFrame-ek listája megjelenik az aktív pandas-változók listájának legördülő listájában.

Ez a kódrészlet létrehoz egy Spark DataFrame-et a pandas Data Wrangler oktatóanyagban használt mintaadatokkal:

import pandas as pd

# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)

A jegyzetfüzet menüszalagjának Kezdőlap lapján a Data Wrangler legördülő menüben tallózhat a szerkesztésre elérhető aktív DataFrame-ekben. Válassza ki azt, amelyiket meg szeretné nyitni a Data Wranglerben.

Tipp.

A Data Wrangler nem nyitható meg, amíg a jegyzetfüzet kernele foglalt. A végrehajtó cellának be kell fejeznie a végrehajtást, mielőtt a Data Wrangler elindulhat, ahogy az a képernyőképen látható:

Képernyőkép egy hálójegyzetfüzetről a Data Wrangler legördülő listával.

Egyéni minták kiválasztása

A Data Wrangler teljesítménybeli okokból automatikusan pandas-mintákká alakítja a Spark DataFrame-eket. Az eszköz által létrehozott összes kód azonban végső soron a PySparkra lesz lefordítva, amikor vissza exportál a jegyzetfüzetbe. A pandas DataFrame-hez hasonlóan testre is szabhatja az alapértelmezett mintát. Ha bármilyen aktív DataFrame-minta egyéni mintáját szeretné megnyitni a Data Wranglerrel, válassza az "Egyéni minta kiválasztása" lehetőséget a legördülő menüből, ahogyan az a képernyőképen látható:

Képernyőkép a Data Wrangler legördülő listából az egyéni mintabeállítás körvonalazásával.

Ekkor megjelenik egy előugró ablak, amelyen megadhatja a kívánt minta méretét (sorok száma) és a mintavételezési módszert (első rekordok, utolsó rekordok vagy véletlenszerű készlet), ahogyan az a képernyőképen látható:

Képernyőkép a Data Wrangler egyéni mintakérésről.

Összefoglaló statisztikák megtekintése

Amikor a Data Wrangler betöltődik, egy információs szalagcím jelenik meg az előnézeti rács felett. Ez a transzparens azt ismerteti, hogy a Spark DataFrame-ek ideiglenesen pandas-mintákká alakulnak, de az összes létrehozott kód végül PySparkmá lesz konvertálva. A Data Wrangler spark dataframe-en való használata nem különbözik a pandas DataFrame-eken való használattól. Az "Összefoglalás" panel leíró áttekintése a minta dimenzióira, hiányzó értékeire és egyebekre vonatkozó információkat jelenít meg. A Data Wrangler rács bármelyik oszlopának kijelölése arra kéri az "Összegzés" panelt, hogy frissítse és megjelenítse az adott oszlop leíró statisztikáit. A fejlécben minden oszlopra vonatkozó gyors elemzések is elérhetők.

Tipp.

Az oszlopspecifikus statisztikák és vizualizációk (mind az "Összegzés" panelen, mind az oszlopfejlécekben) az oszlop adattípusától függnek. Egy numerikus oszlop rögzített hisztogramja például csak akkor jelenik meg az oszlopfejlécben, ha az oszlop numerikus típusként van megjelenítve, ahogyan az a képernyőképen látható:

Képernyőkép a Data Wrangler megjelenítési rácsról és az Összegzés panelről.

Adattisztítási műveletek böngészése

Az adattisztítási lépések kereshető listája az "Operations" (Műveletek) panelen található. Az "Operations" (Műveletek) panelen az adattisztítási lépés kiválasztása arra kéri, hogy adjon meg egy céloszlopot vagy oszlopot, valamint minden szükséges paramétert a lépés végrehajtásához. Az oszlop numerikus skálázásának kéréséhez például új értéktartományra van szükség, ahogyan az a képernyőképen látható:

Képernyőkép a Data Wrangler Operations panelről.

Tipp.

Az egyes oszlopfejlécek menüjéből kisebb műveletek közül választhat, ahogyan az a képernyőképen látható:

Képernyőkép az oszlopfejléc menüjéből alkalmazható Data Wrangler-műveletről.

Műveletek előnézete és alkalmazása

A Data Wrangler megjelenítési rácsa automatikusan megtekinti egy kiválasztott művelet eredményeit, és a megfelelő kód automatikusan megjelenik a rács alatti panelen. Az előnézeti kód véglegesítéséhez válassza az "Alkalmaz" lehetőséget mindkét helyen. Az előnézeti kód törléséhez és egy új művelet kipróbálásához válassza az "Elvetés" lehetőséget a képernyőképen látható módon:

Képernyőkép egy folyamatban lévő Data Wrangler-műveletről.

A művelet alkalmazása után a Data Wrangler megjeleníti a rácsot és az összefoglaló statisztikákat, hogy tükrözze az eredményeket. A kód megjelenik a véglegesített műveletek futó listájában, amely a "Tisztítási lépések" panelen található, az alábbi képernyőképen látható módon:

Az alkalmazott Data Wrangler-műveletet bemutató képernyőkép.

Tipp.

A legutóbb alkalmazott lépést bármikor visszavonhatja. A "Tisztítási lépések" panelen egy kuka ikon jelenik meg, ha a kurzort a legutóbb alkalmazott lépés fölé viszi, ahogyan az a képernyőképen látható:

A visszavonható Data Wrangler-műveletet bemutató képernyőkép.

Ez a táblázat a Data Wrangler által jelenleg támogatott műveleteket foglalja össze:

Művelet Leírás
Rendezés Oszlop rendezése növekvő vagy csökkenő sorrendben
Szűrő Sorok szűrése egy vagy több feltétel alapján
Gyakori elérésű kód Hozzon létre új oszlopokat egy meglévő oszlop minden egyedi értékéhez, jelezve, hogy az értékek előfordulása vagy hiánya soronként
Egyforrós kód elválasztójellel Kategorikus adatok felosztása és gyorskódolása elválasztó használatával
Oszloptípus módosítása Oszlop adattípusának módosítása
Oszlop elvetése Egy vagy több oszlop törlése
Oszlop kijelölése Válasszon egy vagy több megtartandó oszlopot, és törölje a többit
Oszlop átnevezése Oszlop átnevezése
Hiányzó értékek elvetése Hiányzó értékeket tartalmazó sorok eltávolítása
Ismétlődő sorok elvetése Az összes olyan sor elvetése, amely egy vagy több oszlopban duplikált értékekkel rendelkezik
Hiányzó értékek kitöltése Cellák lecserélése hiányzó értékekre új értékre
Keresés és csere Cellák cseréje pontos egyező mintára
Csoportosítás oszlop és összesítés szerint Csoportosítás oszlopértékek és összesített eredmények szerint
Sávok térköze Szóköz eltávolítása a szöveg elejéről és végéről
Szöveg felosztása Oszlop felosztása több oszlopra felhasználó által definiált elválasztó alapján
Szöveg átalakítása kisbetűssé Szöveg átalakítása kisbetűssé
Szöveg átalakítása nagybetűssé Szöveg átalakítása NAGYBETŰssé
Minimális/maximális értékek méretezése Numerikus oszlop skálázása minimális és maximális érték között
Villámkitöltés Új oszlop automatikus létrehozása meglévő oszlopból származó példák alapján

A kijelző módosítása

Bármikor testre szabhatja a felületet a Data Wrangler megjelenítési rács fölött található eszköztár "Nézetek" lapjával. Ez elrejtheti vagy megjelenítheti a különböző paneleket a beállítások és a képernyőméret alapján, ahogyan az a képernyőképen látható:

Képernyőkép a Megjelenítési nézet testreszabására szolgáló Data Wrangler menüről.

Kód mentése és exportálása

A Data Wrangler megjelenítési rács feletti eszköztár a létrehozott kód mentési lehetőségeit tartalmazza. A kódot átmásolhatja a vágólapra, vagy exportálhatja a jegyzetfüzetbe függvényként. A Spark DataFrames esetében a pandas-mintán létrehozott összes kód le lesz fordítva a PySparkra, mielőtt az visszahelyezi a jegyzetfüzetbe. Mielőtt a Data Wrangler bezárul, az eszköz megjeleníti a lefordított PySpark-kód előnézetét, és lehetővé teszi a köztes pandas-kód exportálását is.

Tipp.

A Data Wrangler olyan kódot hoz létre, amely csak akkor lesz alkalmazva, ha manuálisan futtatja az új cellát, és nem írja felül az eredeti DataFrame-et, ahogyan az a képernyőképen látható:

Képernyőkép a kód exportálási lehetőségeiről a Data Wranglerben.

A kód a következő képernyőképen látható módon PySparkmá alakul:

Képernyőkép a PySpark előzetes verziójáról az exportálási kód kérésében a Data Wranglerben.

Ezután futtathatja az exportált kódot az alábbi képernyőképen látható módon:

Képernyőkép a Data Wrangler által a jegyzetfüzetben létrehozott kódról.