Zdieľať cez


Používanie funkcie Wrangler pre údaje v údajových prvkoch služby Spark

Data Wrangler, notebookový nástroj na prieskumné analýzy údajov, teraz podporuje údajové rámce Spark aj Pandas DataFrames. Okrem kódu v jazyku Python generuje kód v PySparku. Všeobecný prehľad údajového Wrangleru, ktorý sa venuje tomu, ako skúmať a transformovať údajové rámce pandas, nájdete v hlavnom kurze. V tomto kurze sa dozviete, ako používať službu Data Wrangler na skúmanie a transformáciu údajovýchframeov služby Spark.

Požiadavky

  • Získajte predplatné na Microsoft Fabric. Alebo si zaregistrujte bezplatnú skúšobnú verziu služby Microsoft Fabric.

  • Prihláste sa do služby Microsoft Fabric.

  • Pomocou prepínača skúseností v ľavej dolnej časti domovskej stránky sa prepnete na službu Fabric.

    Snímka obrazovky ponuky prepínača prostredí zobrazujúca, kde vybrať možnosť Dátová veda.

Obmedzenia

  • Vlastné operácie kódu sú v súčasnosti podporované len pre údajové rámce pandas.
  • Obrazovka Data Wrangler funguje najlepšie na veľkých monitoroch, aj keď môžete minimalizovať alebo skryť rôzne časti rozhrania, aby sa prispôsobili menším obrazovkám.

Spustenie údajov Wrangler s údajovým rámcom Spark

Používatelia môžu otvoriť údajové rámce služby Spark vo Wrangleri údajov priamo z notebooku služby Microsoft Fabric tak, že prejdú na rovnakú rozbaľovaciu ponuku, kde sa zobrazujú pandas DataFrames. V rozbaľovacom zozname pod zoznamom aktívnych premenných pandas sa zobrazí zoznam aktívnych údajových prvkov služby Spark.

Tento zlomok kódu vytvorí údajový rámec Spark DataFrame s rovnakými vzorovými údajmi, ktoré sa používajú v kurze Wrangler pandas data:

import pandas as pd

# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)

Na karte Domov v poznámkovom bloku použite príkaz rozbaľovacieho zoznamu služby Data Wrangler na prehľadávanie aktívnych údajových rámca, ktoré sú k dispozícii na úpravu. Vyberte ten, ktorý chcete otvoriť vo Wrangleri údajov.

Prepitné

Nie je možné otvoriť data Wrangler, zatiaľ čo jadro notebooku je zaneprázdnené. Spustiteľná bunka musí dokončiť vykonanie pred spustením Wranglera údajov, ako je to znázornené na tejto snímke obrazovky:

Snímka obrazovky zobrazujúca poznámkový blok služby Fabric s výzvou na rozbaľovací zoznam služby Data Wrangler.

Výber vlastných ukážok

Data Wrangler automaticky konvertuje údajové rámce Spark na vzorky Pandas z dôvodu výkonu. Všetok kód, ktorý nástroj vygeneruje, sa však nakoniec preloží do PySparku pri exportovaní späť do notebooku. Rovnako ako u každej pandas DataFrame, môžete prispôsobiť predvolenú vzorku. Ak chcete otvoriť vlastnú ukážku ľubovoľného aktívneho prvku DataFrame s Wranglerom údajov, v rozbaľovacom zozname vyberte možnosť Vybrať vlastnú ukážku, ako je to znázornené na tejto snímke obrazovky:

Snímka obrazovky zobrazujúca výzvu na rozbaľovací zoznam položky Data Wrangler s vyznačenou možnosťou vlastnej ukážky.

Tým sa spustí kontextové okno s možnosťami na určenie veľkosti požadovanej vzorky (počet riadkov) a metódy vzorkovania (prvé záznamy, posledné záznamy alebo náhodná množina), ako je znázornené na tejto snímke obrazovky:

Snímka obrazovky zobrazujúca výzvu s vlastnou ukážkou Data Wrangler.

Zobrazenie súhrnných štatistík

Po načítaní Wranglera údajov sa nad mriežkou ukážky zobrazí informačný banner. Tento pruh vysvetľuje, že údajové rámce Spark sa dočasne skonvertujú na vzorky pandas, ale všetky vygenerované kódy sa nakoniec skonvertujú do PySparku. Po tomto termíne sa použitie funkcie Wrangler údajov v údajových rámcoch služby Spark nelíši od jej používania v prvkoch DataFrames knižnice Pandas. Popisný prehľad na paneli Súhrn zobrazuje informácie o dimenziách vzorky, chýbajúcich hodnotách a ďalších. Výber ľubovoľného stĺpca v mriežke Data Wrangler vyzve panel Súhrn, aby sa aktualizovali a zobrazili popisné štatistiky daného konkrétneho stĺpca. Rýchle prehľady o každom stĺpci sú k dispozícii aj v jeho hlavičke.

Prepitné

Štatistiky a vizuály špecifické pre stĺpec (ako na paneli Súhrn, tak aj v hlavičkách stĺpcov) závisia od typu údajov stĺpca. Napríklad histogram obsahujúci rozdelenie číselného stĺpca sa zobrazí v hlavičke stĺpca iba v prípade, že stĺpec sa pretypuje ako číselný typ, ako je to znázornené na tejto snímke obrazovky:

Snímka obrazovky zobrazujúca mriežku zobrazenia služby Data Wrangler a panel Súhrn.

Prehľadávanie operácií čistenia údajov

Prehľadávateľný zoznam krokov na čistenie údajov možno nájsť na paneli Operácie. Výber kroku čistenia údajov na paneli Operácie vás vyzve, aby ste zadali cieľový stĺpec alebo stĺpce spolu so všetkými potrebnými parametrami na dokončenie kroku. Napríklad výzva na číselné škálovanie stĺpca vyžaduje nový rozsah hodnôt, ako je to znázornené na tejto snímke obrazovky:

Snímka obrazovky zobrazujúca panel Operácie s údajmi.

Prepitné

V ponuke jednotlivých hlavičiek stĺpcov môžete použiť menší výber operácií, ako je to znázornené na tejto snímke obrazovky:

Snímka obrazovky znázorňujúca operáciu Wrangler pre údaje, ktorú možno použiť v ponuke hlavičky stĺpca.

Ukážka a použitie operácií

Mriežka wrangleru údajov automaticky zobrazí ukážku výsledkov vybratej operácie a zodpovedajúci kód sa automaticky zobrazí na paneli pod mriežkou. Ukážkový kód potvrďte výberom možnosti Použiť na oboch miestach. Ak chcete zobraziť ukážku kódu a vyskúšať novú operáciu, vyberte položku Zrušiť, ako je to znázornené na tejto snímke obrazovky:

Snímka obrazovky znázorňujúca nedokončenú operáciu Data Wrangler.

Po použití operácie sa mriežka služby Data Wrangler zobrazí a aktualizujú sa súhrnné štatistiky, ktoré budú odrážať výsledky. Kód sa zobrazí v spustenom zozname spustených operácií, ktorý sa nachádza na paneli "Kroky čistenia", ako je to znázornené na tejto snímke obrazovky:

Snímka obrazovky znázorňujúca použitú operáciu Wranglera údajov.

Prepitné

Posledný použitý krok môžete kedykoľvek vrátiť späť. Ako môžete vidieť na tejto snímke obrazovky, na paneli "Kroky čistenia" sa zobrazí ikona koša, keď podržíte kurzor nad posledným použitým krokom:

Snímka obrazovky znázorňujúca operáciu Wranglera údajov, ktorú je možné vrátiť späť.

Táto tabuľka sumarizuje operácie, ktoré momentálne podporuje Wrangler:

Operácia Popis
Triediť Zoradenie stĺpca vo vzostupnom alebo zostupnom poradí
Filter Filtrovanie riadkov na základe jednej alebo viacerých podmienok
One-hot encode (kódovač one-hot) Vytvorte nové stĺpce pre každú jedinečnú hodnotu v existujúcom stĺpci, čo naznačuje prítomnosť alebo absenciu týchto hodnôt na riadok
Kód one-hot s oddeľovačom Rozdelenie a priradenie kategorických údajov s one-hotovým kódovaním pomocou oddeľovača
Zmena typu stĺpca Zmena typu údajov v stĺpci
Rozbaľovací stĺpec Odstránenie jedného alebo viacerých stĺpcov
Výber stĺpca Vyberte jeden alebo viac stĺpcov, ktoré chcete ponechať, a zvyšok odstráňte
Premenovanie stĺpca Premenovanie stĺpca
Zrušte chýbajúce hodnoty Odstránenie riadkov s chýbajúcimi hodnotami
Rozbaľovacia ponuka duplicitných riadkov Zrušte všetky riadky, ktoré majú duplicitné hodnoty v jednom alebo viacerých stĺpcoch
Vyplniť chýbajúce hodnoty Nahradenie buniek chýbajúcimi hodnotami novou hodnotou
Nájsť a nahradiť Nahraďte bunky presne rovnakým vzorom
Zoskupenie podľa stĺpca a agregátu Zoskupenie podľa hodnôt stĺpcov a agregované výsledky
Prázdne znaky pásu Odstránenie prázdneho znaku zo začiatku a konca textu
Rozdeliť text Rozdelenie stĺpca do niekoľkých stĺpcov na základe oddeľovača definovaného používateľom
Konverzia textu na malé písmená Konverzia textu na malé písmená
Konverzia textu na veľké písmená Konverzia textu na veľké písmená
Škálovanie minimálnych/maximálnych hodnôt Škálovanie číselného stĺpca medzi minimálnou a maximálnou hodnotou
Flash Fill Automaticky vytvoriť nový stĺpec na základe príkladov odvodených z existujúceho stĺpca

Úprava zobrazenia

Rozhranie môžete kedykoľvek prispôsobiť pomocou karty Zobrazenia na paneli s nástrojmi umiestnenom nad mriežkou zobrazenia Data Wrangler. Môžete skryť alebo zobraziť rôzne tably na základe predvolieb a veľkosti obrazovky, ako je to znázornené na tejto snímke obrazovky:

Snímka obrazovky znázorňujúca ponuku Data Wrangler na prispôsobenie zobrazenia zobrazenia.

Uloženie a export kódu

Panel s nástrojmi nad mriežkou zobrazenia Data Wrangler poskytuje možnosti na uloženie vygenerovaného kódu. Kód môžete skopírovať do Schránky alebo ho môžete exportovať do poznámkového bloku ako funkciu. Pre údajové rámce Spark sa všetok kód vygenerovaný v ukážke pandas preloží do PySparku predtým, ako sa vráti späť do notebooku. Pred zatvorení služby Data Wrangler nástroj zobrazí ukážku preloženého kódu PySpark a tiež poskytuje možnosť exportovať priebežný kód pandas.

Prepitné

Wrangler údajov vygeneruje kód, ktorý sa použije iba vtedy, keď manuálne spustíte novú bunku, a neprepíše pôvodný údajový rámec, ako je to znázornené na tejto snímke obrazovky:

Snímka obrazovky znázorňujúca možnosti exportu kódu vo Wrangleri údajov.

Kód sa skonvertuje do PySparku, ako je to znázornené na tejto snímke obrazovky:

Snímka obrazovky znázorňujúca ukážku PySparku v výzve na exportovanie kódu vo Wrangleri údajov.

Potom môžete spustiť tento exportovaný kód, ako je to znázornené na tejto snímke obrazovky:

Snímka obrazovky znázorňujúca kód vygenerovaný službou Data Wrangler v poznámkovom bloku.