Ako zrýchliť prípravu údajov pomocou služby Data Wrangler v službe Microsoft Fabric

Článok
08/14/2024

Nástroj Data Wrangler je notebookový zdroj, ktorý poskytuje pôsobivé rozhranie na prieskumnú analýzu údajov. Kombinuje zobrazenie údajov mriežky s dynamickými súhrnnými štatistikami, vstavanými vizualizáciami a knižnicou bežných operácií čistenia údajov. Každú operáciu môžete použiť pomocou niekoľkých krokov. Môžete aktualizovať zobrazenie údajov v reálnom čase, a generovať kód v pandas alebo PySpark, ktoré môžete uložiť späť do notebooku ako opakovane použiteľné funkcie. Tento článok sa zameriava na skúmanie a transformáciu údajových rámca pandas. Ďalšie informácie o používaní služby Data Wrangler v údajových rámcoch služby Spark nájdete v tomto zdroji.

Požiadavky

Získajte predplatné na Microsoft Fabric. Alebo si zaregistrujte bezplatnú skúšobnú verziu služby Microsoft Fabric.
Prihláste sa do služby Microsoft Fabric.
Pomocou prepínača skúseností v ľavej dolnej časti domovskej stránky sa prepnete na službu Fabric.

Obmedzenia

Vlastné operácie kódu sú v súčasnosti podporované len pre údajové rámce pandas.
Obrazovka Data Wrangler funguje najlepšie na veľkých monitoroch, aj keď môžete minimalizovať alebo skryť rôzne časti rozhrania, aby sa prispôsobili menším obrazovkám.

Spustenie údajov Wrangler

Službu Data Wrangler môžete spustiť priamo z poznámkového bloku služby Microsoft Fabric, aby ste mohli preskúmať a transformovať pandas alebo Spark DataFrame. Ďalšie informácie o používaní služby Data Wrangler s údajovými prvkami Spark nájdete v tomto doplnkovom článku. Tento zlomok kódu ukazuje, ako čítať vzorové údaje do údajového rámca Pandas:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Na karte Domov na páse s nástrojmi poznámkového bloku použite výzvu rozbaľovacieho zoznamu služby Data Wrangler na prehľadávanie aktívnych položiek DataFrames, ktoré sú k dispozícii na úpravy. Vyberte ten, ktorý chcete otvoriť vo Wrangleri údajov.

Prepitné

Nie je možné otvoriť data Wrangler, zatiaľ čo jadro notebooku je zaneprázdnené. Spustiteľná bunka musí dokončiť vykonanie pred spustením Wranglera údajov, ako je to znázornené na tejto snímke obrazovky:

Výber vlastných ukážok

Ak chcete otvoriť vlastnú ukážku ľubovoľného aktívneho prvku DataFrame s Wranglerom údajov, v rozbaľovacom zozname vyberte možnosť Vybrať vlastnú ukážku, ako je to znázornené na tejto snímke obrazovky:

Tým sa spustí kontextové okno s možnosťami na určenie veľkosti požadovanej vzorky (počet riadkov) a metódy vzorkovania (prvé záznamy, posledné záznamy alebo náhodná množina). Prvých 5 000 riadkov prvku DataFrame slúži ako predvolená veľkosť vzorky, ako je to znázornené na tejto snímke obrazovky:

Zobrazenie súhrnných štatistík

Pri načítaní Wranglera údajov sa zobrazí popisný prehľad vybratého prvku údajového rámca na paneli Súhrn. Tento prehľad obsahuje informácie o dimenziách údajového rámca, chýbajúce hodnoty a ďalšie informácie. Výber ľubovoľného stĺpca v mriežke Data Wrangler vyzve panel Súhrn, aby sa aktualizovali a zobrazili popisné štatistiky daného konkrétneho stĺpca. Rýchle prehľady o každom stĺpci sú k dispozícii aj v jeho hlavičke.

Prepitné

Štatistiky a vizuály špecifické pre stĺpec (ako na paneli Súhrn, tak aj v hlavičkách stĺpcov) závisia od typu údajov stĺpca. Napríklad histogram rozdelenia číselného stĺpca sa zobrazí v hlavičke stĺpca iba vtedy, ak sa stĺpec pretypuje ako číselný typ, ako je to znázornené na tejto snímke obrazovky:

Prehľadávanie operácií čistenia údajov

Prehľadávateľný zoznam krokov na čistenie údajov možno nájsť na paneli Operácie. Výber kroku čistenia údajov na paneli Operácie vás vyzve, aby ste zadali cieľový stĺpec alebo stĺpce spolu so všetkými potrebnými parametrami na dokončenie kroku. Napríklad výzva na číselné škálovanie stĺpca vyžaduje nový rozsah hodnôt, ako je to znázornené na tejto snímke obrazovky:

Prepitné

V ponuke jednotlivých hlavičiek stĺpcov môžete použiť menší výber operácií, ako je to znázornené na tejto snímke obrazovky:

Ukážka a použitie operácií

Mriežka wrangleru údajov automaticky zobrazí ukážku výsledkov vybratej operácie a zodpovedajúci kód sa automaticky zobrazí na paneli pod mriežkou. Ukážkový kód potvrďte výberom možnosti Použiť na oboch miestach. Ak chcete zobraziť ukážku kódu a vyskúšať novú operáciu, vyberte položku Zrušiť, ako je to znázornené na tejto snímke obrazovky:

Po použití operácie sa mriežka služby Data Wrangler zobrazí a aktualizujú sa súhrnné štatistiky, ktoré budú odrážať výsledky. Kód sa zobrazí v spustenom zozname spustených operácií, ktorý sa nachádza na paneli "Kroky čistenia", ako je to znázornené na tejto snímke obrazovky:

Prepitné

Posledný použitý krok môžete kedykoľvek vrátiť späť. Ako môžete vidieť na tejto snímke obrazovky, na paneli "Kroky čistenia" sa zobrazí ikona koša, keď podržíte kurzor nad posledným použitým krokom:

Táto tabuľka sumarizuje operácie, ktoré momentálne podporuje Wrangler:

Operácia	Popis
Triediť	Zoradenie stĺpca vo vzostupnom alebo zostupnom poradí
Filter	Filtrovanie riadkov na základe jednej alebo viacerých podmienok
One-hot encode (kódovač one-hot)	Vytvorte nové stĺpce pre každú jedinečnú hodnotu v existujúcom stĺpci, čo naznačuje prítomnosť alebo absenciu týchto hodnôt na riadok
Kód one-hot s oddeľovačom	Rozdelenie a priradenie kategorických údajov s one-hotovým kódovaním pomocou oddeľovača
Zmena typu stĺpca	Zmena typu údajov v stĺpci
Rozbaľovací stĺpec	Odstránenie jedného alebo viacerých stĺpcov
Výber stĺpca	Vyberte jeden alebo viac stĺpcov, ktoré chcete ponechať, a zvyšok odstráňte
Premenovanie stĺpca	Premenovanie stĺpca
Zrušte chýbajúce hodnoty	Odstránenie riadkov s chýbajúcimi hodnotami
Rozbaľovacia ponuka duplicitných riadkov	Zrušte všetky riadky, ktoré majú duplicitné hodnoty v jednom alebo viacerých stĺpcoch
Vyplniť chýbajúce hodnoty	Nahradenie buniek chýbajúcimi hodnotami novou hodnotou
Nájsť a nahradiť	Nahraďte bunky presne rovnakým vzorom
Zoskupenie podľa stĺpca a agregátu	Zoskupenie podľa hodnôt stĺpcov a agregované výsledky
Prázdne znaky pásu	Odstránenie prázdneho znaku zo začiatku a konca textu
Rozdeliť text	Rozdelenie stĺpca do niekoľkých stĺpcov na základe oddeľovača definovaného používateľom
Konverzia textu na malé písmená	Konverzia textu na malé písmená
Konverzia textu na veľké písmená	Konverzia textu na veľké písmená
Škálovanie minimálnych/maximálnych hodnôt	Škálovanie číselného stĺpca medzi minimálnou a maximálnou hodnotou
Flash Fill	Automaticky vytvoriť nový stĺpec na základe príkladov odvodených z existujúceho stĺpca

Úprava zobrazenia

Rozhranie môžete kedykoľvek prispôsobiť pomocou karty Zobrazenia na paneli s nástrojmi umiestnenom nad mriežkou zobrazenia Data Wrangler. Môžete skryť alebo zobraziť rôzne tably na základe predvolieb a veľkosti obrazovky, ako je to znázornené na tejto snímke obrazovky:

Uloženie a export kódu

Panel s nástrojmi nad mriežkou zobrazenia Data Wrangler poskytuje možnosti na uloženie vygenerovaného kódu. Kód môžete skopírovať do Schránky alebo ho môžete exportovať do poznámkového bloku ako funkciu. Exportom kódu sa zatvorí data Wrangler a pridá sa nová funkcia do bunky kódu v notebooku. Vyčistený údajový rámec si môžete stiahnuť aj ako súbor CSV.

Prepitné

Wrangler údajov vygeneruje kód, ktorý sa použije iba vtedy, keď manuálne spustíte novú bunku, a neprepíše pôvodný údajový rámec, ako je to znázornené na tejto snímke obrazovky:

Potom môžete spustiť tento exportovaný kód, ako je to znázornené na tejto snímke obrazovky:

Ak si chcete vyskúšať službu Wrangler o údajovýchframesoch služby Spark, pozrite si tento doplnkový článok.
Na live-akcie demo data Wrangler v fabric, pozrite si toto video od našich priateľov na Guy in a Cube
Ak chcete vyskúšať službu Data Wrangler v programe Visual Studio Code, prejdite na položku Data Wrangler v nástroji VS Code.
Chýbala vám funkcia, ktorú potrebujete? Dajte nám vedieť! Navrhnite ho na fóre Fabric Ideas

Zdieľať cez

Ako zrýchliť prípravu údajov pomocou služby Data Wrangler v službe Microsoft Fabric

Požiadavky

Obmedzenia

Spustenie údajov Wrangler

Výber vlastných ukážok

Zobrazenie súhrnných štatistík

Prehľadávanie operácií čistenia údajov

Ukážka a použitie operácií

Úprava zobrazenia

Uloženie a export kódu

Pripomienky

Ďalšie zdroje informácií

Zdieľať cez

Ako zrýchliť prípravu údajov pomocou služby Data Wrangler v službe Microsoft Fabric

Požiadavky

Obmedzenia

Spustenie údajov Wrangler

Výber vlastných ukážok

Zobrazenie súhrnných štatistík

Prehľadávanie operácií čistenia údajov

Ukážka a použitie operácií

Úprava zobrazenia

Uloženie a export kódu

Súvisiaci obsah

Pripomienky

Ďalšie zdroje informácií