Modul 2: Transformácia údajov pomocou toku údajov v službe Data Factory
Vytvorenie toku údajov, použitie transformácií a premiestnenie nespracovaných údajov z bronzovej tabuľky do tabuľky Gold Lakehouse trvá približne 25 minút.
Vďaka nespracovaným údajom načítaným do tabuľky Bronze Lakehouse z posledného modulu môžete teraz tieto údaje pripraviť a obohatiť ich tak, že ich skombinujete s inou tabuľkou, ktorá bude obsahovať zľavy pre každého dodávateľa a jeho cesty za určitý deň. Táto finálna tabuľka Gold Lakehouse je načítaná a pripravená na spotrebu.
Kroky vysokej úrovne v toku údajov sú nasledovné:
- Získanie nespracovaných údajov z tabuľky Lakehouse vytvorenej aktivitou Kopírovať v module 1 : Vytvorenie kanála pomocou služby Data Factory.
- Transformovať údaje importované z tabuľky Lakehouse.
- Pripojenie k súboru CSV, ktorý obsahuje údaje o zľavách.
- Transformovať údaje o zľavách.
- Kombinovať výlety a údaje o zľavách.
- Načítanie výstupného dotazu do tabuľky Gold Lakehouse.
Získanie údajov z tabuľky Lakehouse
Na bočnom paneli vyberte svoj pracovný priestor, vyberte položku Novej položky a potom tok údajov Gen2 a vytvorte nový tok údajov Gen2.
V novej ponuke toku údajov vyberte položky Získať údajea potom Viac....
Vyhľadajte a vyberte konektor Lakehouse.
Zobrazí sa dialógové okno Pripojiť k zdroju údajov a na základe aktuálne prihláseného používateľa sa automaticky vytvorí nové pripojenie. Vyberte položky Ďalšie.
Zobrazí sa dialógové okno Vybrať údaje . Pomocou navigačnej tably nájdite lakehouse, ktoré ste vytvorili pre cieľ v predchádzajúcom module, a vyberte tabuľku Tutorial_Lakehouse údajov.
(voliteľné) Po vyplnení údajov plátnom môžete nastaviť profilstĺpca, pretože je to užitočné pri profilovaní údajov. Môžete použiť správnu transformáciu a zacieliť na jej správne hodnoty údajov. Ak to chcete urobiť, na table na páse s nástrojmi vyberte Možnosti, potom vyberte prvé tri možnosti v časti profil stĺpeca potom vyberte položku OK.
Transformácia údajov importovaných z Lakehouse
Vyberte ikonu typu údajov v hlavičke stĺpca druhého stĺpca IpepPickupDatetime, čím sa zobrazí rozbaľovacia ponuka a výberom typu údajov z ponuky skonvertujte stĺpec dátumu a času na typu Dátum.
(voliteľné) Na karteDomov na páse s nástrojmi vyberte možnosť Vybrať stĺpce v skupineSpravovať stĺpce .(voliteľné) V dialógovom okneVybrať stĺpce zrušte výber niektorých stĺpcov, ktoré sú tu uvedené, a potom vyberte položky OK .- lpepDropoffDatetime
- puLocationId
- doLocationId
- pickupLatitude (fráza pickup)
- dropoffLongitude
- rateCodeID
Vyberte filtr obchodAndFwdFlag rozbaľovaciu ponuku filtra a zoradenia stĺpca. (Ak sa zobrazí upozorneniezoznam môže byť neúplný, výberom položky Načítať viac zobrazíte všetky údaje.)
Vyberte položku Y, aby sa zobrazili iba riadky, v ktorých sa použila zľava, a potom vyberte položku OK.
Vyberte rozbaľovaciu ponuku zoradenia a filtrovania IpepPickupDatetime, potom vyberte Filtre dátumua vyberte Medzi... filter zadaný pre typy dátumu a dátumu a času.
V dialógovom okne Filtrovanie riadkov vyberte dátumy medzi 1. januárom 2015 a 31. januárom 2015 a potom vyberte položku OK.
Pripojenie k súboru CSV, ktorý obsahuje údaje o zľave
Teraz chceme vďaka údajom z ciest na mieste načítať údaje, ktoré obsahujú príslušné zľavy na jednotlivé dni, a údaje VendorID pripraviť pred ich kombinovaním s údajmi o cestách.
Na karte Domov v ponuke editora toku údajov vyberte možnosť Získať údaje a potom vyberte Text/CSV.
V dialógovom okne Pripojenie k zdroju údajov uveďte nasledujúce podrobnosti:
-
cesta k súboru alebo URL adresa -
https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
- typ overenia – Anonymné
Potom vyberte Ďalšie.
-
cesta k súboru alebo URL adresa -
V dialógovom okne Ukážka údajov súboru vyberte položky Vytvoriť.
Transformácia údajov o zľave
Pri kontrole údajov vidíme, že hlavičky sa nachádzajú v prvom riadku. Zvýšte ich úroveň na hlavičky výberom kontextovej ponuky tabuľky v ľavom hornom rohu oblasti mriežky ukážky a vyberte položky Použiť prvý riadok ako hlavičky.
Nota
Po uprednosti hlavičiek sa v Použité kroky v hornej časti editora toku údajov zobrazí nový krok pridaný do typov údajov vašich stĺpcov.
Kliknite pravým tlačidlom myši na stĺpec
VendorID a v zobrazenej kontextovej ponuke vyberte možnosť Zrušiť kontingenčnosť ostatných stĺpcov . Vďaka tomu môžete transformovať stĺpce na páry atribút-hodnota, kde sa stĺpce stávajú riadkami.Premenujte stĺpce
Attribute a Value tak, že na ne dvakrát kliknete a zmeníteAttribute (Atribút) na date aValue naDiscount .Zmeňte typ údajov stĺpca Dátum výberom ponuky Typ údajov naľavo od názvu stĺpca a výberom položky Dátum.
Vyberte stĺpec Discount a potom v ponuke vyberte kartu Transformovať. Vyberte stĺpec Čísloa potom z vedľajšejmeny vyberte položku Štandardné číselné transformácie a potom vyberte Rozdeľte.
V dialógovom okne Divide zadajte hodnotu 100.
Kombinovanie údajov o cestách a zľavách
Ďalším krokom je skombinovanie oboch tabuliek do jednej tabuľky, ktorá má zľavu, ktorá by sa mala použiť na cestu, a upravený súčet.
Najprv prepnite zobrazenie diagramu tlačidlo, aby ste mohli zobraziť oba dotazy.
Vyberte dotaz nyc_taxi a na karte Domov vyberte ponuku Skombinovať a potom Zlúčiť dotazya Zlúčiť dotazy ako nové.
V dialógovom okne Zlúčiť vyberte Generated-NYC-Taxi-Green-Discounts z tabuľky Vpravo na zlúčenie rozbaľovací zoznam, a potom vyberte ikonu "žiarovka" v pravej hornej časti dialógového okna, aby ste videli navrhované mapovanie stĺpcov medzi oboma tabuľkami.
Vyberte každé z dvoch navrhovaných priradení stĺpcov, po jednom a priradenie stĺpcov VendorID (ID Dodávateľa) a Date (Dátum) z oboch tabuliek. Po pridaní oboch priradení sa v každej tabuľke zvýraznia zhodné hlavičky stĺpcov.
Zobrazí sa správa s výzvou na povolenie kombinovania údajov z viacerých zdrojov údajov na zobrazenie výsledkov. V dialógovom okne Zlúčiť vyberte položku OK.
V oblasti tabuľky sa najskôr zobrazí upozornenie, že "Vyhodnotenie bolo zrušené, pretože kombinovanie údajov z viacerých zdrojov môže odhaliť údaje z jedného zdroja do druhého. Ak je možnosť odhaľovania údajov v poriadku, vyberte možnosť pokračovať." Kombinované údaje zobrazíte výberom položky Pokračovať.
Všimnite si, ako sa v zobrazení diagramu vytvoril nový dotaz zobrazujúci vzťah nového zlučovacieho dotazu s dvoma dotazmi, ktoré ste predtým vytvorili. Pri pohľade na tablu tabuľky editora sa posuňte napravo od zoznamu stĺpcov Zlúčiť dotaz, aby sa zobrazil nový stĺpec s hodnotami tabuľky. Jedná sa o "Generované NYC Taxi-Green-Zľavy" stĺpec, a jeho typ je [tabuľka]. V hlavičke stĺpca sa nachádza ikona s dvoma šípkami, ktorá sa nachádza v opačných smeroch a umožňuje vám vybrať stĺpce z tabuľky. Zrušte výber všetkých stĺpcov okrem Discounta potom vyberte položku OK.
S hodnotou zľavy teraz na úrovni riadka môžeme vytvoriť nový stĺpec na výpočet celkovej sumy po zľave. Urobíte to tak, že v hornej časti editora vyberiete kartu
Pridať stĺpec a v skupineVšeobecné vyberieteVlastný stĺpec. V dialógovom okne vlastný stĺpec
môžete použiť jazyk vzorcov Power Query (známy aj ako M) na definovanie spôsobu výpočtu nového stĺpca. ZadajteTotalAfterDiscount preNázov nového stĺpca , pre typúdajov vyberte Mena a zadajte nasledujúci výraz jazyka M pre vzorec Vlastné stĺpce :ak [totalAmount] > 0, potom [totalAmount] * ( 1 -[Discount] ) else [totalAmount]
Potom vyberte OK.
Vyberte novovytvorené stĺpci TotalAfterDiscount a potom v hornej časti okna editora vyberte kartu Transformovať. V skupine stĺpca
Number (Číslo) vyberte rozbaľovaciu ponuku Rounding (Zaokrúhlenie) a potom vyberte položku Zaokrúhliť... .V dialógovom okne Zaokrúhliťzadajte pre počet desatinných miest číslo 2 a potom vyberte OK.
Zmeňte typ údajov položky IpepPickupDatetime z možnosti Dátum na Dátum a čas.
Nakoniec rozbaľte nastavenia Nastavenia dotazu table na pravej strane editora, ak ešte nie je rozbalená, a premenujte dotaz z Zlúčiť do Output.
Načítanie výstupného dotazu do tabuľky v službe Lakehouse
Keďže výstupný dotaz je teraz plne pripravený a obsahuje údaje pripravené na výstup, môžeme definovať výstupný cieľ dotazu.
Vyberte dotaz Output zlúčiť dotaz, ktorý ste vytvorili predtým. Potom v editore vyberte kartu Domov a Pridajte cieľové údajov zo zoskupenia Query a vyberte cieľ Lakehouse.
V dialógovom okne Pripojiť k cieľoviu údajov by už malo byť vybraté pripojenie. Pokračujte výberom položky Ďalšie.
V dialógovom okne Vybrať cieľový cieľ
vyberte položku Lakehouse, kde chcete načítať údaje a pomenujte novú tabuľku nyc_taxi_with_discounts , a potom znova vyberte položkuĎalej .V dialógovom okne Vybrať cieľové nastavenia ponechajte predvolenú Možnosť Nahradiť metódu aktualizácie, dvakrát skontrolujte, či sú stĺpce správne mapované, a vyberte položky Uložiť nastavenia.
Vráťte sa do hlavného okna editora a potvrďte, že sa cieľ výstupu zobrazuje na table Nastavenia dotazu pre tabuľku Output a potom vyberte položky Publikovať.
Dôležitý
Keď sa v pracovnom priestore vytvorí prvý tok údajov Gen2, položky Lakehouse a Warehouse sa poskytujú spolu s ich súvisiacimi koncovými bodmi a sémantickými modelmi analýzy SQL. Tieto položky sú zdieľané všetkými tokmi údajov v pracovnom priestore a sú povinné, aby tok údajov Gen2 fungoval, nemal by sa odstrániť a nie je určený na priame použitie používateľmi. Položky sú podrobnou implementáciou toku údajov Gen2. Položky nie sú viditeľné v pracovnom priestore, ale môžu byť dostupné v iných prostrediach, ako napríklad v notebooku, koncovom bode SQL, prostredí Lakehouse a Warehouse. Položky môžete rozpoznať podľa ich predpony v názve. Predponou položiek je DataflowsStaging (Toky údajov).
(voliteľné). Na stránke pracovného priestoru môžete tok údajov premenovať výberom troch bodiek napravo od názvu toku údajov, ktoré sa zobrazí po výbere riadka a výberom položky Vlastnosti.
Po výbere riadka vyberte ikonu obnovenia pre tok údajov. Po dokončení by sa mala zobraziť nová tabuľka Lakehouse vytvorená tak, ako je nakonfigurovaná v nastaveniach Data destination.
Pozrite si svoj lakehouse a pozrite si novú tabuľku načítanú tam.
Súvisiaci obsah
V druhom module nášho komplexného kurzu o vašej prvej integrácii údajov pomocou služby Data Factory v službe Microsoft Fabric ste sa dozvedeli, ako:
- Vytvorte nový tok údajov Gen2.
- Importovať a transformovať vzorové údaje.
- Importovať a transformovať textové/CSV údaje.
- Zlúčenie údajov z oboch zdrojov údajov do nového dotazu.
- Transformovať údaje a generovať nové stĺpce v dotaze.
- Nakonfigurujte výstupný cieľový zdroj pre dotaz.
- Premenujte a obnovte nový tok údajov.
Prejdite na ďalšiu časť a integrujte svoj údajový kanál.