Zdieľať cez


Modul 2: Transformácia údajov pomocou toku údajov v službe Data Factory

Vytvorenie toku údajov, použitie transformácií a premiestnenie nespracovaných údajov z bronzovej tabuľky do tabuľky Gold Lakehouse trvá približne 25 minút.

Vďaka nespracovaným údajom načítaným do tabuľky Bronze Lakehouse z posledného modulu môžete teraz tieto údaje pripraviť a obohatiť ich tak, že ich skombinujete s inou tabuľkou, ktorá bude obsahovať zľavy pre každého dodávateľa a jeho cesty za určitý deň. Táto finálna tabuľka Gold Lakehouse je načítaná a pripravená na spotrebu.

Kroky vysokej úrovne v toku údajov sú nasledovné:

  • Získanie nespracovaných údajov z tabuľky Lakehouse vytvorenej aktivitou Kopírovať v module 1 : Vytvorenie kanála pomocou služby Data Factory.
  • Transformovať údaje importované z tabuľky Lakehouse.
  • Pripojenie k súboru CSV, ktorý obsahuje údaje o zľavách.
  • Transformovať údaje o zľavách.
  • Kombinovať výlety a údaje o zľavách.
  • Načítanie výstupného dotazu do tabuľky Gold Lakehouse.

Získanie údajov z tabuľky Lakehouse

  1. Na bočnom paneli vyberte svoj pracovný priestor, vyberte položku Novej položky a potom tok údajov Gen2 a vytvorte nový tok údajov Gen2. Snímka obrazovky zobrazujúca stránku Vytvorenie služby Fabric so zvýrazneným tlačidlom Tok údajov Gen2.

  2. V novej ponuke toku údajov vyberte položky Získať údajea potom Viac....

    Snímka obrazovky zobrazujúca ponuku toku údajov so zvýrazneným tlačidlom Získať údaje a ponukou Viac... zvýraznená z ponuky.

  3. Vyhľadajte a vyberte konektor Lakehouse.

    Snímka obrazovky zobrazujúca výber zdroja údajov Lakehouse v ponuke Vybrať zdroj údajov.

  4. Zobrazí sa dialógové okno Pripojiť k zdroju údajov a na základe aktuálne prihláseného používateľa sa automaticky vytvorí nové pripojenie. Vyberte položky Ďalšie.

    Snímka obrazovky znázorňujúca konfiguráciu nastavení zdroja údajov pre váš nový lakehouse s aktuálne prihláseného používateľa a vybratým tlačidlom Ďalej.

  5. Zobrazí sa dialógové okno Vybrať údaje . Pomocou navigačnej tably nájdite lakehouse, ktoré ste vytvorili pre cieľ v predchádzajúcom module, a vyberte tabuľku Tutorial_Lakehouse údajov.

    Snímka obrazovky zobrazujúca prehliadač Lakehouse s pracovným priestorom, jazerom a tabuľkou vytvorenou pomocou aktivity Kopírovať v module 1.

  6. (voliteľné) Po vyplnení údajov plátnom môžete nastaviť profil stĺpca, pretože je to užitočné pri profilovaní údajov. Môžete použiť správnu transformáciu a zacieliť na jej správne hodnoty údajov.

    Ak to chcete urobiť, na table na páse s nástrojmi vyberte Možnosti, potom vyberte prvé tri možnosti v časti profil stĺpeca potom vyberte položku OK.

    Snímka obrazovky zobrazujúca výber možností stĺpca pre vaše údaje.

Transformácia údajov importovaných z Lakehouse

  1. Vyberte ikonu typu údajov v hlavičke stĺpca druhého stĺpca IpepPickupDatetime, čím sa zobrazí rozbaľovacia ponuka a výberom typu údajov z ponuky skonvertujte stĺpec dátumu a času na typu Dátum. Snímka obrazovky zobrazujúca výber typu údajov Dátum pre stĺpec IpepPickupDatetime.

  2. (voliteľné) Na karte Domov na páse s nástrojmi vyberte možnosť Vybrať stĺpce v skupine Spravovať stĺpce.

    Snímka obrazovky zobrazujúca tlačidlo Vybrať stĺpce na karte Domov v editore toku údajov.

  3. (voliteľné) V dialógovom okne Vybrať stĺpce zrušte výber niektorých stĺpcov, ktoré sú tu uvedené, a potom vyberte položky OK.

    • lpepDropoffDatetime
    • puLocationId
    • doLocationId
    • pickupLatitude (fráza pickup)
    • dropoffLongitude
    • rateCodeID

    Snímka obrazovky zobrazujúca dialógové okno Vybrať stĺpce so zrušeným výberom identifikovaných stĺpcov.

  4. Vyberte filtr obchodAndFwdFlag rozbaľovaciu ponuku filtra a zoradenia stĺpca. (Ak sa zobrazí upozorneniezoznam môže byť neúplný, výberom položky Načítať viac zobrazíte všetky údaje.)

    Snímka obrazovky zobrazujúca dialógové okno filtra a zoradenia stĺpca.

  5. Vyberte položku Y, aby sa zobrazili iba riadky, v ktorých sa použila zľava, a potom vyberte položku OK.

    Snímka obrazovky zobrazujúca filter hodnôt s vybratou hodnotou Y.

  6. Vyberte rozbaľovaciu ponuku zoradenia a filtrovania IpepPickupDatetime, potom vyberte Filtre dátumua vyberte Medzi... filter zadaný pre typy dátumu a dátumu a času.

    Snímka obrazovky zobrazujúca výber možnosti Filtre dátumov v rozbaľovacom zozname zoradenia a formátovania stĺpcov.

  7. V dialógovom okne Filtrovanie riadkov vyberte dátumy medzi 1. januárom 2015 a 31. januárom 2015 a potom vyberte položku OK.

    Snímka obrazovky zobrazujúca výber dátumov v januári 2015.

Pripojenie k súboru CSV, ktorý obsahuje údaje o zľave

Teraz chceme vďaka údajom z ciest na mieste načítať údaje, ktoré obsahujú príslušné zľavy na jednotlivé dni, a údaje VendorID pripraviť pred ich kombinovaním s údajmi o cestách.

  1. Na karte Domov v ponuke editora toku údajov vyberte možnosť Získať údaje a potom vyberte Text/CSV.

    Snímka obrazovky zobrazujúca výber ponuky Získať údaje na karte Domov so zvýraznenou položkou Text/CSV.

  2. V dialógovom okne Pripojenie k zdroju údajov uveďte nasledujúce podrobnosti:

    • cesta k súboru alebo URL adresa - https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
    • typ overenia – Anonymné

    Potom vyberte Ďalšie.

    Snímka obrazovky zobrazujúca nastavenia Textu/CSV pre pripojenie.

  3. V dialógovom okne Ukážka údajov súboru vyberte položky Vytvoriť.

    Snímka obrazovky znázorňujúca dialógové okno Ukážka údajov súboru so zvýrazneným tlačidlom Vytvoriť.

Transformácia údajov o zľave

  1. Pri kontrole údajov vidíme, že hlavičky sa nachádzajú v prvom riadku. Zvýšte ich úroveň na hlavičky výberom kontextovej ponuky tabuľky v ľavom hornom rohu oblasti mriežky ukážky a vyberte položky Použiť prvý riadok ako hlavičky.

    Snímka obrazovky zobrazujúca výber možnosti Použiť prvý riadok ako hlavičky v kontextovej ponuke tabuľky.

    Nota

    Po uprednosti hlavičiek sa v Použité kroky v hornej časti editora toku údajov zobrazí nový krok pridaný do typov údajov vašich stĺpcov.

  2. Kliknite pravým tlačidlom myši na stĺpec VendorID a v zobrazenej kontextovej ponuke vyberte možnosť Zrušiť kontingenčnosť ostatných stĺpcov. Vďaka tomu môžete transformovať stĺpce na páry atribút-hodnota, kde sa stĺpce stávajú riadkami.

    Snímka obrazovky zobrazujúca kontextovú ponuku pre stĺpec VendorID (ID dodávateľa) so zvýrazneným výberom položky Zrušiť kontingencnosť ostatných stĺpcov.

  3. Premenujte stĺpce Attribute a Value tak, že na ne dvakrát kliknete a zmeníte Attribute (Atribút) na date a Value na Discount.

    Snímka obrazovky zobrazujúca stĺpce tabuľky po premenovaní položky Atribút na Dátum a Hodnota na Discount (Zľava).

  4. Zmeňte typ údajov stĺpca Dátum výberom ponuky Typ údajov naľavo od názvu stĺpca a výberom položky Dátum.

    Snímka obrazovky zobrazujúca výber typu údajov Dátum pre stĺpec Dátum.

  5. Vyberte stĺpec Discount a potom v ponuke vyberte kartu Transformovať. Vyberte stĺpec Čísloa potom z vedľajšejmeny vyberte položku Štandardné číselné transformácie a potom vyberte Rozdeľte.

    Snímka obrazovky zobrazujúca výber možnosti Rozdeľovať na transformáciu údajov v stĺpci Discount (Zľava).

  6. V dialógovom okne Divide zadajte hodnotu 100.

    Snímka obrazovky znázorňujúca dialógové okno Delenie so zadanou hodnotou 100 a zvýrazneným tlačidlom OK.

Kombinovanie údajov o cestách a zľavách

Ďalším krokom je skombinovanie oboch tabuliek do jednej tabuľky, ktorá má zľavu, ktorá by sa mala použiť na cestu, a upravený súčet.

  1. Najprv prepnite zobrazenie diagramu tlačidlo, aby ste mohli zobraziť oba dotazy.

    Snímka obrazovky zobrazujúca tlačidlo prepínania zobrazenia diagramu s oboma dotazmi vytvorenými v tomto kurze.

  2. Vyberte dotaz nyc_taxi a na karte Domov vyberte ponuku Skombinovať a potom Zlúčiť dotazya Zlúčiť dotazy ako nové.

    Snímka obrazovky znázorňujúca možnosť Zlúčiť dotazy ako nový výber pre nyc_taxi dotaz.

  3. V dialógovom okne Zlúčiť vyberte Generated-NYC-Taxi-Green-Discounts z tabuľky Vpravo na zlúčenie rozbaľovací zoznam, a potom vyberte ikonu "žiarovka" v pravej hornej časti dialógového okna, aby ste videli navrhované mapovanie stĺpcov medzi oboma tabuľkami.

    Snímka obrazovky zobrazujúca konfiguráciu dialógového okna Zlúčiť so zobrazenými navrhovanými priradeniami stĺpcov.

    Vyberte každé z dvoch navrhovaných priradení stĺpcov, po jednom a priradenie stĺpcov VendorID (ID Dodávateľa) a Date (Dátum) z oboch tabuliek. Po pridaní oboch priradení sa v každej tabuľke zvýraznia zhodné hlavičky stĺpcov.

  4. Zobrazí sa správa s výzvou na povolenie kombinovania údajov z viacerých zdrojov údajov na zobrazenie výsledkov. V dialógovom okne Zlúčiť vyberte položku OK.

    Snímka obrazovky znázorňujúca žiadosť o schválenie a kombinovanie údajov z viacerých zdrojov údajov so zvýrazneným tlačidlom OK.

  5. V oblasti tabuľky sa najskôr zobrazí upozornenie, že "Vyhodnotenie bolo zrušené, pretože kombinovanie údajov z viacerých zdrojov môže odhaliť údaje z jedného zdroja do druhého. Ak je možnosť odhaľovania údajov v poriadku, vyberte možnosť pokračovať." Kombinované údaje zobrazíte výberom položky Pokračovať.

    Snímka obrazovky zobrazujúca upozornenie na kombinovanie údajov z viacerých zdrojov údajov so zvýrazneným tlačidlom Pokračovať.

  6. Všimnite si, ako sa v zobrazení diagramu vytvoril nový dotaz zobrazujúci vzťah nového zlučovacieho dotazu s dvoma dotazmi, ktoré ste predtým vytvorili. Pri pohľade na tablu tabuľky editora sa posuňte napravo od zoznamu stĺpcov Zlúčiť dotaz, aby sa zobrazil nový stĺpec s hodnotami tabuľky. Jedná sa o "Generované NYC Taxi-Green-Zľavy" stĺpec, a jeho typ je [tabuľka]. V hlavičke stĺpca sa nachádza ikona s dvoma šípkami, ktorá sa nachádza v opačných smeroch a umožňuje vám vybrať stĺpce z tabuľky. Zrušte výber všetkých stĺpcov okrem Discounta potom vyberte položku OK.

    Snímka obrazovky zobrazujúca zlúčený dotaz s ponukou výberu stĺpca zobrazenou pre novovygenerovaný stĺpec Generated-NYC-Taxi-Green-Discounts.

  7. S hodnotou zľavy teraz na úrovni riadka môžeme vytvoriť nový stĺpec na výpočet celkovej sumy po zľave. Urobíte to tak, že v hornej časti editora vyberiete kartu Pridať stĺpec a v skupine Všeobecné vyberiete Vlastný stĺpec.

    Snímka obrazovky znázorňujúca tlačidlo Pridať vlastný stĺpec zvýraznené v časti Všeobecné na karte Pridať stĺpec.

  8. V dialógovom okne vlastný stĺpec môžete použiť jazyk vzorcov Power Query (známy aj ako M) na definovanie spôsobu výpočtu nového stĺpca. Zadajte TotalAfterDiscount pre Názov nového stĺpca, pre typúdajov vyberte Mena a zadajte nasledujúci výraz jazyka M pre vzorec Vlastné stĺpce:

    ak [totalAmount] > 0, potom [totalAmount] * ( 1 -[Discount] ) else [totalAmount]

    Potom vyberte OK.

    Snímka obrazovky zobrazujúca obrazovku konfigurácie vlastného stĺpca so zvýraznenými vzorcami Nový názov stĺpca, Typ údajov a Vlastný vzorec stĺpca.

  9. Vyberte novovytvorené stĺpci TotalAfterDiscount a potom v hornej časti okna editora vyberte kartu Transformovať. V skupine stĺpca Number (Číslo) vyberte rozbaľovaciu ponuku Rounding (Zaokrúhlenie ) a potom vyberte položku Zaokrúhliť....

    Snímka obrazovky zobrazujúca kolo... možnosť na karte Transformovať v okne editora.

  10. V dialógovom okne Zaokrúhliťzadajte pre počet desatinných miest číslo 2 a potom vyberte OK.

    Snímka obrazovky zobrazujúca dialógové okno Zaokrúhliť s číslom 2 pre počet desatinných miest a zvýraznené tlačidlo OK.

  11. Zmeňte typ údajov položky IpepPickupDatetime z možnosti Dátum na Dátum a čas.

    Snímka obrazovky zobrazujúca výber typu údajov Dátum a čas pre stĺpec IpepPickupDatetime.

  12. Nakoniec rozbaľte nastavenia Nastavenia dotazu table na pravej strane editora, ak ešte nie je rozbalená, a premenujte dotaz z Zlúčiť do Output.

    Snímka obrazovky zobrazujúca premenovanie dotazu z funkcie Zlúčiť do výstupu.

Načítanie výstupného dotazu do tabuľky v službe Lakehouse

Keďže výstupný dotaz je teraz plne pripravený a obsahuje údaje pripravené na výstup, môžeme definovať výstupný cieľ dotazu.

  1. Vyberte dotaz Output zlúčiť dotaz, ktorý ste vytvorili predtým. Potom v editore vyberte kartu Domov a Pridajte cieľové údajov zo zoskupenia Query a vyberte cieľ Lakehouse.

    Snímka obrazovky znázorňujúca tlačidlo Pridať cieľ údajov so zvýraznenou položkou Lakehouse.

  2. V dialógovom okne Pripojiť k cieľoviu údajov by už malo byť vybraté pripojenie. Pokračujte výberom položky Ďalšie.

  3. V dialógovom okne Vybrať cieľový cieľ vyberte položku Lakehouse, kde chcete načítať údaje a pomenujte novú tabuľku nyc_taxi_with_discounts, a potom znova vyberte položku Ďalej.

    Snímka obrazovky znázorňujúca dialógové okno Vybrať cieľový cieľ s názvom tabuľky nyc_taxi_with_discounts.

  4. V dialógovom okne Vybrať cieľové nastavenia ponechajte predvolenú Možnosť Nahradiť metódu aktualizácie, dvakrát skontrolujte, či sú stĺpce správne mapované, a vyberte položky Uložiť nastavenia.

    Snímka obrazovky zobrazujúca dialógové okno Vybrať cieľové nastavenia so zvýrazneným tlačidlom Uložiť nastavenia.

  5. Vráťte sa do hlavného okna editora a potvrďte, že sa cieľ výstupu zobrazuje na table Nastavenia dotazu pre tabuľku Output a potom vyberte položky Publikovať.

    Dôležitý

    Keď sa v pracovnom priestore vytvorí prvý tok údajov Gen2, položky Lakehouse a Warehouse sa poskytujú spolu s ich súvisiacimi koncovými bodmi a sémantickými modelmi analýzy SQL. Tieto položky sú zdieľané všetkými tokmi údajov v pracovnom priestore a sú povinné, aby tok údajov Gen2 fungoval, nemal by sa odstrániť a nie je určený na priame použitie používateľmi. Položky sú podrobnou implementáciou toku údajov Gen2. Položky nie sú viditeľné v pracovnom priestore, ale môžu byť dostupné v iných prostrediach, ako napríklad v notebooku, koncovom bode SQL, prostredí Lakehouse a Warehouse. Položky môžete rozpoznať podľa ich predpony v názve. Predponou položiek je DataflowsStaging (Toky údajov).

  6. (voliteľné). Na stránke pracovného priestoru môžete tok údajov premenovať výberom troch bodiek napravo od názvu toku údajov, ktoré sa zobrazí po výbere riadka a výberom položky Vlastnosti.

    Snímka obrazovky zobrazujúca možnosť Vlastnosti vybratú v ponuke pre tok údajov, kde ju možno premenovať.

  7. Po výbere riadka vyberte ikonu obnovenia pre tok údajov. Po dokončení by sa mala zobraziť nová tabuľka Lakehouse vytvorená tak, ako je nakonfigurovaná v nastaveniach Data destination.

    Snímka obrazovky zobrazujúca výber tlačidla Obnovenia na obnovenie toku údajov.

  8. Pozrite si svoj lakehouse a pozrite si novú tabuľku načítanú tam.

V druhom module nášho komplexného kurzu o vašej prvej integrácii údajov pomocou služby Data Factory v službe Microsoft Fabric ste sa dozvedeli, ako:

  • Vytvorte nový tok údajov Gen2.
  • Importovať a transformovať vzorové údaje.
  • Importovať a transformovať textové/CSV údaje.
  • Zlúčenie údajov z oboch zdrojov údajov do nového dotazu.
  • Transformovať údaje a generovať nové stĺpce v dotaze.
  • Nakonfigurujte výstupný cieľový zdroj pre dotaz.
  • Premenujte a obnovte nový tok údajov.

Prejdite na ďalšiu časť a integrujte svoj údajový kanál.