2. modul: Adatok átalakítása adatfolyammal a Data Factoryben
Ez a modul körülbelül 25 percet vesz igénybe egy adatfolyam létrehozásához, az átalakítások alkalmazásához és a nyers adatok a Bronz táblából egy Gold Lakehouse-táblába való áthelyezéséhez.
Az utolsó modulból a Bronz Lakehouse-táblába betöltött nyers adatokkal most már előkészítheti és bővítheti azokat egy másik táblával, amely kedvezményeket tartalmaz az egyes szállítók és utazásaik számára egy adott napon. Ez az utolsó Gold Lakehouse-tábla be van töltve, és használatra kész.
Az adatfolyam magas szintű lépései a következők:
- Nyers adatok lekérése a Copy tevékenység által létrehozott Lakehouse-táblából az 1. modulban: Folyamat létrehozása a Data Factoryvel.
- Alakítsa át a Lakehouse-táblából importált adatokat.
- Csatlakozás egy CSV-fájlba, amely kedvezmények adatait tartalmazza.
- A kedvezmények adatainak átalakítása.
- Utazások és kedvezmények adatainak kombinálása.
- Töltse be a kimeneti lekérdezést a Gold Lakehouse táblába.
Az oldalsávon válassza a Létrehozás, majd az Adatfolyam Gen2 lehetőséget egy új adatfolyam gen2 létrehozásához.
Az új adatfolyam menüben válassza az Adatok lekérése, majd az Egyebek... lehetőséget.
Keresse meg és válassza ki a Lakehouse-összekötőt .
Megjelenik az adatforráshoz való Csatlakozás párbeszédpanel, és a rendszer automatikusan létrehoz egy új kapcsolatot az aktuálisan bejelentkezett felhasználó alapján. Válassza a Tovább lehetőséget.
Megjelenik az Adatok kiválasztása párbeszédpanel. A navigációs panelen keresse meg az előző modulban a célhoz létrehozott Lakehouse-t, és válassza ki a Tutorial_Lakehouse adattáblát.
(Nem kötelező) Miután a vászon fel van töltve az adatokkal, beállíthatja az oszlopprofil adatait, mivel ez hasznos az adatprofilkészítéshez. Alkalmazhatja a megfelelő átalakítást, és az alapján megcélzhatja a megfelelő adatértékeket.
Ehhez válassza a Menüszalag panel Beállítások elemét, majd az Oszlopprofil területen az első három lehetőséget, majd kattintson az OK gombra.
Válassza ki az adattípus ikont a második oszlop, az IpepPickupDatetime oszlopfejlécében egy legördülő menü megjelenítéséhez, majd válassza ki a menü adattípusát az oszlop dátum/idő típusúvá alakításához.
(Nem kötelező) A menüszalag Kezdőlap lapján válassza az Oszlopok kiválasztása lehetőséget az Oszlopok kezelése csoportban.
(Nem kötelező) Az Oszlopok kiválasztása párbeszédpanelen törölje az itt felsorolt oszlopok kijelölését, majd kattintson az OK gombra.
- lpepDropoffDatetime
- puLocationId
- doLocationId
- pickupLatitude
- dropoffLongitude
- rateCodeID
Válassza ki a StoreAndFwdFlag oszlop szűrő- és rendezési legördülő menüjét. (Ha figyelmeztetés jelenik megElőfordulhat, hogy a lista hiányos, az összes adat megtekintéséhez válassza a További betöltés lehetőséget.)
Válassza az "Y" lehetőséget, ha csak azokat a sorokat szeretné megjeleníteni, ahol kedvezményt alkalmaztak, majd kattintson az OK gombra.
Válassza az IpepPickupDatetime oszlop rendezési és szűrési legördülő menüjét, majd a Dátumszűrőket, majd a Dátum és dátum/idő típushoz megadott Közt szűrőt .
A Sorok szűrése párbeszédpanelen válassza ki a 2015. január 1. és 2015. január 31. közötti dátumokat, majd kattintson az OK gombra.
Most, hogy az utazások adatai érvényben van, be szeretnénk tölteni azokat az adatokat, amelyek tartalmazzák az egyes napokra vonatkozó kedvezményeket és a VendorID azonosítót, és előkészítjük az adatokat, mielőtt kombinálnánk azokat az utazások adataival.
Az adatfolyam-szerkesztő menü Kezdőlap lapján válassza az Adatok lekérése lehetőséget, majd válassza a Szöveg/CSV lehetőséget.
Az adatforráshoz Csatlakozás párbeszédpanelen adja meg a következő adatokat:
- Fájl elérési útja vagy URL-címe -
https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
- Hitelesítési típus – Névtelen
Ezután válassza a Tovább gombra.
- Fájl elérési útja vagy URL-címe -
A Fájladatok előnézete párbeszédpanelen válassza a Létrehozás lehetőséget.
Az adatokat áttekintve látható, hogy a fejlécek az első sorban jelennek meg. Előléptetheti őket fejlécek közé az előnézeti rács terület bal felső részén található táblázat helyi menüjének kiválasztásával az Első sor használata fejlécként lehetőséget választva.
Megjegyzés
A fejlécek előléptetése után egy új lépés jelenik meg az Adatfolyam-szerkesztő tetején az Alkalmazott lépések panelen az oszlopok adattípusaihoz.
Kattintson a jobb gombbal a VendorID oszlopra, és a megjelenő helyi menüben válassza a Többi oszlop leválasztása lehetőséget. Ez lehetővé teszi, hogy az oszlopokat attribútum-érték párokká alakítsa, ahol az oszlopok sorokká válnak.
Ha a tábla nincs megadva, nevezze át az Attribútum és az Érték oszlopot úgy, hogy duplán kattint rájuk, és az attribútumot Dátum és Érték értékre módosítja kedvezményre.
A Dátum oszlop adattípusának módosításához válassza az adattípus menüt az oszlopnév bal oldalán, és válassza a Dátum lehetőséget.
Válassza a Kedvezmény oszlopot, majd válassza az Átalakítás lapot a menüben. Válassza a Szám oszlopot, majd válassza a Standard numerikus átalakítások lehetőséget az almenüben, és válassza a Felosztás lehetőséget.
Az Osztás párbeszédpanelen adja meg a 100 értéket.
A következő lépés a két tábla egyetlen táblába való összevonása, amely az utazásra alkalmazandó kedvezményt és a korrigált végösszeget tartalmazza.
Először kapcsolja be a Diagram nézet gombot, hogy mindkét lekérdezés látható legyen.
Válassza ki a nyc_taxi lekérdezést, majd a Kezdőlap lapon válassza a Kombinálás menüt, majd a Lekérdezések egyesítése, majd a Lekérdezések egyesítése újként lehetőséget.
Az Egyesítés párbeszédpanelen válassza a Generated-NYC-Taxi-Green-Discounts lehetőséget a Jobb oldali táblázatból az egyesítés legördülő listából, majd a párbeszédpanel jobb felső sarkában található "villanykörte" ikonra kattintva megtekintheti a két tábla közötti oszlopok javasolt leképezését.
Válassza ki a két javasolt oszlopleképezést egyenként, és megfelelteti a VendorID és a date oszlopokat mindkét táblából. Ha mindkét megfeleltetést hozzáadja, a megfeleltetett oszlopfejlécek mindegyik táblában ki lesznek emelve.
Megjelenik egy üzenet, amely arra kéri, hogy engedélyezze több adatforrásból származó adatok kombinálását az eredmények megtekintéséhez. Válassza az OK gombot az Egyesítés párbeszédpanelen.
A táblaterületen először egy figyelmeztetés jelenik meg, amely szerint "A kiértékelést megszakították, mert a több forrásból származó adatok egyesítése adatokat jeleníthet meg az egyik forrásból a másikba. Válassza a Folytatás lehetőséget, ha az adatok felfedésének lehetősége rendben van." A Folytatás gombra kattintva megjelenítheti az egyesített adatokat.
Figyelje meg, hogyan lett létrehozva egy új lekérdezés Diagram nézetben, amely az új egyesítési lekérdezés és a korábban létrehozott két lekérdezés közötti kapcsolatot mutatja. A szerkesztő táblázatpaneljére tekintve görgessen a Lekérdezés egyesítése oszloplista jobb oldalán, hogy megjelenjen egy új oszlop, amelyen táblaértékek szerepelnek. Ez a "Generált NYC Taxi-Green-Discounts" oszlop, és a típusa [Táblázat]. Az oszlopfejlécben egy ikon látható, amelyben két nyíl ellentétes irányban halad, lehetővé téve, hogy oszlopokat jelöljön ki a táblázatból. Törölje az összes oszlop kijelölését a Kedvezmény kivételével, majd válassza az OK gombot.
Ha a kedvezmény értéke most már a sor szintjén van, létrehozhatunk egy új oszlopot a kedvezmény utáni teljes összeg kiszámításához. Ehhez válassza a szerkesztő tetején az Oszlop hozzáadása lapot, majd az Általános csoport Egyéni oszlopát.
Az Egyéni oszlop párbeszédpanelen a Power Query képletnyelvével (más néven M) határozhatja meg az új oszlop kiszámításának módját. Adja meg az Új oszlop nevének TotalAfterDiscount értékét, válassza az Adattípus pénzneme lehetőséget, és adja meg a következő M kifejezést az Egyéni oszlop képletéhez:
ha [totalAmount] > 0, akkor [totalAmount] * ( 1 -[Discount] ) else [totalAmount]
Ezután válassza az OK gombra.
Válassza ki az újonnan létrehozott TotalAfterDiscount oszlopot , majd válassza az Átalakítás lapot a szerkesztőablak tetején. A Szám oszlopcsoportban válassza a Kerekítés legördülő menüt, majd a Kerekítés...lehetőséget.
A Kerekítés párbeszédpanelen adja meg a 2 értéket a tizedesjegyek számához, majd kattintson az OK gombra.
Módosítsa az IpepPickupDatetime adattípusát dátumról dátumra/időre.
Végül bontsa ki a Lekérdezés beállításai panelt a szerkesztő jobb oldaláról, ha még nincs kibontva, és nevezze át a lekérdezést az Egyesítésről a Kimenetre.
A kimeneti lekérdezés most már teljesen előkészített, és a kimenetre kész adatokkal meg tudjuk határozni a lekérdezés kimeneti célját.
Válassza ki a korábban létrehozott egyesítési lekérdezést . Ezután válassza ki a szerkesztő Kezdőlap lapját, és adja meg az adatcélt a lekérdezéscsoportból , és válasszon egy Lakehouse-célhelyet .
Az Csatlakozás adatcél párbeszédpanelen már ki kell jelölni a kapcsolatot. A folytatáshoz válassza a Tovább gombra.
A Célhely kiválasztása párbeszédpanelen keresse meg azt a Lakehouse-t, ahol be szeretné tölteni az adatokat, és nevezze el az új táblát nyc_taxi_with_discounts, majd kattintson ismét a Tovább gombra.
A Célbeállítások kiválasztása párbeszédpanelen hagyja meg az alapértelmezett Csere frissítési módszert, ellenőrizze, hogy megfelelően vannak-e megfeleltetve az oszlopok, és válassza a Mentési beállítások lehetőséget.
A főszerkesztő ablakában ellenőrizze, hogy a kimeneti cél megjelenik-e a Kimeneti tábla Lekérdezés beállításai paneljén, majd válassza a Közzététel lehetőséget.
Fontos
Amikor az első Adatfolyam Gen2 létrejön egy munkaterületen, a Lakehouse és a Warehouse-elemek ki lesznek építve a kapcsolódó SQL Analytics-végponttal és szemantikai modellekkel együtt. Ezeket az elemeket a munkaterület összes adatfolyama megosztja, és a 2. generációs adatfolyam működéséhez szükséges, nem szabad törölni, és nem közvetlenül a felhasználók használják őket. Az elemek a Dataflow Gen2 implementációjának részletei. Az elemek nem láthatók a munkaterületen, de más szolgáltatásokban is elérhetők lehetnek, például a Jegyzetfüzet, az SQL-végpont, a Lakehouse és a Warehouse szolgáltatásban. A névben szereplő előtag alapján felismerheti az elemeket. Az elemek előtagja az "AdatfolyamokStaging".
(Nem kötelező) A munkaterület lapján átnevezheti az adatfolyamot a sor kijelölése után megjelenő adatfolyamnév jobb oldalán található három pontra kattintva, majd a Tulajdonságok gombra kattintva.
A sor kiválasztása után válassza ki az adatfolyam frissítés ikonját, és ha elkészült, az új Lakehouse-táblázatnak az Adatcél beállításaiban konfigurált módon kell megjelennie.
Ellenőrizze a Lakehouse-t, hogy megtekintse az ott betöltött új táblát.
A Data Factory a Microsoft Fabricben való első adatintegrációjához kapcsolódó, a végpontok közötti oktatóanyag második moduljában elsajátította a következőket:
- Hozzon létre egy új Adatfolyam Gen2-t.
- Mintaadatok importálása és átalakítása.
- Szöveg/CSV-adatok importálása és átalakítása.
- Adatok egyesítése mindkét adatforrásból egy új lekérdezésbe.
- Adatok átalakítása és új oszlopok létrehozása egy lekérdezésben.
- Kimeneti célforrás konfigurálása lekérdezéshez.
- Nevezze át és frissítse az új adatfolyamot.
Folytassa a következő szakaszt az adatfolyam integrálásához.