Megosztás a következőn keresztül:


Rövid útmutató: Adatok átalakítása leképezési adatfolyamok használatával

Ebben a rövid útmutatóban az Azure Synapse Analytics használatával fog létrehozni egy folyamatot, amely egy Azure Data Lake Storage Gen2 -forrásból (ADLS Gen2) származó adatokat alakít át egy ADLS Gen2-fogadóvá leképezési adatfolyam használatával. A rövid útmutatóban szereplő konfigurációs minta kibontható az adatok leképezési adatfolyam használatával történő átalakításakor

Ebben a rövid útmutatóban a következő lépéseket kell elvégeznie:

  • Hozzon létre egy folyamatot egy Adatfolyam tevékenységgel az Azure Synapse Analyticsben.
  • Leképezési adatfolyam létrehozása négy átalakítással.
  • A folyamat próbafuttatása
  • Adatfolyam tevékenység figyelése

Előfeltételek

  • Azure-előfizetés: Ha nem rendelkezik Azure-előfizetéssel, a kezdés előtt hozzon létre egy ingyenes Azure-fiókot .

  • Azure Synapse-munkaterület: Synapse-munkaterület létrehozása az Azure Portal használatával a következő rövid útmutató utasításai szerint: Synapse-munkaterület létrehozása.

  • Azure Storage-fiók: Az ADLS-tárolót használja forrás- és fogadóadattárként. Ha még nem rendelkezik tárfiókkal, tekintse meg az Azure Storage-fiók létrehozásának lépéseit ismertető cikket.

    Az oktatóanyagban átalakítandó fájl MoviesDB.csv, amely itt található. Ha le szeretné kérni a fájlt a GitHubról, másolja a tartalmat egy tetszőleges szövegszerkesztőbe, és mentse helyileg .csv fájlként. Ha fel szeretné tölteni a fájlt a tárfiókba, olvassa el a Blobok feltöltése az Azure Portallal című témakört. A példák egy "sample-data" nevű tárolóra fognak hivatkozni.

Az Azure Synapse-munkaterület létrehozása után kétféleképpen nyithatja meg a Synapse Studiót:

  • Nyissa meg a Synapse-munkaterületet az Azure Portalon. Válassza a Megnyitás a Synapse Studio-kártyán az Első lépések csoportban.
  • Nyissa meg az Azure Synapse Analyticset , és jelentkezzen be a munkaterületre.

Ebben a rövid útmutatóban az "adftest2020" nevű munkaterületet használjuk példaként. Automatikusan a Synapse Studio kezdőlapjára navigál.

A Synapse Studio kezdőlapja

Folyamat létrehozása Adatfolyam tevékenységgel

A folyamatok a tevékenységek egy csoportjának végrehajtásához szükséges logikai folyamatot tartalmazzák. Ebben a szakaszban egy Adatfolyam tevékenységet tartalmazó folyamatot fog létrehozni.

  1. Lépjen az Integrálás lapra. Válassza a folyamatfejléc melletti plusz ikont, és válassza a Folyamat lehetőséget.

    Új folyamat létrehozása

  2. A folyamat Tulajdonságok beállításai lapján adja meg a TransformMovies for Name kifejezést.

  3. A Tevékenységek panel Áthelyezés és átalakítás területén húzza az adatfolyamot a folyamatvászonra.

  4. Az Adatfolyam hozzáadása lap előugró ablakában válassza az Új adatfolyam létrehozása –>Adatfolyam lehetőséget. Kattintson az OK gombra, amikor végzett.

    Adatfolyam létrehozása

  5. Nevezze el az adatfolyamot a TransformMovies névvel a Tulajdonságok lapon.

Átalakítási logika létrehozása az adatfolyam-vásznon

A Adatfolyam létrehozása után a rendszer automatikusan elküldi az adatfolyam-vászonra. Ebben a lépésben létrehoz egy adatfolyamot, amely az ADLS-tárolóban lévő MoviesDB.csv veszi át, és összesíti a 1910 és 2000 közötti átlagos besorolást. Ezután visszaírja ezt a fájlt az ADLS-tárolóba.

  1. Az adatfolyam-vászon fölött húzza be az adatfolyam hibakeresési csúszkát. A hibakeresési mód lehetővé teszi az átalakítási logika interaktív tesztelését egy élő Spark-fürtön. Adatfolyam fürtök bemelegedése 5-7 percet vesz igénybe, és a felhasználóknak ajánlott először bekapcsolniuk a hibakeresést, ha Adatfolyam fejlesztést terveznek. További információ: Hibakeresési mód.

    A hibakeresés becsúsztatása

  2. Az adatfolyam-vásznon adjon hozzá egy forrást a Forrás hozzáadása mezőre kattintva.

  3. Nevezze el a forrás MoviesDB-t. Új forrásadatkészlet létrehozásához válassza az Új lehetőséget.

    Új forrásadatkészlet létrehozása

  4. Válassza az Azure Data Lake Storage Gen2 lehetőséget. Válassza a Folytatás lehetőséget.

    Az Azure Data Lake Storage Gen2 kiválasztása

  5. Válassza a DelimitedText lehetőséget. Válassza a Folytatás lehetőséget.

  6. Nevezze el az adathalmazt a MoviesDB-nek. A társított szolgáltatás legördülő listájában válassza az Új lehetőséget.

  7. A társított szolgáltatás létrehozási képernyőjén adja meg az ADLS Gen2 társított ADLSGen2 szolgáltatást, és adja meg a hitelesítési módszert. Ezután adja meg a kapcsolat hitelesítő adatait. Ebben a rövid útmutatóban az Account billentyűt használjuk a tárfiókhoz való csatlakozáshoz. A Kapcsolat tesztelése lehetőséget választva ellenőrizheti, hogy a hitelesítő adatok helyesen lettek-e beállítva. Miután végzett, válassza a Létrehozás lehetőséget.

    Forráshoz társított szolgáltatás létrehozása

  8. Miután visszatért az adathalmaz létrehozási képernyőjére, a Fájl elérési útja mező alatt adja meg a fájl helyét. Ebben a rövid útmutatóban a "MoviesDB.csv" fájl a "sample-data" tárolóban található. Mivel a fájl fejlécekkel rendelkezik, ellenőrizze az Első sort fejlécként. Válassza a Kapcsolat/tár lehetőséget a fejlécséma közvetlen importálásához a tárban lévő fájlból. Kattintson az OK gombra, amikor végzett.

    Forrásadatkészlet beállításai

  9. Ha a hibakeresési fürt elindult, lépjen a forrásátalakítás Adatelőnézet lapjára, és válassza a Frissítés lehetőséget az adatok pillanatképének lekéréséhez. Az adatelőnézet használatával ellenőrizheti, hogy az átalakítás megfelelően van-e konfigurálva.

    Adatok előnézete

  10. Az adatfolyam-vásznon a forráscsomópont mellett válassza a plusz ikont egy új átalakítás hozzáadásához. Az első hozzáadott átalakítás egy szűrő.

    Szűrő hozzáadása

  11. Nevezze el a szűrőátalakítás Szűrőévek nevet. A kifejezésszerkesztő megnyitásához válassza a Szűrő bekapcsolva gomb melletti kifejezésmezőt. Itt adhatja meg a szűrési feltételt.

  12. Az adatfolyam-kifejezésszerkesztővel interaktívan hozhat létre különböző átalakításokban használható kifejezéseket. A kifejezések tartalmazhatnak beépített függvényeket, a bemeneti sémából származó oszlopokat és felhasználó által definiált paramétereket. A kifejezések készítéséről további információt Adatfolyam kifejezésszerkesztőben talál.

    Ebben a rövid útmutatóban az 1910 és 2000 között megjelent műfaji vígjátékok filmjeit szeretné szűrni. Mivel az év jelenleg sztring, a függvény használatával egész számmá kell alakítania toInteger() . Az 1910-es és a 200-es literális évértékekkel való összehasonlításhoz használja a nagyobb vagy egyenlő (>=) és (<=) operátorokat. Egyesítve ezeket a kifejezéseket a && (és) operátorral. A kifejezés a következőképpen jelenik meg:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Ha meg szeretné találni, hogy mely filmek vígjátékok, a függvény segítségével megtalálhatja a rlike() "Comedy" mintát az oszlop műfajaiban. Egyesíteni kell a rlike kifejezést az év összehasonlításával a következőhöz:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Szűrési feltétel megadása

    Ha aktív hibakeresési fürtje van, a Frissítés gombra kattintva ellenőrizheti a logikát a használt bemenetekhez képest a kifejezéskimenet megtekintéséhez. Több helyes válasz is van arra, hogyan valósíthatja meg ezt a logikát az adatfolyam-kifejezés nyelvével.

    Ha végzett a kifejezéssel, válassza a Mentés és befejezés lehetőséget.

  13. Adatelőnézet beolvasásával ellenőrizze, hogy a szűrő megfelelően működik-e.

  14. A következő átalakítási művelet a Sémamódosító alatt lévő Összesítés átalakítás.

    Összesítés hozzáadása

  15. Nevezze el összesített átalakítását AggregateComedyRatings néven. A Csoportosítás lapon válassza ki az évet a legördülő listából, és csoportosítsa az összesítéseket a film kiadásának évéhez.

    Összesítési beállítások 1

  16. Lépjen az Összesítések lapra. A bal oldali szövegmezőben nevezze el az AverageComedyRating összesítő oszlopot. A megfelelő kifejezésmezőt választva adja meg az összesítő kifejezést a kifejezésszerkesztőn keresztül.

    Összesítő beállítások 2

  17. Az oszlopminősítés átlagának lekéréséhez használja az összesítő függvénytavg(). Mivel a Rating egy sztring, és avg() numerikus bemenetet vesz fel, az értéket számmá kell konvertálnunk a toInteger() függvényen keresztül. Ez a kifejezés a következőképpen néz ki:

    avg(toInteger(Rating))

    Ha elkészült, válassza a Mentés és befejezés lehetőséget.

    Átlagos komédia-értékelés

  18. Az átalakítási kimenet megtekintéséhez lépjen az Adatelőnézet lapra. Figyelje meg, hogy csak két oszlop van, év és AverageComedyRating.

    Adatok összesítése – előzetes verzió

  19. A következő lépésben egy Fogadó átalakítást szeretne hozzáadni a Cél területen.

    Fogadó hozzáadása

  20. Nevezze el a fogadó fogadóját. Válassza az Új lehetőséget a fogadóadatkészlet létrehozásához.

  21. Válassza az Azure Data Lake Storage Gen2 lehetőséget. Válassza a Folytatás lehetőséget.

  22. Válassza a DelimitedText lehetőséget. Válassza a Folytatás lehetőséget.

  23. Nevezze el a Fogadó adatkészletet a MoviesSink névvel. Csatolt szolgáltatás esetén válassza ki a 7. lépésben létrehozott ADLS Gen2 társított szolgáltatást. Adjon meg egy kimeneti mappát az adatok írásához. Ebben a rövid útmutatóban a "sample-data" tároló "output" mappájába írunk. A mappának nem kell előzetesen léteznie, és dinamikusan létrehozható. Állítsa be az első sort fejlécként igazként, és válassza a Nincs az importálási sémához lehetőséget. Kattintson az OK gombra, amikor végzett.

    Fogadó adathalmaz tulajdonságai

Most befejezte az adatfolyam összeállítását. Készen áll a folyamat futtatására.

A Adatfolyam futtatása és figyelése

A közzététel előtt hibakeresést végezhet egy folyamaton. Ebben a lépésben elindítja az adatfolyam-folyamat hibakeresési futását. Bár az adatelőnézet nem ír adatokat, a hibakeresési futtatás adatokat ír a fogadó célhelyére.

  1. Lépjen a folyamatvászonra. Hibakeresési futtatás indításához válassza a Hibakeresés lehetőséget.

    Hibakeresési folyamat

  2. A Adatfolyam tevékenységek folyamatbeli hibakeresése az aktív hibakeresési fürtöt használja, de az inicializálás legalább egy percet vesz igénybe. Az előrehaladást a Kimenet lapon követheti nyomon. Miután a futtatás sikeres volt, válassza a szemüveg ikont a monitorozási panel megnyitásához.

    Kimenet hibakeresése

  3. A monitorozási panelen láthatja az egyes átalakítási lépések során eltelt sorok és idő számát.

    Átalakítási monitorozás

  4. Az átalakítás kiválasztásával részletes információkat kaphat az oszlopokról és az adatok particionálásáról.

    Átalakítás részletei

Ha helyesen követte ezt a rövid útmutatót, 83 sort és 2 oszlopot kellett volna írnia a fogadó mappájába. Az adatokat a blobtároló ellenőrzésével ellenőrizheti.

Következő lépések

Az Azure Synapse Analytics támogatásáról a következő cikkekben olvashat: