Megosztás a következőn keresztül:


Gyors másolás a Gen2 adatfolyamokban

Ez a cikk a Data Factoryhez készült DataFlows Gen2 gyors másolási funkcióját ismerteti a Microsoft Fabricben. Az adatfolyamok segítenek az adatok betöltésében és átalakításában. Az adatfolyamok sql DW-számítással való felskálázásának bevezetésével nagy léptékben alakíthatja át az adatokat. Az adatokat azonban először be kell venni. A gyors másolás bevezetésével több terabájtnyi adatot is betölthet az adatfolyamok egyszerű használatával, de a folyamat másolási tevékenységének méretezhető háttérrendszerével.

A funkció engedélyezése után az adatfolyamok automatikusan átváltják a háttérrendszert, ha az adatméret túllép egy adott küszöbértéket, anélkül, hogy az adatfolyamok létrehozásakor bármin változtatnia kellene. Az adatfolyam frissítése után a frissítési előzményekben ellenőrizheti, hogy a futtatás során használt-e gyors másolást az ott megjelenő motortípussal .

Ha a A gyors másolás megkövetelése beállítás engedélyezve van, a rendszer megszakítja az adatfolyam frissítését, ha nem használja a gyors másolást. Ez segít elkerülni a frissítési időtúllépésre való várakozást. Ez a viselkedés a hibakeresési munkamenetekben is hasznos lehet az adatfolyamok viselkedésének az adatokkal való teszteléséhez, miközben csökkenti a várakozási időt. A lekérdezési lépések panel gyors másolásjelzőivel könnyen ellenőrizheti, hogy a lekérdezés gyors másolással futtatható-e.

Képernyőkép arról, hogy hol jelenik meg a gyors másolásjelző a lekérdezési lépések ablaktábláján.

Előfeltételek

  • Hálókapacitással kell rendelkeznie.
  • Fájladatok esetén a fájlok .csv vagy legalább 100 MB-os parquet formátumban vannak tárolva, és egy Azure Data Lake Storage (ADLS) Gen2 vagy Blob Storage-fiókban vannak tárolva.
  • Az azure SQL DB-t és a PostgreSQL-et is tartalmazó adatbázis esetében 5 millió sornyi vagy több adat található az adatforrásban.

Feljegyzés

A gyors másolás kényszerítéséhez megkerülheti a küszöbértéket a "Gyors másolás megkövetelése" beállítás kiválasztásával.

Összekötők támogatása

A gyors másolás jelenleg a következő Adatfolyam Gen2-összekötők esetében támogatott:

  • ADLS Gen2
  • Blob Storage
  • Azure SQL DB
  • Lakehouse
  • PostgreSQL
  • Helyszíni SQL Server
  • Raktár
  • Oracle
  • Snowflake

A másolási tevékenység csak néhány átalakítást támogat egy fájlforráshoz való csatlakozáskor:

  • Fájlok egyesítése
  • Oszlopok kijelölése
  • Adattípusok módosítása
  • Oszlop átnevezése
  • Oszlop eltávolítása

A betöltési és átalakítási lépések külön lekérdezésekre való felosztásával továbbra is alkalmazhat más átalakításokat. Az első lekérdezés ténylegesen lekéri az adatokat, a második lekérdezés pedig az eredményeire hivatkozik, hogy a DW-számítás használható legyen. SQL-források esetén a natív lekérdezés részét képező összes átalakítás támogatott.

Amikor közvetlenül betölti a lekérdezést egy kimeneti célhelyre, jelenleg csak a Lakehouse-célhelyek támogatottak. Ha másik kimeneti célhelyet szeretne használni, a lekérdezést először szakaszba helyezheti, és később hivatkozhat rá.

Gyors másolás használata

  1. Lépjen a megfelelő Hálóvégpontra.

  2. Lépjen egy prémium szintű munkaterületre, és hozzon létre egy Adatfolyam Gen2-t.

  3. Az új adatfolyam Kezdőlap lapján válassza a Beállítások lehetőséget:

    Képernyőkép arról, hogy hol válassza ki az Adatfolyamok 2. generációs beállításait a Kezdőlap lapon.

  4. Ezután válassza a Beállítások párbeszédpanel Méretezés lapját, és jelölje be a Gyors másolási összekötők használatának engedélyezése jelölőnégyzetet a gyors másolás bekapcsolásához. Ezután zárja be a Beállítások párbeszédpanelt.

    Képernyőkép a gyors másolás engedélyezéséről a Beállítások párbeszédpanel Méretezés lapján.

  5. Válassza az Adatok lekérése lehetőséget, majd válassza ki az ADLS Gen2 forrást, és adja meg a tároló részleteit.

  6. Használja a Fájlegyesítés funkciót.

    Képernyőkép a Mappaadatok előnézete ablakról, kiemelt Kombinálás lehetőséggel.

  7. A gyors másolás érdekében csak a jelen cikk Összekötők támogatási szakaszában felsorolt átalakításokat alkalmazza. Ha további átalakításokat kell alkalmaznia, először az adatokat kell szakaszolnia, és később hivatkoznia kell a lekérdezésre. Egyéb átalakítások elvégzése a hivatkozott lekérdezésen.

  8. (Nem kötelező)A lekérdezés gyors másolásának megkövetelése beállításához kattintson rá a jobb gombbal a beállítás kiválasztásához és engedélyezéséhez.

    Képernyőkép arról, hogy hol válassza a gyors másolás megkövetelése lehetőséget a lekérdezés jobb gombbal kattintva elérhető menüjében.

  9. (Nem kötelező) Jelenleg csak egy Lakehouse-t konfigurálhat kimeneti célként. Bármely más célhely esetében szakaszozza a lekérdezést, és hivatkozzon rá később egy másik lekérdezésben, ahol bármilyen forráshoz kimenetet adhat.

  10. Ellenőrizze a gyors másolásjelzőket, hogy a lekérdezés futtatható-e gyors másolással. Ha igen, a motor típusa a CopyActivity értéket jeleníti meg.

    Képernyőkép a folyamat CopyActivity motorjának frissítési részleteiről.

  11. Tegye közzé az adatfolyamot.

  12. A frissítés befejezése után ellenőrizze, hogy a gyors másolás megtörtént-e.

A lekérdezés felosztása a gyors másolás érdekében

Ha nagy mennyiségű adatot dolgoz fel az Adatfolyam Gen2-vel, az optimális teljesítmény érdekében használja a Gyors másolás funkciót az adatok átmeneti állapotba való betöltéséhez, majd az SQL DW-számítással nagy léptékben történő átalakításához. Ez a megközelítés jelentősen javítja a végpontok közötti teljesítményt.

Ennek megvalósítása érdekében a Fast Copy indikátorok segítségével két részre oszthatja a lekérdezést: az adatok betöltése előkészítési területre és a nagy léptékű átalakítás SQL DW feldolgozással. Javasoljuk, hogy a lekérdezések kiértékelésének minél nagyobb részét használja ki a Gyors Másolást, az adatok betöltése céljából. Ha a gyors másolás jelzői azt jelzik, hogy a többi lépést nem lehet végrehajtani a Gyors másolással, a lekérdezés többi részét feloszthatja úgy, hogy engedélyezve van az előkészítés.

Diagnosztikai lépésmutatók

Indikátor Ikon Leírás
Ezt a lépést gyors másolással fogják értékelni A Gyors másolás jelző jelzi, hogy az ebben a lépésben megadott lekérdezés támogatja a gyors másolást.
Ezt a lépést nem támogatja a gyors másolás A Gyors másolás jelző azt mutatja, hogy ez a lépés nem támogatja a gyors másolást.
A lekérdezés egy vagy több lépését nem támogatja a gyors lekérdezési rendszer A Gyors másolás jelző azt mutatja, hogy a lekérdezés egyes lépései támogatják a gyors másolást, míg mások nem. Az optimalizáláshoz ossza fel a lekérdezést a következőképpen: sárga lépések (amelyeket esetleg támogat a Fast Copy) és piros lépések (amelyeket nem támogat).

Részletes útmutató

Miután elvégezte az adatátalakítási logikát a Dataflow Gen2-ben, a Gyors másolás jelző kiértékeli az egyes lépéseket, hogy meghatározza, hány lépés használható a Gyors másolás funkcióval a jobb teljesítmény érdekében.

Az alábbi példában az utolsó lépés pirossal jelenik meg, ami azt jelzi, hogy a Fast Copy nem támogatja a csoportosítási lépést. A gyors másolás azonban valószínűleg támogatja a sárga színnel megjelenített összes korábbi lépést.

Képernyőkép az első lekérdezésről.

Jelenleg, ha közvetlenül közzéteszi és futtatja a Dataflow Gen2-t, az adatok betöltésére nem fogja az alábbi ábra szerint a gyors másolási motort használni.

A gyors másolás engedélyezése nélküli eredményt megjelenítő képernyőkép.

A gyors másolási motor használatához és az adatfolyam Gen2 teljesítményének javításához a lekérdezést két részre oszthatja: adatbetöltés előkészítésre és nagy léptékű átalakításra az SQL DW-számítással, az alábbiak szerint:

  1. Távolítsa el a gyors másolás által nem támogatott átalakításokat (pirossal), valamint a célhelyet (ha meg van adva).

  2. A Gyors másolás jelző mostantól zöld színnel jelenik meg a többi lépésnél, ami azt jelenti, hogy az első lekérdezés a Gyors másolást használhatja a jobb teljesítmény érdekében.

    Az első lekérdezéshez válassza az akciót, majd engedélyezze az Előkészítési és Referencia lehetőségeket.

    Képernyőkép a második lekérdezésről.

  3. Egy új hivatkozott lekérdezésben felolvassa a "Csoportosítási szempont" átalakítást és a célhelyet (ha van).

    Képernyőkép a harmadik lekérdezésről.

  4. Tegye közzé és frissítse a Dataflow Gen2-t. Két lekérdezést fog látni a Dataflow Gen2-ben, és a teljes időtartam jelentősen lecsökkent.

    • Az első lekérdezés a gyors másolással betölti az adatokat az előkészítésbe.

    • A második lekérdezés nagy léptékű átalakításokat hajt végre az SQL DW-számítással.

      Képernyőkép a lekérdezés eredményéről.

    Az első lekérdezés:

    A betöltés eredményét megjelenítő képernyőkép.

    A második lekérdezés:

    Képernyőkép az átalakítás eredményéről.

Ismert korlátozások

  1. A gyors másolás támogatásához helyszíni adatátjáró 3000.214.2-es vagy újabb verziójára van szükség.
  2. A virtuális hálózati átjáró nem támogatott.
  3. Az adatok lakehouse-beli meglévő táblába való írása nem támogatott.
  4. A rögzített séma nem támogatott.