Gyors másolás a Gen2 adatfolyamokban
Ez a cikk a Data Factoryhez készült DataFlows Gen2 gyors másolási funkcióját ismerteti a Microsoft Fabricben. Az adatfolyamok segítenek az adatok betöltésében és átalakításában. Az adatfolyamok sql DW-számítással való felskálázásának bevezetésével nagy léptékben alakíthatja át az adatokat. Az adatokat azonban először be kell venni. A gyors másolás bevezetésével több terabájtnyi adatot is betölthet az adatfolyamok egyszerű használatával, de a folyamat másolási tevékenységének méretezhető háttérrendszerével.
A funkció engedélyezése után az adatfolyamok automatikusan átváltják a háttérrendszert, ha az adatméret túllép egy adott küszöbértéket, anélkül, hogy az adatfolyamok létrehozásakor bármin változtatnia kellene. Az adatfolyam frissítése után a frissítési előzményekben ellenőrizheti, hogy a futtatás során használt-e gyors másolást az ott megjelenő motortípussal .
Ha a A gyors másolás megkövetelése beállítás engedélyezve van, a rendszer megszakítja az adatfolyam frissítését, ha nem használja a gyors másolást. Ez segít elkerülni a frissítési időtúllépésre való várakozást. Ez a viselkedés a hibakeresési munkamenetekben is hasznos lehet az adatfolyamok viselkedésének az adatokkal való teszteléséhez, miközben csökkenti a várakozási időt. A lekérdezési lépések panel gyors másolásjelzőivel könnyen ellenőrizheti, hogy a lekérdezés gyors másolással futtatható-e.
Előfeltételek
- Hálókapacitással kell rendelkeznie.
- Fájladatok esetén a fájlok .csv vagy legalább 100 MB-os parquet formátumban vannak tárolva, és egy Azure Data Lake Storage (ADLS) Gen2 vagy Blob Storage-fiókban vannak tárolva.
- Az azure SQL DB-t és a PostgreSQL-et is tartalmazó adatbázis esetében 5 millió sornyi vagy több adat található az adatforrásban.
Feljegyzés
A gyors másolás kényszerítéséhez megkerülheti a küszöbértéket a "Gyors másolás megkövetelése" beállítás kiválasztásával.
Összekötők támogatása
A gyors másolás jelenleg a következő Adatfolyam Gen2-összekötők esetében támogatott:
- ADLS Gen2
- Blob Storage
- Azure SQL DB
- Lakehouse
- PostgreSQL
- Helyszíni SQL Server
- Raktár
- Oracle
- Snowflake
A másolási tevékenység csak néhány átalakítást támogat egy fájlforráshoz való csatlakozáskor:
- Fájlok egyesítése
- Oszlopok kijelölése
- Adattípusok módosítása
- Oszlop átnevezése
- Oszlop eltávolítása
A betöltési és átalakítási lépések külön lekérdezésekre való felosztásával továbbra is alkalmazhat más átalakításokat. Az első lekérdezés ténylegesen lekéri az adatokat, a második lekérdezés pedig az eredményeire hivatkozik, hogy a DW-számítás használható legyen. SQL-források esetén a natív lekérdezés részét képező összes átalakítás támogatott.
Amikor közvetlenül betölti a lekérdezést egy kimeneti célhelyre, jelenleg csak a Lakehouse-célhelyek támogatottak. Ha másik kimeneti célhelyet szeretne használni, a lekérdezést először szakaszba helyezheti, és később hivatkozhat rá.
Gyors másolás használata
Lépjen a megfelelő Hálóvégpontra.
Lépjen egy prémium szintű munkaterületre, és hozzon létre egy Adatfolyam Gen2-t.
Az új adatfolyam Kezdőlap lapján válassza a Beállítások lehetőséget:
Ezután válassza a Beállítások párbeszédpanel Méretezés lapját, és jelölje be a Gyors másolási összekötők használatának engedélyezése jelölőnégyzetet a gyors másolás bekapcsolásához. Ezután zárja be a Beállítások párbeszédpanelt.
Válassza az Adatok lekérése lehetőséget, majd válassza ki az ADLS Gen2 forrást, és adja meg a tároló részleteit.
Használja a Fájlegyesítés funkciót.
A gyors másolás érdekében csak a jelen cikk Összekötők támogatási szakaszában felsorolt átalakításokat alkalmazza. Ha további átalakításokat kell alkalmaznia, először az adatokat kell szakaszolnia, és később hivatkoznia kell a lekérdezésre. Egyéb átalakítások elvégzése a hivatkozott lekérdezésen.
(Nem kötelező)A lekérdezés gyors másolásának megkövetelése beállításához kattintson rá a jobb gombbal a beállítás kiválasztásához és engedélyezéséhez.
(Nem kötelező) Jelenleg csak egy Lakehouse-t konfigurálhat kimeneti célként. Bármely más célhely esetében szakaszozza a lekérdezést, és hivatkozzon rá később egy másik lekérdezésben, ahol bármilyen forráshoz kimenetet adhat.
Ellenőrizze a gyors másolásjelzőket, hogy a lekérdezés futtatható-e gyors másolással. Ha igen, a motor típusa a CopyActivity értéket jeleníti meg.
Tegye közzé az adatfolyamot.
A frissítés befejezése után ellenőrizze, hogy a gyors másolás megtörtént-e.
A lekérdezés felosztása a gyors másolás érdekében
Ha nagy mennyiségű adatot dolgoz fel az Adatfolyam Gen2-vel, az optimális teljesítmény érdekében használja a Gyors másolás funkciót az adatok átmeneti állapotba való betöltéséhez, majd az SQL DW-számítással nagy léptékben történő átalakításához. Ez a megközelítés jelentősen javítja a végpontok közötti teljesítményt.
Ennek megvalósítása érdekében a Fast Copy indikátorok segítségével két részre oszthatja a lekérdezést: az adatok betöltése előkészítési területre és a nagy léptékű átalakítás SQL DW feldolgozással. Javasoljuk, hogy a lekérdezések kiértékelésének minél nagyobb részét használja ki a Gyors Másolást, az adatok betöltése céljából. Ha a gyors másolás jelzői azt jelzik, hogy a többi lépést nem lehet végrehajtani a Gyors másolással, a lekérdezés többi részét feloszthatja úgy, hogy engedélyezve van az előkészítés.
Diagnosztikai lépésmutatók
Indikátor | Ikon | Leírás |
---|---|---|
Ezt a lépést gyors másolással fogják értékelni | ![]() |
A Gyors másolás jelző jelzi, hogy az ebben a lépésben megadott lekérdezés támogatja a gyors másolást. |
Ezt a lépést nem támogatja a gyors másolás | ![]() |
A Gyors másolás jelző azt mutatja, hogy ez a lépés nem támogatja a gyors másolást. |
A lekérdezés egy vagy több lépését nem támogatja a gyors lekérdezési rendszer | ![]() |
A Gyors másolás jelző azt mutatja, hogy a lekérdezés egyes lépései támogatják a gyors másolást, míg mások nem. Az optimalizáláshoz ossza fel a lekérdezést a következőképpen: sárga lépések (amelyeket esetleg támogat a Fast Copy) és piros lépések (amelyeket nem támogat). |
Részletes útmutató
Miután elvégezte az adatátalakítási logikát a Dataflow Gen2-ben, a Gyors másolás jelző kiértékeli az egyes lépéseket, hogy meghatározza, hány lépés használható a Gyors másolás funkcióval a jobb teljesítmény érdekében.
Az alábbi példában az utolsó lépés pirossal jelenik meg, ami azt jelzi, hogy a Fast Copy nem támogatja a csoportosítási lépést. A gyors másolás azonban valószínűleg támogatja a sárga színnel megjelenített összes korábbi lépést.
Jelenleg, ha közvetlenül közzéteszi és futtatja a Dataflow Gen2-t, az adatok betöltésére nem fogja az alábbi ábra szerint a gyors másolási motort használni.
A gyors másolási motor használatához és az adatfolyam Gen2 teljesítményének javításához a lekérdezést két részre oszthatja: adatbetöltés előkészítésre és nagy léptékű átalakításra az SQL DW-számítással, az alábbiak szerint:
Távolítsa el a gyors másolás által nem támogatott átalakításokat (pirossal), valamint a célhelyet (ha meg van adva).
A Gyors másolás jelző mostantól zöld színnel jelenik meg a többi lépésnél, ami azt jelenti, hogy az első lekérdezés a Gyors másolást használhatja a jobb teljesítmény érdekében.
Az első lekérdezéshez válassza az akciót, majd engedélyezze az Előkészítési és Referencia lehetőségeket.
Egy új hivatkozott lekérdezésben felolvassa a "Csoportosítási szempont" átalakítást és a célhelyet (ha van).
Tegye közzé és frissítse a Dataflow Gen2-t. Két lekérdezést fog látni a Dataflow Gen2-ben, és a teljes időtartam jelentősen lecsökkent.
Az első lekérdezés a gyors másolással betölti az adatokat az előkészítésbe.
A második lekérdezés nagy léptékű átalakításokat hajt végre az SQL DW-számítással.
Az első lekérdezés:
A második lekérdezés:
Ismert korlátozások
- A gyors másolás támogatásához helyszíni adatátjáró 3000.214.2-es vagy újabb verziójára van szükség.
- A virtuális hálózati átjáró nem támogatott.
- Az adatok lakehouse-beli meglévő táblába való írása nem támogatott.
- A rögzített séma nem támogatott.