Zdieľať cez


Rýchla kópia v tokoch údajov Gen2

Tento článok popisuje funkciu rýchleho kopírovania v službe Dataflows Gen2 for Data Factory v službe Microsoft Fabric. Toky údajov pomáhajú pri ich požití a transformácii. Po zavedení škálovania toku údajov s výpočtom SQL DW môžete svoje údaje transformovať vo väčšom meradle. Vaše údaje však treba najskôr posunúť. Úvodom do rýchleho kopírovania môžete ingestovať terabajty údajov s jednoduchým prostredím tokov údajov, ale so škálovateľným koncovým serverom kanála Kopírovať aktivitu.

Po povolení tejto funkcie toky údajov automaticky prejdú serverom, keď veľkosť údajov prekročí určitú prahovú hodnotu, a to bez toho, aby bolo potrebné nič meniť počas vytváranie tokov údajov. Po obnovení toku údajov môžete skontrolovať históriu obnovení a zistiť, či sa počas spustenia použila rýchla kópia, a pozrite si typ nástroja , ktorý sa tam zobrazuje.

Keď je povolená možnosť Požadovať rýchle kopírovanie, obnovenie toku údajov sa zruší, ak sa nepoužíva rýchla kópia. Pomôže vám to vyhnúť sa čakaniu na pokračovanie obnovenia. Toto správanie môže byť užitočné aj v relácii ladenia, aby bolo možné otestovať správanie toku údajov s údajmi a zároveň skrátiť čas čakania. Pomocou indikátorov rýchleho kopírovania na table kroky dotazu môžete jednoducho skontrolovať, či sa dotazu podarí rýchlo kopírovať.

Snímka obrazovky znázorňujúca, kde sa indikátor rýchleho kopírovania zobrazuje na table krokov dotazu.

Požiadavky

  • Musíte mať kapacitu služby Fabric.
  • V prípade údajov súboru sú súbory vo formáte .csv alebo parquet minimálne 100 MB a uložené v službe Azure Data Lake Storage (ADLS) Gen2 alebo konte úložiska Blob.
  • V prípade databázy vrátane databázy Azure SQL DB a PostgreSQL môže byť v zdroji údajov 5 miliónov riadkov alebo viac.

Poznámka

Prahovú hodnotu môžete obísť tak, aby sa vynútila rýchla kópia výberom nastavenia "Požadovať rýchle kopírovanie".

Podpora konektorov

Rýchla kópia je momentálne podporovaná pre nasledujúce konektory služby Gen2 toku údajov:

  • ADLS Gen2
  • Ukladací priestor objektu BLOB
  • Databáza Azure SQL
  • Lakehouse
  • PostgreSQL
  • Lokálny SQL Server
  • Warehouse
  • Oracle
  • Snowflake

Aktivita kopírovania podporuje len niekoľko transformácií pri pripájaní k zdroju súboru:

  • Skombinovať súbory
  • Vybrať stĺpce
  • Zmena typov údajov
  • Premenovanie stĺpca
  • Odstránenie stĺpca

Aj naďalej môžete použiť ďalšie transformácie rozdelením krokov príjmu a transformácie do samostatných dotazov. Prvý dotaz v skutočnosti načíta údaje a druhý dotaz odkazuje na svoje výsledky tak, aby sa mohol použiť výpočet DW. V prípade zdrojov SQL je podporovaná akákoľvek transformácia, ktorá je súčasťou natívneho dotazu.

Keď priamo načítate dotaz do výstupného cieľa, v súčasnosti sú podporované iba ciele Lakehouse. Ak chcete použiť iné výstupné cieľové umiestnenie, môžete dotaz zinscenovať ako prvý a odkazovať naň neskôr.

Ako používať rýchlu kópiu

  1. Prejdite na príslušný koncový bod služby Fabric.

  2. Prejdite do pracovného priestoru Premium a vytvorte tok údajov Gen2.

  3. Na karte Domov nového toku údajov vyberte položku Možnosti:

    Snímka obrazovky znázorňujúca miesto, kde sa má vybrať možnosť Možnosti pre toky údajov Gen2 na karte Domov.

  4. Potom vyberte kartu Mierka v dialógovom okne Možnosti a začiarknutím políčka Povoliť použitie konektorov rýchleho kopírovania zapnite rýchle kopírovanie. Potom zatvorte dialógové okno Možnosti.

    Snímka obrazovky znázorňujúca miesto, kde je možné povoliť rýchlu kópiu na karte Mierka dialógového okna Možnosti.

  5. Vyberte položku Získať údaje , potom vyberte zdroj ADLS Gen2 a vyplňte podrobnosti o svojom kontajneri.

  6. Použite funkciu Kombinovať súbor.

    Snímka obrazovky znázorňujúca okno Ukážka údajov priečinka so zvýraznenou možnosťou Kombinovať.

  7. Ak chcete zabezpečiť rýchlu kópiu, použite len transformácie uvedené v časti Podpora konektora v tomto článku. Ak potrebujete použiť viac transformácií, najskôr zinscenujte údaje a neskôr odkazujte na dotaz. Vykonať ďalšie transformácie v odkazujúcom dotaze.

  8. (Voliteľné) Môžete nastaviť možnosť Požadovať rýchlu kópiu dotazu kliknutím pravým tlačidlom myši naň a vybrať a povoliť túto možnosť.

    Snímka obrazovky znázorňujúca, kde v ponuke pravého tlačidla myši pre dotaz vyberte možnosť Požadovať rýchlu kópiu.

  9. (Voliteľné) V súčasnosti môžete ako výstupný cieľ nakonfigurovať iba lakehouse. V prípade akéhokoľvek iného cieľa vykonajte dotaz do fázy a potom naň odkazujte v inom dotaze, kde môžete vytvoriť výstup do ľubovoľného zdroja.

  10. Skontrolujte indikátory rýchleho kopírovania, či sa dotaz nedá rýchlo kopírovať. Ak áno, v type nástroja sa zobrazí CopyActivity.

    Snímka obrazovky znázorňujúca podrobnosti o obnovení, ktoré označujú, že kanál CopyActivity engine bol použitý.

  11. Publikujte tok údajov.

  12. Po dokončení obnovenia skontrolujte, či sa použila rýchla kópia.

Rozdelenie dotazu s cieľom využiť rýchlu kópiu

Na optimálny výkon pri spracovaní veľkých objemov údajov pomocou toku údajov Gen2 použite funkciu Rýchle kopírovanie a najprv ingestujte údaje do pracovnej verzie a potom ich transformujte na škálovanie pomocou príkazu SQL DW. Tento prístup výrazne zvyšuje komplexný výkon.

Ak to chcete vykonať, indikátory rýchleho kopírovania vás môžu nasmerovať k tomu, aby ste dotaz rozdelili na dve časti: príjem údajov na fázu a veľkoplošnú transformáciu s výpočtom SQL DW. Môžete odoslať čo najväčšiu časť vyhodnotenia dotazu do časti Rýchla kópia, ktorá sa dá použiť na presunutie údajov. Ak indikátory rýchleho kopírovania signalčia, že ostatné kroky nie je možné vykonať rýchlym kopírovaním, zvyšok dotazu môžete rozdeliť tak, aby bola povolená pracovná verzia.

Ukazovatele diagnostiky krokov

Indikátor Ikona Popis
Tento krok sa vyhodnocuje rýchlym kopírovaním Indikátor Rýchla kópia označuje, že dotaz až na tento krok podporuje rýchle kopírovanie.
Tento krok nie je podporovaný rýchlym kopírovaním Indikátor Rýchleho kopírovania ukazuje, že tento krok nepodporuje Rýchlu kópiu.
Jeden alebo viacero krokov v dotaze nepodporuje rýchly Indikátor Rýchla kópia ukazuje, že niektoré kroky v tomto dotaze podporujú Rýchle kopírovanie, zatiaľ čo iné nie. Ak chcete optimalizovať, rozdeľte dotaz: žlté kroky (potenciálne podporované rýchlym kopírovaním) a červené kroky (nepodporované).

Podrobné pokyny

Po dokončení logiky transformácie údajov v službe Dataflow Gen2 indikátor rýchleho kopírovania vyhodnotí každý krok a určí, koľko krokov môže využívať rýchlu kópiu na lepší výkon.

V nižšie uvedenom príklade je posledný krok červený, čo znamená, že krok s Zoskupovať podľa nie je podporovaný funkciou Rýchla kópia. Rýchle kopírovanie môže potenciálne podporovať všetky predchádzajúce kroky zobrazujúce žltú.

Snímka obrazovky zobrazujúca prvý dotaz.

Ak v súčasnosti priamo publikujete a spúšťate svoj tok údajov Gen2, na načítanie údajov nebude možné použiť nástroj Rýchla kópia ako na obrázku nižšie:

Snímka obrazovky zobrazujúca výsledok bez povoleného rýchleho kopírovania.

Ak chcete používať nástroj Rýchle kopírovanie a zvýšiť výkon toku údajov Gen2, môžete dotaz rozdeliť na dve časti: príjem údajov na fázovanie a rozsiahle transformácie pomocou výpočtu SQL DW nasledovne:

  1. Odstráňte transformácie (zobrazujúce červenú), ktoré nie sú podporované funkciou Rýchla kópia, spolu s cieľom (ak je definovaný).

  2. Indikátor Rýchla kópia teraz zobrazuje zelenú, čo znamená, že váš prvý dotaz môže využívať funkciu Rýchla kópia na lepší výkon.

    Pre prvý dotaz vyberte možnosť Akcia a potom položku Povoliť fázu a odkaz.

    Snímka obrazovky zobrazujúca druhý dotaz.

  3. V novom odkazujúnom dotaze sa čítala transformácia "Zoskupovať podľa" a cieľ (ak existuje).

    Snímka obrazovky zobrazujúca tretí dotaz.

  4. Publikujte a obnovte svoj tok údajov Gen2. V službe Gen2 toku údajov sa teraz zobrazia dva dotazy a celkové trvanie je z veľkej časti skrátené.

    • Prvý dotaz ingestuje údaje do pracovnej verzie pomocou Rýchleho kopírovania.

    • Druhý dotaz vykoná rozsiahle transformácie pomocou výpočtu SQL DW.

      Snímka obrazovky zobrazujúca výsledok dotazu.

    Prvý dotaz:

    Snímka obrazovky zobrazujúca výsledok príjmu.

    Druhý dotaz:

    Snímka obrazovky zobrazujúca výsledok transformácie.

Známe obmedzenia

  1. Na podporu rýchlej kópie je potrebná lokálna brána údajov verzia 3000.214.2 alebo novšia.
  2. Brána VNet nie je podporovaná.
  3. Zapisovanie údajov do existujúcej tabuľky v službe Lakehouse nie je podporované.
  4. Pevná schéma nie je podporovaná.