Delen via


Snel kopiëren in Dataflows Gen2

In dit artikel wordt de functie voor snel kopiëren in Dataflows Gen2 voor Data Factory in Microsoft Fabric beschreven. Gegevensstromen helpen bij het opnemen en transformeren van gegevens. Met de introductie van de uitschalen van gegevensstromen met SQL DW-rekenkracht kunt u uw gegevens op schaal transformeren. Uw gegevens moeten echter eerst worden opgenomen. Met de introductie van snel kopiëren kunt u terabytes aan gegevens opnemen met de eenvoudige ervaring van gegevensstromen, maar met de schaalbare back-end van de pijplijnkopieactiviteit.

Na het inschakelen van deze mogelijkheid schakelen gegevensstromen automatisch over naar de back-end wanneer de gegevensgrootte een bepaalde drempelwaarde overschrijdt, zonder dat ze iets hoeven te wijzigen tijdens het ontwerpen van de gegevensstromen. Na het vernieuwen van een gegevensstroom kunt u de vernieuwingsgeschiedenis controleren om te zien of er snel kopiëren is gebruikt tijdens de uitvoering door te kijken naar het enginetype dat daar wordt weergegeven.

Als de optie Vereis snelle kopie is ingeschakeld, wordt de gegevensstroomvernieuwing geannuleerd als er geen snelle kopie wordt gebruikt. Dit helpt u te voorkomen dat u wacht totdat een vernieuwingstime-out wordt voortgezet. Dit gedrag kan ook nuttig zijn in een foutopsporingssessie om het gedrag van de gegevensstroom met uw gegevens te testen terwijl de wachttijd wordt verkort. Met behulp van de indicatoren voor snel kopiëren in het deelvenster querystappen kunt u eenvoudig controleren of uw query kan worden uitgevoerd met snelle kopie.

Schermopname die laat zien waar de indicator voor snel kopiëren wordt weergegeven in het deelvenster querystappen.

Vereisten

  • U moet een Fabric-capaciteit hebben.
  • Voor bestandsgegevens hebben bestanden een .csv- of parquet-indeling van ten minste 100 MB en zijn ze opgeslagen in een Azure Data Lake Storage Gen2-account (ADLS) Gen2 of een Blob Storage-account.
  • Voor databases, waaronder Azure SQL DB en PostgreSQL, zijn er 5 miljoen rijen of meer gegevens in de gegevensbron.

Notitie

U kunt de drempelwaarde omzeilen om Snel kopiëren af te dwingen door de instelling Snel kopiëren vereisen te selecteren.

Connectorondersteuning

Snel kopiëren wordt momenteel ondersteund voor de volgende Dataflow Gen2-connectors:

  • ADLS Gen2
  • Blob-opslag
  • Azure SQL Database
  • Lakehouse
  • PostgreSQL
  • On-premises SQL Server
  • Magazijn
  • Oracle
  • Snowflake

De kopieeractiviteit ondersteunt slechts enkele transformaties bij het maken van verbinding met een bestandsbron:

  • Bestanden combineren
  • Kolommen selecteren
  • Gegevenstypen wijzigen
  • De naam van een kolom wijzigen
  • Een kolom verwijderen

U kunt nog steeds andere transformaties toepassen door de opname- en transformatiestappen op te splitsen in afzonderlijke query's. De eerste query haalt de gegevens daadwerkelijk op en de tweede query verwijst naar de resultaten, zodat DW-rekenkracht kan worden gebruikt. Voor SQL-bronnen wordt elke transformatie die deel uitmaakt van de systeemeigen query ondersteund.

Wanneer u de query rechtstreeks naar een uitvoerbestemming laadt, worden momenteel alleen Lakehouse-bestemmingen ondersteund. Als u een andere uitvoerbestemming wilt gebruiken, kunt u de query eerst faseereren en er later naar verwijzen.

Snel kopiëren gebruiken

  1. Navigeer naar het juiste Fabric-eindpunt.

  2. Navigeer naar een Premium-werkruimte en maak een gegevensstroom Gen2.

  3. Selecteer Opties op het tabblad Start van de nieuwe gegevensstroom:

    Schermopname die laat zien waar u de opties voor gegevensstromen Gen2 selecteert op het tabblad Start.

  4. Kies vervolgens het tabblad Schaal in het dialoogvenster Opties en schakel het selectievakje Snelle kopieerconnectors toestaan in om snel kopiëren in te schakelen. Sluit vervolgens het dialoogvenster Opties.

    Schermopname die laat zien waar u snel kopiëren kunt inschakelen op het tabblad Schaal van het dialoogvenster Opties.

  5. Selecteer Gegevens ophalen en kies vervolgens de ADLS Gen2-bron en vul de details voor uw container in.

  6. Gebruik de functionaliteit Bestand combineren.

    Schermopname van het venster Voorbeeld van mapgegevens met de optie Combineren gemarkeerd.

  7. Als u snel kopiëren wilt garanderen, past u alleen transformaties toe die worden vermeld in de sectie Connector-ondersteuning van dit artikel. Als u meer transformaties wilt toepassen, moet u eerst de gegevens faseren en later naar de query verwijzen. Maak andere transformaties voor de query waarnaar wordt verwezen.

  8. (Optioneel) U kunt de optie Snelle kopie vereisen voor de query instellen door er met de rechtermuisknop op te klikken om die optie te selecteren en in te schakelen.

    Schermopname die laat zien waar u de optie Snel kopiëren vereisen selecteert in het snelmenu voor een query.

  9. (Optioneel) Op dit moment kunt u alleen een Lakehouse configureren als de uitvoerbestemming. Faseer de query voor elke andere bestemming en verwijs ernaar verderop in een andere query, waar u naar elke bron kunt uitvoeren.

  10. Controleer de indicatoren voor snel kopiëren om te zien of uw query kan worden uitgevoerd met snelle kopie. Zo ja, dan wordt in het enginetype CopyActivity weergegeven.

    Schermopname van de vernieuwingsdetails die aangeven dat de pijplijn CopyActivity-engine is gebruikt.

  11. Publiceer de gegevensstroom.

  12. Controleer nadat het vernieuwen is voltooid om te bevestigen dat snel kopiëren is gebruikt.

Hoe uw query splitsen om gebruik te maken van snelle kopie.

Voor optimale prestaties bij het verwerken van grote hoeveelheden gegevens met Dataflow Gen2 gebruikt u de functie Snel kopiëren om eerst gegevens te importeren in een tussenlaag en deze vervolgens op schaal te transformeren met SQL Data Warehouse-rekenkracht. Deze aanpak verbetert de end-to-end-prestaties aanzienlijk.

Om dit te implementeren, kunnen Fast Copy-indicatoren u helpen bij het splitsen van query's in twee delen: gegevensopname voor fasering en grootschalige transformatie met SQL DW-rekenkracht. U wordt aangemoedigd om zoveel mogelijk van de query-evaluatie door Fast Copy te laten uitvoeren, zodat dit kan worden gebruikt om uw gegevens in te voeren. Wanneer in Fast Copy-indicatoren wordt aangegeven dat de reststappen niet kunnen worden uitgevoerd door Fast Copy, kunt u de rest van de query splitsen met fasering ingeschakeld.

Indicatoren voor stapdiagnostiek

Indicator Icoon Beschrijving
Deze stap wordt geëvalueerd met de snelle kopieermethode De indicator Voor snel kopiëren geeft aan dat de query tot aan deze stap ondersteuning biedt voor snel kopiëren.
Deze stap wordt niet ondersteund door snel kopiëren De indicator Voor snel kopiëren geeft aan dat deze stap geen ondersteuning biedt voor Fast Copy.
Een of meer stappen in uw query worden niet ondersteund door de snelle queryfunctie De indicator Snel kopiëren laat zien dat sommige stappen in deze query Fast Copy ondersteunen, terwijl andere niet. Als u de query wilt optimaliseren, splitst u de query op: gele stappen (mogelijk ondersteund door Fast Copy) en rode stappen (niet ondersteund).

Stapsgewijze richtlijnen

Nadat u de logica voor gegevenstransformatie in Dataflow Gen2 hebt voltooid, evalueert de indicator Voor snelle kopieerbewerking elke stap om te bepalen hoeveel stappen gebruikmaken van Fast Copy voor betere prestaties.

In het onderstaande voorbeeld wordt de laatste stap rood weergegeven, waarmee wordt aangegeven dat de stap met Groeperen op niet wordt ondersteund door Fast Copy. Alle vorige stappen met geel kunnen echter mogelijk worden ondersteund door Fast Copy.

Schermopname van de eerste query.

Momenteel, als u uw Dataflow Gen2 rechtstreeks publiceert en uitvoert, zal de Fast Copy-engine niet worden gebruikt om uw gegevens te laden, zoals in de onderstaande afbeelding.

Schermopname van het resultaat zonder dat snel kopiëren is ingeschakeld.

Als u de fast copy-engine wilt gebruiken en de prestaties van uw Dataflow Gen2 wilt verbeteren, kunt u uw query als volgt splitsen in twee delen: gegevensopname voor fasering en grootschalige transformatie met SQL DW-rekenkracht:

  1. Verwijder de transformaties (met rood) die niet worden ondersteund door Fast Copy, samen met de bestemming (indien gedefinieerd).

  2. De indicator Voor snel kopiëren wordt nu groen weergegeven voor de resterende stappen, wat betekent dat uw eerste query gebruikmaakt van Fast Copy voor betere prestaties.

    Selecteer Actie voor uw eerste query en kies Vervolgens Fasering en Verwijzing inschakelen.

    schermopname van de tweede query.

  3. In een nieuwe query waarnaar wordt verwezen, heeft u de transformatie 'Groeperen op' en de bestemming gelezen (indien van toepassing).

    schermopname van de derde query.

  4. Publiceer en vernieuw uw Gegevensstroom Gen2. U ziet nu twee query's in uw Dataflow Gen2 en de totale duur is grotendeels verminderd.

    • De eerste query neemt gegevens op in fasering met behulp van Fast Copy.

    • Met de tweede query worden grootschalige transformaties uitgevoerd met behulp van SQL DW-rekenkracht.

      schermopname met het resultaat van de query.

    De eerste query:

    Screenshot met het resultaat van invoer.

    De tweede query:

    schermopname met het resultaat van de transformatie.

Bekende beperkingen

  1. Er is een on-premises gegevensgatewayversie 3000.214.2 of hoger nodig om Fast Copy te ondersteunen.
  2. De VNet-gateway wordt niet ondersteund.
  3. Het schrijven van gegevens in een bestaande tabel in Lakehouse wordt niet ondersteund.
  4. Vast schema wordt niet ondersteund.