Share via


Quickstart: Gegevens verplaatsen en transformeren met gegevensstromen en gegevenspijplijnen

In deze zelfstudie ontdekt u hoe de gegevensstroom en gegevenspijplijnervaring een krachtige en uitgebreide Data Factory-oplossing kunnen maken.

Voorwaarden

U moet aan de volgende vereisten voldoen om aan de slag te gaan:

Gegevensstromen vergeleken met pijplijnen

Met gegevensstromen Gen2 kunt u een interface met weinig code en 300+ gegevens- en AI-transformaties gebruiken, zodat u gegevens eenvoudig kunt opschonen, voorbereiden en transformeren met meer flexibiliteit dan elk ander hulpprogramma. Met gegevenspijplijnen zijn uitgebreide out-of-the-box mogelijkheden voor gegevensindeling mogelijk om flexibele gegevenswerkstromen op te stellen die voldoen aan de behoeften van uw bedrijf. In een pijplijn kunt u logische groeperingen maken van activiteiten die een taak uitvoeren, waaronder het aanroepen van een gegevensstroom voor het opschonen en voorbereiden van uw gegevens. Hoewel de twee functies elkaar overlappen, is de keuze voor een specifiek scenario afhankelijk van of u de volledige rijkdom van pijplijnen nodig hebt of de eenvoudigere maar beperktere mogelijkheden van gegevensstromen kunt gebruiken. Raadpleeg voor meer informatie de Fabric-beslissingengids

Gegevens transformeren met gegevensstromen

Volg deze stappen om uw gegevensstroom in te stellen.

Stap 1: Een gegevensstroom maken

  1. Kies uw Fabric-ingeschakelde werkruimte en selecteer vervolgens Nieuwe. Selecteer vervolgens Dataflow Gen2.

    Schermopname waarin wordt getoond waar u een gegevensstroom gen2 kunt maken.

  2. Het venster gegevensstroomeditor wordt weergegeven. Selecteer de kaart Importeren uit SQL Server.

    Schermopname van het venster gegevensstroomeditor.

Stap 2: Gegevens ophalen

  1. Voer in het dialoogvenster Verbinding maken met gegevensbron volgende dialoogvenster de details in om verbinding te maken met uw Azure SQL-database en selecteer vervolgens Volgende. In dit voorbeeld gebruikt u de AdventureWorksLT voorbeelddatabase die is geconfigureerd bij het instellen van de Azure SQL-database in de vereisten.

    Schermopname die laat zien hoe u verbinding maakt met een Azure SQL-database.

  2. Selecteer de gegevens die u wilt transformeren en klik vervolgens op Aanmaken. Voor deze quickstart selecteert u SalesLT.Customer- uit de AdventureWorksLT voorbeeldgegevens die zijn opgegeven voor Azure SQL DB. Vervolgens selecteert u de knop Gerelateerde tabellen selecteren om automatisch twee andere gerelateerde tabellen op te nemen.

    schermopname waarin wordt weergegeven waar u kunt kiezen uit de beschikbare gegevens.

Stap 3: uw gegevens transformeren

  1. Als deze optie niet is geselecteerd, selecteert u de knop diagramweergave op de statusbalk onder aan de pagina of selecteert u diagramweergave onder in het menu Weergave boven aan de Power Query-editor. Met een van deze opties kunt u de diagramweergave in- of uitschakelen.

    schermopname waarin wordt getoond waar u de diagramweergave kunt selecteren.

  2. Klik met de rechtermuisknop op uw SalesLT Customer query of selecteer het verticale beletselteken rechts van de query en selecteer vervolgens Query's samenvoegen.

    schermopname waarin wordt weergegeven waar u de optie Query's samenvoegen kunt vinden.

  3. Configureer de samenvoeging door de SalesLTOrderHeader tabel te selecteren als de juiste tabel voor de samenvoegbewerking, de kolom CustomerID uit elke tabel als de joinkolom en Left outer als jointype. Selecteer vervolgens OK- om de samenvoegquery toe te voegen.

    Schermopname van het Samenvoegen-configuratiescherm.

  4. Selecteer de knop Gegevensbestemming toevoegen, die eruitziet als een databasesymbool met een pijl erboven, vanuit de nieuwe samenvoegquery die u hebt gemaakt. Selecteer vervolgens Azure SQL-database als doeltype.

    Schermopname waarin de knop Gegevensbestemming toevoegen in de zojuist gemaakte samenvoegquery is gemarkeerd.

  5. Geef de details op voor uw Azure SQL-databaseverbinding waar de samenvoegquery moet worden gepubliceerd. In dit voorbeeld kunt u ook de AdventureWorksLT-database gebruiken die we als gegevensbron voor de bestemming hebben gebruikt.

    Schermopname van het dialoogvenster Verbinding maken met gegevensbestemming met ingevulde voorbeeldwaarden.

  6. Kies een database om de gegevens op te slaan en geef een tabelnaam op en selecteer vervolgens Volgende.

    Schermopname van het venster Doeldoel kiezen.

  7. U kunt de standaardinstellingen in het dialoogvenster Doelinstellingen kiezen laten en gewoon Instellingen opslaan selecteren zonder hier wijzigingen aan te brengen.

    schermopname van het dialoogvenster Doelinstellingen kiezen.

  8. Selecteer Publiceren terug op de pagina van de gegevensstroomeditor om de gegevensstroom te publiceren.

    Schermafbeelding met de knop Publiceren gemarkeerd in de gegevensstroom Gen2-editor.

Gegevens verplaatsen met gegevenspijplijnen

Nu u een Gegevensstroom Gen2 hebt gemaakt, kunt u ermee werken in een pijplijn. In dit voorbeeld kopieert u de gegevens die zijn gegenereerd op basis van de gegevensstroom in tekstindeling in een Azure Blob Storage-account.

Stap 1: Een nieuwe gegevenspijplijn maken

  1. Selecteer in uw werkruimte Nieuween selecteer vervolgens Gegevenspijplijn.

    Schermopname die laat zien waar een nieuwe gegevenspijplijn moet worden gestart.

  2. Geef uw pijplijn een naam en selecteer vervolgens Maken.

    Schermopname van de prompt voor het maken van een nieuwe pijplijn met een voorbeeldpijplijnnaam.

Stap 2: Uw gegevensstroom configureren

  1. Voeg een nieuwe gegevensstroomactiviteit toe aan uw gegevenspijplijn door gegevensstroom te selecteren op het tabblad Activiteiten.

    schermopname waarin wordt weergegeven waar u de optie Gegevensstroom kunt selecteren.

  2. Selecteer de gegevensstroom op het pijplijncanvas en klik vervolgens op het tabblad Instellingen. Kies de gegevensstroom die u eerder hebt gemaakt in de vervolgkeuzelijst.

    Schermopname waarin wordt getoond hoe u de gegevensstroom kiest die u hebt gemaakt.

  3. Selecteer Opslaanen voer uit om de gegevensstroom uit te voeren om de samengevoegde querytabel die u in de vorige stap hebt ontworpen in te vullen.

    schermopname waarin wordt weergegeven waar u Uitvoeren kunt selecteren.

Stap 3: De kopieerassistent gebruiken om een kopieeractiviteit toe te voegen

  1. Selecteer Gegevens kopiëren op het canvas om het hulpprogramma Kopieerassistent te openen om te beginnen. Of selecteer Gebruik kopieerassistent in de vervolgkeuzelijst Gegevens kopiëren onder het tabblad Activiteiten op de werkbalk.

    Schermopname van de twee manieren om toegang te krijgen tot de kopieerassistent.

  2. Kies uw gegevensbron door een gegevensbrontype te selecteren. In deze zelfstudie gebruikt u de Azure SQL Database die u eerder hebt gebruikt toen u de gegevensstroom maakte om een nieuwe samenvoegquery te genereren. Schuif omlaag onder de voorbeeldgegevensaanbiedingen en selecteer het tabblad Azure en Azure SQL Database. Selecteer vervolgens Volgende om door te gaan.

    schermopname waarin wordt weergegeven waar u een gegevensbron kunt kiezen.

  3. Maak een verbinding met uw gegevensbron door Nieuwe verbinding makente selecteren. Vul de vereiste verbindingsgegevens in het deelvenster in en voer AdventureWorksLT in voor de database, waar we de samenvoegquery in de gegevensstroom hebben gegenereerd. Selecteer vervolgens Volgende.

    schermopname waarin wordt weergegeven waar u een nieuwe verbinding maakt.

  4. Selecteer de tabel die u eerder hebt gegenereerd in de gegevensstroomstap en selecteer vervolgens Volgende.

    schermopname waarin wordt getoond hoe u een selectie kunt maken uit beschikbare tabellen.

  5. Kies voor uw bestemming Azure Blob Storage- en selecteer vervolgens Volgende.

    schermopname van de Azure Blob Storage-gegevensbestemming.

  6. Maak een verbinding met uw bestemming door Nieuwe verbinding makente selecteren. Geef de details voor uw verbinding op en selecteer vervolgens Volgende.

    schermopname waarin wordt getoond hoe u een verbinding maakt.

  7. Selecteer uw mappad en geef een bestandsnaam open selecteer vervolgens Volgende.

    Schermopname die laat zien hoe u de maplocatie en de bestandsnaam selecteert.

  8. Selecteer Volgende opnieuw om de standaardbestandsindeling, kolomscheidingsteken, rijscheidingsteken en compressietype te accepteren, eventueel inclusief een koptekst.

    schermopname met de configuratieopties voor het bestand in Azure Blob Storage.

  9. Voltooi uw instellingen. Controleer en selecteer vervolgens Opslaan en uitvoeren om het proces te voltooien.

    Schermopname waarin wordt getoond hoe u de instellingen voor het kopiëren van gegevens controleert.

Stap 5: Uw gegevenspijplijn ontwerpen en opslaan om gegevens uit te voeren en te laden

  1. Als u de activiteit Kopiëren wilt uitvoeren na de activiteit Gegevensstroom, sleept u vanuit Geslaagd bij de activiteit Gegevensstroom naar de activiteit Kopiëren. De activiteit Kopiëren wordt alleen uitgevoerd nadat de activiteit Gegevensstroom is geslaagd.

    Schermopname die laat zien hoe de gegevensstroomuitvoering plaatsvindt na de kopieeractiviteit.

  2. Selecteer Opslaan om uw gegevenspijplijn op te slaan. Selecteer vervolgens uitvoeren om uw gegevenspijplijn uit te voeren en uw gegevens te laden.

    schermopname waarin wordt weergegeven waar u Opslaan en Uitvoeren kunt selecteren.

Pijplijnuitvoering plannen

Zodra u klaar bent met het ontwikkelen en testen van uw pijplijn, kunt u plannen dat deze automatisch wordt uitgevoerd.

  1. Selecteer op het tabblad Home van het venster pijplijneditor de optie Schema.

    Een schermafbeelding van de knop Planning in het menu van het tabblad Start in de pijplijneditor.

  2. Configureer de planning naar behoefte. In het voorbeeld wordt de pijplijn gepland om dagelijks om 18:00 uur tot het einde van het jaar uit te voeren.

    Schermopname van de planningsconfiguratie voor een pijplijn die dagelijks om 18:00 uur wordt uitgevoerd tot het einde van het jaar.

In dit voorbeeld ziet u hoe u een Gegevensstroom Gen2 maakt en configureert om een samenvoegquery te maken en op te slaan in een Azure SQL-database en vervolgens gegevens uit de database kopieert naar een tekstbestand in Azure Blob Storage. U hebt geleerd hoe u het volgende kunt doen:

  • Maak een gegevensstroom.
  • Gegevens transformeren met de gegevensstroom.
  • Maak een gegevenspijplijn met behulp van de gegevensstroom.
  • Orden de uitvoering van stappen in de pijplijn.
  • Gegevens kopiëren met de Copy Assistant.
  • Voer uw gegevenspijplijn uit en plan deze.

Ga vervolgens verder voor meer informatie over het bewaken van uw pijplijnuitvoeringen.