Quickstart: Gegevens verplaatsen en transformeren met gegevensstromen en gegevenspijplijnen
In deze zelfstudie ontdekt u hoe de gegevensstroom en gegevenspijplijnervaring een krachtige en uitgebreide Data Factory-oplossing kunnen maken.
Voorwaarden
U moet aan de volgende vereisten voldoen om aan de slag te gaan:
- Een tenantaccount met een actief abonnement. Maak een gratis account.
- Zorg ervoor dat u een werkruimte met Microsoft Fabric hebt ingeschakeld: Maak een werkruimte die niet de standaard mijn werkruimte is.
- een Azure SQL-database met tabelgegevens.
- een Blob Storage-account.
Gegevensstromen vergeleken met pijplijnen
Met gegevensstromen Gen2 kunt u een interface met weinig code en 300+ gegevens- en AI-transformaties gebruiken, zodat u gegevens eenvoudig kunt opschonen, voorbereiden en transformeren met meer flexibiliteit dan elk ander hulpprogramma. Met gegevenspijplijnen zijn uitgebreide out-of-the-box mogelijkheden voor gegevensindeling mogelijk om flexibele gegevenswerkstromen op te stellen die voldoen aan de behoeften van uw bedrijf. In een pijplijn kunt u logische groeperingen maken van activiteiten die een taak uitvoeren, waaronder het aanroepen van een gegevensstroom voor het opschonen en voorbereiden van uw gegevens. Hoewel de twee functies elkaar overlappen, is de keuze voor een specifiek scenario afhankelijk van of u de volledige rijkdom van pijplijnen nodig hebt of de eenvoudigere maar beperktere mogelijkheden van gegevensstromen kunt gebruiken. Raadpleeg voor meer informatie de Fabric-beslissingengids
Gegevens transformeren met gegevensstromen
Volg deze stappen om uw gegevensstroom in te stellen.
Stap 1: Een gegevensstroom maken
Kies uw Fabric-ingeschakelde werkruimte en selecteer vervolgens Nieuwe. Selecteer vervolgens Dataflow Gen2.
Het venster gegevensstroomeditor wordt weergegeven. Selecteer de kaart Importeren uit SQL Server.
Stap 2: Gegevens ophalen
Voer in het dialoogvenster Verbinding maken met gegevensbron volgende dialoogvenster de details in om verbinding te maken met uw Azure SQL-database en selecteer vervolgens Volgende. In dit voorbeeld gebruikt u de AdventureWorksLT voorbeelddatabase die is geconfigureerd bij het instellen van de Azure SQL-database in de vereisten.
Selecteer de gegevens die u wilt transformeren en klik vervolgens op Aanmaken. Voor deze quickstart selecteert u SalesLT.Customer- uit de AdventureWorksLT voorbeeldgegevens die zijn opgegeven voor Azure SQL DB. Vervolgens selecteert u de knop Gerelateerde tabellen selecteren om automatisch twee andere gerelateerde tabellen op te nemen.
Stap 3: uw gegevens transformeren
Als deze optie niet is geselecteerd, selecteert u de knop diagramweergave op de statusbalk onder aan de pagina of selecteert u diagramweergave onder in het menu Weergave boven aan de Power Query-editor. Met een van deze opties kunt u de diagramweergave in- of uitschakelen.
Klik met de rechtermuisknop op uw SalesLT Customer query of selecteer het verticale beletselteken rechts van de query en selecteer vervolgens Query's samenvoegen.
Configureer de samenvoeging door de SalesLTOrderHeader tabel te selecteren als de juiste tabel voor de samenvoegbewerking, de kolom CustomerID uit elke tabel als de joinkolom en Left outer als jointype. Selecteer vervolgens OK- om de samenvoegquery toe te voegen.
Selecteer de knop Gegevensbestemming toevoegen, die eruitziet als een databasesymbool met een pijl erboven, vanuit de nieuwe samenvoegquery die u hebt gemaakt. Selecteer vervolgens Azure SQL-database als doeltype.
Geef de details op voor uw Azure SQL-databaseverbinding waar de samenvoegquery moet worden gepubliceerd. In dit voorbeeld kunt u ook de AdventureWorksLT-database gebruiken die we als gegevensbron voor de bestemming hebben gebruikt.
Kies een database om de gegevens op te slaan en geef een tabelnaam op en selecteer vervolgens Volgende.
U kunt de standaardinstellingen in het dialoogvenster Doelinstellingen kiezen laten en gewoon Instellingen opslaan selecteren zonder hier wijzigingen aan te brengen.
Selecteer Publiceren terug op de pagina van de gegevensstroomeditor om de gegevensstroom te publiceren.
Gegevens verplaatsen met gegevenspijplijnen
Nu u een Gegevensstroom Gen2 hebt gemaakt, kunt u ermee werken in een pijplijn. In dit voorbeeld kopieert u de gegevens die zijn gegenereerd op basis van de gegevensstroom in tekstindeling in een Azure Blob Storage-account.
Stap 1: Een nieuwe gegevenspijplijn maken
Selecteer in uw werkruimte Nieuween selecteer vervolgens Gegevenspijplijn.
Geef uw pijplijn een naam en selecteer vervolgens Maken.
Stap 2: Uw gegevensstroom configureren
Voeg een nieuwe gegevensstroomactiviteit toe aan uw gegevenspijplijn door gegevensstroom te selecteren op het tabblad Activiteiten.
Selecteer de gegevensstroom op het pijplijncanvas en klik vervolgens op het tabblad Instellingen. Kies de gegevensstroom die u eerder hebt gemaakt in de vervolgkeuzelijst.
Selecteer Opslaanen voer uit om de gegevensstroom uit te voeren om de samengevoegde querytabel die u in de vorige stap hebt ontworpen in te vullen.
Stap 3: De kopieerassistent gebruiken om een kopieeractiviteit toe te voegen
Selecteer Gegevens kopiëren op het canvas om het hulpprogramma Kopieerassistent te openen om te beginnen. Of selecteer Gebruik kopieerassistent in de vervolgkeuzelijst Gegevens kopiëren onder het tabblad Activiteiten op de werkbalk.
Kies uw gegevensbron door een gegevensbrontype te selecteren. In deze zelfstudie gebruikt u de Azure SQL Database die u eerder hebt gebruikt toen u de gegevensstroom maakte om een nieuwe samenvoegquery te genereren. Schuif omlaag onder de voorbeeldgegevensaanbiedingen en selecteer het tabblad Azure en Azure SQL Database. Selecteer vervolgens Volgende om door te gaan.
Maak een verbinding met uw gegevensbron door Nieuwe verbinding makente selecteren. Vul de vereiste verbindingsgegevens in het deelvenster in en voer AdventureWorksLT in voor de database, waar we de samenvoegquery in de gegevensstroom hebben gegenereerd. Selecteer vervolgens Volgende.
Selecteer de tabel die u eerder hebt gegenereerd in de gegevensstroomstap en selecteer vervolgens Volgende.
Kies voor uw bestemming Azure Blob Storage- en selecteer vervolgens Volgende.
Maak een verbinding met uw bestemming door Nieuwe verbinding makente selecteren. Geef de details voor uw verbinding op en selecteer vervolgens Volgende.
Selecteer uw mappad en geef een bestandsnaam open selecteer vervolgens Volgende.
Selecteer Volgende opnieuw om de standaardbestandsindeling, kolomscheidingsteken, rijscheidingsteken en compressietype te accepteren, eventueel inclusief een koptekst.
Voltooi uw instellingen. Controleer en selecteer vervolgens Opslaan en uitvoeren om het proces te voltooien.
Stap 5: Uw gegevenspijplijn ontwerpen en opslaan om gegevens uit te voeren en te laden
Als u de activiteit Kopiëren wilt uitvoeren na de activiteit Gegevensstroom, sleept u vanuit Geslaagd bij de activiteit Gegevensstroom naar de activiteit Kopiëren. De activiteit Kopiëren wordt alleen uitgevoerd nadat de activiteit Gegevensstroom is geslaagd.
Selecteer Opslaan om uw gegevenspijplijn op te slaan. Selecteer vervolgens uitvoeren om uw gegevenspijplijn uit te voeren en uw gegevens te laden.
Pijplijnuitvoering plannen
Zodra u klaar bent met het ontwikkelen en testen van uw pijplijn, kunt u plannen dat deze automatisch wordt uitgevoerd.
Selecteer op het tabblad Home van het venster pijplijneditor de optie Schema.
Configureer de planning naar behoefte. In het voorbeeld wordt de pijplijn gepland om dagelijks om 18:00 uur tot het einde van het jaar uit te voeren.
Verwante inhoud
In dit voorbeeld ziet u hoe u een Gegevensstroom Gen2 maakt en configureert om een samenvoegquery te maken en op te slaan in een Azure SQL-database en vervolgens gegevens uit de database kopieert naar een tekstbestand in Azure Blob Storage. U hebt geleerd hoe u het volgende kunt doen:
- Maak een gegevensstroom.
- Gegevens transformeren met de gegevensstroom.
- Maak een gegevenspijplijn met behulp van de gegevensstroom.
- Orden de uitvoering van stappen in de pijplijn.
- Gegevens kopiëren met de Copy Assistant.
- Voer uw gegevenspijplijn uit en plan deze.
Ga vervolgens verder voor meer informatie over het bewaken van uw pijplijnuitvoeringen.