Rýchla konfigurácia: Vytvorenie prvého toku údajov na získanie a transformáciu údajov
Toky údajov predstavujú samoobslužnú cloudovú technológiu prípravy údajov. V tomto článku vytvoríte svoj prvý tok údajov, získate údaje pre svoj tok údajov, potom transformujete údaje a publikujete tok údajov.
Požiadavky
Pred začatím sa vyžadujú nasledujúce predpoklady:
- konto nájomníka služby Microsoft Fabric s aktívnym predplatným, Vytvorte si bezplatné konto.
- Uistite sa, že máte povolený pracovný priestor služby Microsoft Fabric: Vytvorte pracovný priestor.
Vytvorenie toku údajov
V tejto časti vytvárate svoj prvý tok údajov.
Prepnite na prostredie výrobcu údajov.
Prejdite do pracovného priestoru služby Microsoft Fabric.
Vyberte položku Nové a potom vyberte položku Tok údajov Gen2.
Získať údaje
Poďme získať nejaké údaje. V tomto príklade získavate údaje zo služby OData. Údaje vo svojom toku údajov získate podľa nasledujúcich krokov.
V editore toku údajov vyberte položku Získať údaje a potom vyberte položku Viac.
V časti Vybrať zdroj údajov vyberte položku Zobraziť viac.
V časti Nový zdroj vyberte ako zdroj údajov možnosť Iné>OData.
Zadajte URL adresu
https://services.odata.org/v4/northwind/northwind.svc/
a potom vyberte položku Ďalej.Vyberte tabuľky Orders (Objednávky) a Customers (Zákazníci) a potom vyberte položku Create (Vytvoriť).
Ďalšie informácie o získaní údajov a funkciách nájdete v téme Prehľad získavania údajov.
Použitie transformácií a publikovanie
Teraz ste načítali svoje údaje do prvého toku údajov. Gratulujem! Teraz je čas použiť niekoľko transformácií, aby sa tieto údaje mohli dostať do želaného tvaru.
Túto úlohu vykonáte v editore Power Query. Podrobný prehľad editora Power Query nájdete v používateľskom rozhraní Power Query.
Ak chcete použiť transformácie a publikovať, postupujte podľa týchto krokov:
Uistite sa, že nástroje profilovania údajov sú povolené prechodom na položku
Nezabudnite tiež povoliť zobrazenie diagramu pomocou možností na karte Zobraziť na páse s nástrojmi Editora Power Query alebo výberom ikony zobrazenia diagramu v pravej dolnej časti okna Power Query.
V tabuľke Objednávky vypočítate celkový počet objednávok na zákazníka. Ak chcete dosiahnuť tento cieľ, vyberte stĺpec CustomerID v ukážke údajov a potom vyberte položku Zoskupiť podľa na karte Transformovať na páse s nástrojmi.
Vykonáte počet riadkov ako agregáciu v rámci funkcie Zoskupiť podľa. Ďalšie informácie o funkciách zoskupiť podľa nájdete v téme Zoskupenie alebo sumarizáciu riadkov.
Po zoskupení údajov v tabuľke Orders (Objednávky) získame tabuľku s dvomi stĺpcami CustomerID (ID zákazníka) a Count (Počet ) ako stĺpce.
V ďalšom kroku budete chcieť skombinovať údaje z tabuľky Customers s počtom objednávok na zákazníka. Ak chcete skombinovať údaje, vyberte dotaz Customers (Zákazníci) v zobrazení diagramu a pomocou ponuky ⋮ získate prístup k zlučovacím dotazom ako k novej transformácii.
Nakonfigurujte operáciu Zlúčenie tak, ako je to znázornené na nasledujúcej snímke obrazovky, výberom položky CustomerID ako zodpovedajúceho stĺpca v oboch tabuľkách. Potom vyberte tlačidlo OK.
Snímka obrazovky okna Zlúčenie s ľavou tabuľkou na zlúčenie nastavenou na tabuľku Zákazníci a pravou tabuľkou na zlúčenie nastavenou na tabuľku Orders. Stĺpec CustomerID je vybratý pre tabuľky Customers (Zákazníci) aj Orders (Objednávky). Okrem toho je vlastnosť Druh spojenia nastavená na možnosť Ľavý vonkajší. Všetky ostatné výbery sú nastavené na predvolenú hodnotu.
Keď vykonáte zlúčiť dotazy ako novú operáciu, získate nový dotaz so všetkými stĺpcami z tabuľky Zákazníci a jeden stĺpec s vnorenými údajmi z tabuľky Orders.
V tomto príklade vás zaujíma len podmnožina stĺpcov v tabuľke Zákazníci. Tieto stĺpce vyberiete pomocou zobrazenia schémy. Povoľte zobrazenie schémy v rámci tlačidla prepínača v pravom dolnom rohu editora tokov údajov.
Zobrazenie schémy poskytuje zamerané zobrazenie informácií o schéme tabuľky vrátane názvov stĺpcov a typov údajov. Zobrazenie schémy obsahuje množinu nástrojov schémy, ktoré sú k dispozícii prostredníctvom kontextovej karty na páse s nástrojmi. V tomto scenári vyberte stĺpce CustomerID (ID zákazníka), CompanyName (Názov spoločnosti) a Orders (2), potom vyberte tlačidlo Odstrániť stĺpce a potom na karte Nástroje schémy vyberte položku Remove other columns (Odstrániť ostatné stĺpce).
Stĺpec Orders (2) obsahuje vnorené informácie vyplývajúce z operácie zlúčenia, ktorú ste vykonali pred niekoľkými krokmi. Teraz sa prepnite späť na zobrazenie údajov výberom tlačidla Zobraziť údaje vedľa tlačidla Zobraziť schému v pravom dolnom rohu používateľského rozhrania. Potom v hlavičke stĺpca Orders (2) vyberte stĺpec Počet pomocou transformácie Rozbaliť stĺpec.
Ako poslednú operáciu chcete zoradiť svojich zákazníkov na základe počtu objednávok. Vyberte stĺpec Počet a potom vyberte tlačidlo Poradie na karte Pridať stĺpec na páse s nástrojmi.
Ponechajte predvolené nastavenia v stĺpci Poradie. Potom výberom položky OK túto transformáciu použijete.
Výsledný dotaz teraz premenujte na Zoradených zákazníkov pomocou tably Nastavenia dotazu na pravej strane obrazovky.
Teraz, keď ste dokončili transformáciu a kombinovanie údajov, môžete nakonfigurovať ich cieľové nastavenia výstupu. Vyberte položku Vybrať cieľové umiestnenie údajov v dolnej časti tably Nastavenia dotazu.
V tomto kroku môžete nakonfigurovať výstup do svojho jazera, ak máte k dispozícii, alebo tento krok môžete vynechať, ak tak neurobíte. V rámci tohto prostredia môžete pre výsledky dotazu nakonfigurovať cieľový lakehouse a tabuľku okrem metódy update (Pripojiť alebo Nahradiť).
Váš tok údajov je teraz pripravený na publikovanie. Skontrolujte dotazy v zobrazení diagramu a potom vyberte položku Publikovať.
Teraz ste vrátení do pracovného priestoru. Ikona spinner vedľa názvu toku údajov označuje, že publikovanie prebieha. Po dokončení publikovania je váš tok údajov pripravený na obnovenie.
Dôležité
Keď sa v pracovnom priestore vytvorí prvý tok údajov Gen2, položky Lakehouse a Warehouse sa poskytujú spolu s ich súvisiacimi koncovými bodmi a sémantickými modelmi analýzy SQL. Tieto položky sú zdieľané všetkými tokmi údajov v pracovnom priestore a sú povinné, aby tok údajov Gen2 fungoval, nemal by sa odstrániť a nie je určený na priame použitie používateľmi. Položky sú podrobnou implementáciou toku údajov Gen2. Položky nie sú viditeľné v pracovnom priestore, ale môžu byť dostupné v iných prostrediach, ako sú napríklad poznámkový blok, koncový bod analýzy SQL, lakehouse a prostredie skladu. Položky môžete rozpoznať podľa ich predpony v názve. Predponou položiek je DataflowsStaging (Toky údajov).
Vo svojom pracovnom priestore vyberte ikonu Naplánovať obnovenie .
Zapnite plánované obnovenie, vyberte položku Pridať iný čas a nakonfigurujte obnovenie tak, ako je znázornené na nasledujúcej snímke obrazovky.
Snímka obrazovky zobrazujúca možnosti plánovaného obnovenia, pri zapnutom plánovanom obnovení, frekvenciu obnovovania nastavenú na možnosť Denne, časové pásmo nastavené na koordinovaný svetový čas a čas nastavený na 4:00. Všetky možnosti Na tlačidli Pridať iný čas, vlastník toku údajov a tlačidlo Použiť, sú zvýraznené.
Vyčistenie zdrojov
Ak tento tok údajov nechcete naďalej používať, odstráňte tok údajov pomocou týchto krokov:
Prejdite do pracovného priestoru služby Microsoft Fabric.
Vyberte tri zvislé bodky vedľa názvu toku údajov a potom vyberte položku Odstrániť.
Výberom položky Odstrániť potvrďte odstránenie toku údajov.
Súvisiaci obsah
Tok údajov v tejto ukážke zobrazuje, ako načítať a transformovať údaje v toku údajov Gen2. Naučili ste sa:
- Vytvorte tok údajov Gen2.
- Transformovať údaje.
- Konfigurácia nastavení cieľa pre transformované údaje.
- Spustite a naplánujte svoj údajový kanál.
Prejdite na ďalší článok a zistite, ako vytvoriť svoj prvý kanál údajov.