Terminológia služby Microsoft Fabric
Oboznámte sa s definíciami výrazov používaných v službe Microsoft Fabric vrátane výrazov špecifických pre sklad údajov služby Fabric, dátové inžinierstvo služby Fabric, dátovú vedu služby Fabric, Real-Time Intelligence, Data Factory a službu Power BI.
Všeobecné pojmy
Kapacita: Kapacita je vyhradená množina prostriedkov, ktorá je k dispozícii v danom čase na použitie. Kapacita definuje schopnosť zdroja vykonať aktivitu alebo vytvoriť výstup. Rôzne položky používajú inú kapacitu v určitom čase. Fabric ponúka kapacitu prostredníctvom skladovej jednotky SKU a skúšok služby Fabric. Ďalšie informácie nájdete Čo je kapacita?
prostredie: Kolekcia možností zameraných na konkrétne funkcie. Medzi skúsenosti s tkaninami patria Sklad údajov služby Fabric, dátové inžinierstvo služby Fabric, veda o službe Fabric, Real-Time intelligence, Data Factory a Power BI.
Item: Položka je množina možností v rámci prostredia. Používatelia ich môžu vytvárať, upravovať a odstraňovať. Každý typ položky poskytuje rôzne možnosti. Prostredie dátového inžinierstva zahŕňa napríklad položky lakehouse, notebook a Spark job definition.
Nájomník: Nájomník je jedinou inštanciou služby Fabric pre organizáciu a je zosúladený s ID služby Microsoft Entra.
Pracovný priestor: Pracovný priestor je kolekcia položiek, ktorá spája rôzne funkcie v jednom prostredí navrhnutom na spoluprácu. Funguje ako kontajner, ktorý používa kapacitu na prácu, ktorá sa vykonáva, a poskytuje ovládacie prvky na získanie prístupu k položkám, ktoré sa v ňom nachádzajú. V pracovnom priestore môžu používatelia napríklad vytvárať zostavy, poznámkové bloky, sémantické modely atď. Ďalšie informácie nájdete článku o pracovných priestoroch.
Inžinierka údajov služby Fabric
Lakehouse: Lakehouse je kolekcia súborov, priečinkov a tabuliek, ktoré predstavujú databázu cez dátové jazero používané nástrojom Apache Spark a nástrojom SQL na spracovanie veľkých údajov. Lakehouse obsahuje vylepšené možnosti pre transakcie ACID pri použití open-source delta formátovaných tabuliek. Položka lakehouse je hosťovaná v rámci jedinečného priečinka pracovného priestoru v službe Microsoft OneLake. Obsahuje súbory v rôznych formátoch (štruktúrovaných aj neštruktúrovaných) usporiadaných v priečinkoch a podpriečinkoch. Ďalšie informácie nájdete Čo je lakehouse?
Notebook: poznámkový blok služby Fabric je interaktívny programovací nástroj s viacerými jazykmi s bohatými funkciami. Zahŕňa tvorbu kódu a jazyk Markdown, spustenie a monitorovanie úlohy v službe Spark, zobrazenie a vizualizáciu výsledku a spoluprácu s tímom. Pomáha dátovým inžinierom a dátovému vedcom skúmať a spracovávať údaje a vytvárať experimenty v strojovom učení s kódom aj prostredím s minimálnym použitím kódu. Na účely zosúlaďovania sa dá jednoducho transformovať na aktivitu kanála.
aplikácia Spark: Aplikácia Apache Spark je program napísaný používateľom pomocou niektorého z jazykov rozhrania API služby Spark (Scala, Python, Spark SQL alebo Java) alebo jazykov pridaných spoločnosťou Microsoft (.NET s C# alebo F#). Pri spustení aplikácie sa rozdelí na jednu alebo viacero úloh Služby Spark, ktoré sú spustené paralelne, aby sa údaje spracovali rýchlejšie. Ďalšie informácie nájdete v téme monitorovanie aplikácií služby Spark.
Apache Spark: práca v službe Spark je súčasťou aplikácie Spark, ktorá sa spúšťa paralelne s ostatnými úlohami v aplikácii. Úloha pozostáva z viacerých úloh. Ďalšie informácie nájdete v téme Monitorovanie úloh v službe Spark.
Apache Spark definícia úlohy: definícia úlohy Spark je množina parametrov nastavených používateľom, čo označuje, ako sa má spustiť aplikácia Spark. Umožňuje odoslať dávkové alebo streamovacie úlohy do klastra Spark. Ďalšie informácie nájdete Čo je definícia pracovnej úlohy v Apache Spark?
V-order: Optimalizácia zapisovania do formátu súboru parketu, ktorý umožňuje rýchle čítanie a poskytuje nákladovú efektivitu a lepší výkon. Všetky moduly fabricu predvolene píšu objednané parquet súbory.
Data Factory
Connector: Data Factory ponúka bohatú množinu konektorov, ktoré vám umožnia pripojiť sa k rôznym typom úchyt údajov. Po pripojení môžete údaje transformovať. Ďalšie informácie nájdete v téme konektory.
Kanál údajov: v službe Data Factory sa na koordinovanie premiestňovania a transformácie údajov používa kanál údajov. Tieto kanály sa líšia od kanálov nasadenia v službe Fabric. Ďalšie informácie nájdete Kanály v prehľade o službe Data Factory.
Dataflow Gen2: Toky údajov poskytujú rozhranie s minimálnym použitím kódu na ukladanie údajov zo stoviek zdrojov údajov a transformáciu údajov. Toky údajov v službe Fabric sa označujú ako Tok údajov Gen2. Tok údajov Gen1 existuje v službe Power BI. Tok údajov Gen2 ponúka navyše funkcie v porovnaní s tokmi údajov v službe Azure Data Factory alebo Power BI. Zo služby Gen1 na Gen2 nie je možné vykonať inováciu. Ďalšie informácie nájdete Toky údajov v prehľade o službe Data Factory.
Trigger: Funkcia automatizácie v službe Data Factory, ktorá začne kanály na základe konkrétnych podmienok, ako sú napríklad plány alebo dostupnosť údajov.
Fabric Data Science
Data Wrangler: Data Wrangler je nástroj na zápisníku, ktorý poskytuje používateľom nový zážitok pri vykonávaní prieskumnej analýzy údajov. Táto funkcia kombinuje zobrazenie údajov podobné mriežke s dynamickými súhrnnými štatistikami a množinou bežných operácií čistenia údajov, ktoré sú k dispozícii s niekoľkými vybratými ikonami. Každá operácia generuje kód, ktorý je možné uložiť späť do poznámkového bloku ako opätovne použiteľný skript.
experiment: experiment strojového učenia je primárnou jednotkou organizácie a kontroly pre všetky súvisiace spustenia strojového učenia. Ďalšie informácie nájdete experimentoch strojového učenia v službe Microsoft Fabric.
Model: Model strojového učenia je súbor trénovaný na rozpoznávanie určitých typov vzorov. Model trénujete na množine údajov a poskytujete jej algoritmus, ktorý používa na dozor a učenie sa z tejto množiny údajov. Ďalšie informácie nájdete modelu strojového učenia.
Run (Spustiť): Spustenie zodpovedá jedinému vykonaniu kódu modelu. V MLflowje sledovanie založené na experimentoch a spusteniach.
Sklad údajov služby Fabric
koncového bodu analýzy SQL: každý lakehouse má koncový bod analýzy SQL, ktorý umožňuje používateľovi dotazovať údaje delta tabuľky s TSQL cez TDS. Ďalšie informácie nájdete koncovom bode analýzy SQL.
Fabric Data Warehouse: Sklad údajov služby Fabric funguje ako tradičný sklad údajov a podporuje úplné možnosti transakčného T-SQL, ktoré by ste očakávali od podnikového skladu údajov. Ďalšie informácie nájdete v službe Fabric Data Warehouse.
Real-Time Intelligence
Activator: Activator je bezkódový nástroj s minimálnym použitím kódu, ktorý umožňuje vytvárať upozornenia, spúšťače a akcie na vaše údaje. Activator sa používa na vytváranie upozornení v streamoch údajov. Ďalšie informácie nájdete v téme Activator.
Eventhouse: Eventhouses poskytujú riešenie na spracovanie a analýzu veľkých objemov údajov, najmä v prípadoch, ktoré si vyžadujú analýzu a prieskum v reálnom čase. Sú navrhnuté tak, aby efektívne spracovávali streamy údajov v reálnom čase, čo umožňuje organizáciám ingestovať, spracovávať a analyzovať údaje v takmer reálnom čase. Jeden pracovný priestor môže obsahovať viacero domov udalostí. Jeden pracovný priestor môže uchovávať viacero databáz KQL a každá databáza môže obsahovať viacero tabuliek. Ďalšie informácie nájdete prehľadu službyEventhouse.
Eventstream: funkcia Microsoft Fabric eventstreams poskytuje centralizované miesto na platforme Fabric na zaznamenávanie, transformáciu a smerovanie udalostí v reálnom čase do cieľov bez použitia kódu. Eventstream sa skladá z rôznych zdrojov streamovaných údajov, cieľov príjmu a procesora udalostí v prípade potreby transformácie. Ďalšie informácie nájdete na lokalite Microsoft Fabric eventstreams.
KQL Database: Databáza KQL obsahuje údaje vo formáte, ktorý je možné spúšťať dotazy KQL. Databázy KQL sú položky v službe Eventhouse. Ďalšie informácie nájdete databázyKQL.
KQL Queryset: Množina dotazov KQL je položka, ktorá sa používa na spúšťanie dotazov, zobrazovanie výsledkov a manipuláciu s výsledkami dotazov na údaje z databázy Data Explorera. Množina dotazov obsahuje databázy a tabuľky, dotazy a výsledky. Množina dotazov KQL umožňuje ukladať dotazy na budúce použitie alebo exportovať a zdieľať dotazy s ostatnými. Ďalšie informácie nájdete Údaje dotazu v množiny dotazov jazyka KQL.
Real-Time centrum
- Real-Time centrum: centrum Real-Time je jediným miestom pre všetky údaje v pohybe v celej organizácii. V centre sa automaticky zriadu všetci nájomníci služby Microsoft Fabric. Ďalšie informácie nájdete v téme Prehľad centra Real-Time.
OneLake
- Odkaz: skratky sú vložené odkazy v rámci služby OneLake, ktoré odkazujú na iné umiestnenia ukladacieho priestoru súborov. Poskytujú spôsob, ako sa pripojiť k existujúcim údajom bez toho, aby ste ich museli priamo kopírovať. Ďalšie informácie nájdete skratiek OneLake.