Príručka pre rozhodnutia služby Microsoft Fabric: výber úložiska údajov

Článok
01/26/2025

Túto referenčnú príručku a príklady môžete použiť na pomoc pri výbere ukladacieho priestoru údajov pre vyťaženia služby Microsoft Fabric.

Vlastnosti ukladacieho priestoru údajov

Pomocou týchto informácií môžete porovnať obchody údajov služby Fabric, ako sú napríklad warehouse, lakehouse, Eventhouse, SQL database a Power BI datamart, na základe objemu údajov, typu, osoby vývojára, množiny zručností, operácií a ďalších funkcií. Tieto porovnania sú usporiadané do týchto dvoch tabuliek:

Tabuľka 1 z 2	Lakehouse	skladov	Eventhouse
objem údajov	Neobmedzený	Neobmedzený	Neobmedzený
Typ údajov	Neštruktúrované polo-štruktúrované, Štruktúrované	Štruktúrované polo-štruktúrovaný (JSON)	Neštruktúrované polo-štruktúrované, Štruktúrované
primary developer persona	Dátový inžinier, dátový vedec	Vývojár skladu údajov, architekt údajov, dátový inžinier, vývojár databáz	Vývojár aplikácií, dátový vedec, dátový inžinier
primárnych dev skill (rozvoj)	Spark (Scala, PySpark, Spark SQL, R)	SQL	Žiadny kód, KQL, SQL
údaje usporiadané podľa	Priečinky a súbory, databázy a tabuľky	Databázy, schémy a tabuľky	Databázy, schémy a tabuľky
operácií čítania	Spark, T-SQL	T-SQL, Spark*	KQL, T-SQL, Spark
operácií zapisovaia	Spark (Scala, PySpark, Spark SQL, R)	T-SQL	Ekosystém konektorov, KQL, Spark,
transakcií s viacerými tabuľkami	Nie	Áno	Áno, pri príjem viacerých tabuliek
primárne vývojové rozhranie	Poznámkové bloky Spark, definície úloh spark	Skripty SQL	Množina dotazov KQL, databáza KQL
zabezpečenia	RLS, CLS**, úroveň tabuľky (T-SQL), žiadne pre Spark	na úrovni objektu , zabezpečenia na úrovni riadkov, CLS, DDL/DML dynamické maskovanie údajov	Zabezpečenie na úrovni riadkov
Prístup k údajom prostredníctvom odkazov	Áno	Áno, cez koncový bod analýzy SQL	Áno
Môže byť zdrojom odkazov	Áno (súbory a tabuľky)	Áno (tabuľky)	Áno
dotaz na položky	Áno	Áno	Áno
pokročilú analýzu	Rozhranie na rozsiahle spracovanie údajov, vstavané paralelné spracovanie údajov a toleranciu chýb	Rozhranie na rozsiahle spracovanie údajov, vstavané paralelné spracovanie údajov a toleranciu chýb	Natívne prvky časového radu, úplné geo-priestorové a dotazovacie možnosti
podpora rozšíreného formátovania	Tabuľky definované pomocou PARQUET, CSV, AVRO, JSON a akéhokoľvek formátu súboru kompatibilného so systémom Apache Hive	Tabuľky definované pomocou PARQUET, CSV, AVRO, JSON a akéhokoľvek formátu súboru kompatibilného so systémom Apache Hive	Úplné indexovanie pre voľný text a polo štruktúrované údaje, ako napríklad JSON
latencie príjmu	K dispozícii okamžite na dotazovanie	K dispozícii okamžite na dotazovanie	Príjem vo fronte, príjem streamovania má niekoľko sekúnd časového oneskorenia

* Spark podporuje čítanie z tabuliek pomocou skratiek, zatiaľ nepodporuje prístup k zobrazeniam, uloženým procedúrám, funkciám atď.

Tabuľka 2 z 2	databázu SQL služby Fabric	údajový graf služby Power BI
objem údajov	4 TB	Až 100 GB
Typ údajov	Štruktúrované polo-štruktúrované, Neštruktúrované	Štruktúrované
primary developer persona	Vývojár AI, vývojár aplikácií, vývojár databáz, správca databázy	Dátový vedec, dátový analytik
primárnych dev skill (rozvoj)	SQL	Žiadny kód, SQL
údaje usporiadané podľa	Databázy, schémy, tabuľky	Databáza, tabuľky, dotazy
operácií čítania	T-SQL	Spark, T-SQL
operácií zapisovaia	T-SQL	Toky údajov, T-SQL
transakcií s viacerými tabuľkami	Áno, dodržiavanie súladu s celou kyselinou	Nie
primárne vývojové rozhranie	Skripty SQL	Power BI
zabezpečenia	Úroveň objektu, RLS, CLS, DDL/DML, dynamické maskovanie údajov	Vstavaný editor zabezpečenia na úrovni riadkov
Prístup k údajom prostredníctvom odkazov	Áno	Nie
Môže byť zdrojom odkazov	Áno (tabuľky)	Nie
dotaz na položky	Áno	Nie
pokročilú analýzu	Analytické možnosti T-SQL sa replikujú na delta parquet vo OneLake pre analýzu	Rozhranie na spracovanie údajov pomocou automatizovaného ladenia výkonu
podpora rozšíreného formátovania	Podpora tabuliek pre OLTP, JSON, vektor, graf, XML, priestorové, kľúčové hodnoty	Tabuľky definované pomocou PARQUET, CSV, AVRO, JSON a akéhokoľvek formátu súboru kompatibilného so systémom Apache Hive
latencie príjmu	K dispozícii okamžite na dotazovanie	K dispozícii okamžite na dotazovanie

** Zabezpečenie na úrovni stĺpca dostupné v službe Lakehouse prostredníctvom koncového bodu analýzy SQL pomocou T-SQL.

Scenáre

Prezrite si tieto scenáre a získajte pomoc pri výbere ukladacieho priestoru údajov v službe Fabric.

Scenár 1

Susan, profesionálny vývojár, je novým používateľom služby Microsoft Fabric. Sú pripravení na to, aby začali s čistením, modelovaním a analýzou údajov, ale musia sa rozhodnúť vytvoriť sklad údajov alebo komplex Lakehouse. Po preskúmaní podrobností v predchádzajúcej tabuľke sú hlavnými rozhodovacími bodmi množina zručností dostupné a potreba transakcií s viacerými tabuľkami.

Susan strávila mnoho rokov vytváraním skladov údajov v relačných databázových strojoch a je oboznámená so syntaxou a funkciami SQL. Keď uvažujete o väčšom tíme, primárni spotrebitelia týchto údajov majú tiež skúsenosti s analytickými nástrojmi SQL a SQL. Susan sa rozhodne použiť sklad služby Fabric, ktorý umožní tímu pracovať predovšetkým s T-SQL a zároveň umožní všetkým používateľom služby Spark v organizácii prístup k údajom.

Susan vytvorí nový sklad údajov a bude s ním interagovať pomocou T-SQL, rovnako ako ostatné databázy SQL Servera. Väčšina existujúceho kódu T-SQL, ktorý napísala na vytvorenie svojho skladu na SQL Serveri, bude fungovať v sklade údajov služby Fabric, čím sa prechod zjednoduší. Ak sa rozhodne, môže dokonca používať rovnaké nástroje, ktoré pracujú s jej ďalšie databázy, ako SQL Server Management Studio. Zuzana a ďalší členovia tímu môžu pomocou editora SQL na portáli služby Fabric napísať analytické dotazy, ktoré odkazujú na iné sklady údajov a tabuľky Delta v komplexoch lakehouse, a to jednoducho pomocou trojdielskych názvov na vykonávanie dotazov krížovej databázy.

Scenár 2

Rob, dátový inžinier, potrebuje uložiť a modelovať niekoľko terabajtov údajov v službe Fabric. Tím má kombináciu zručností PySpark a T-SQL. Väčšina tímu, ktorý spúšťa dotazy T-SQL, sú spotrebiteľmi, a preto nemusia písať príkazy VLOŽIŤ, AKTUALIZOVAŤ alebo DELETE. Zostávajúci vývojári sú spokojní s prácou v poznámkových blokoch a keďže údaje sú uložené v spoločnosti Delta, môžu pracovať s podobnou syntaxou SQL.

Rob sa rozhodne použiť lakehouse, ktorý umožní tímu dátového inžiniera využívať rôzne zručnosti v súvislosti s údajmi a zároveň členom tímu s vysokou odbornosťou v T-SQL umožniť využívanie údajov.

Scenár 3

Ash je vývojárom pre občanov, a to v službe Power BI. Sú oboznámení s Excelom, Power BI a balíkom Office. Je potrebné, aby vytvorili dátový produkt pre organizačnú jednotku. Vedia, že nemajú úplne zručnosti na vytvorenie skladu údajov alebo jazera, a tie sa zdajú byť príliš veľa na ich potreby a objemy údajov. Prehodnocujú podrobnosti v predchádzajúcej tabuľke a vidia, že hlavné rozhodovacie body sú ich vlastné zručnosti a potreba samoobslužných funkcií, možnosti písania kódu a objem údajov do 100 GB.

Ash spolupracuje s obchodnými analytikmi oboznámenými so službami Power BI a Microsoft Office a vie, že už majú predplatné kapacity Premium. Keďže uvažujú o svojom väčšom tíme, uvedomujú si, že hlavnými spotrebiteľmi týchto údajov sú analytici bez použitia kódu a analytické nástroje SQL. Ash sa rozhodne použiť datamart služby Power BI, ktorý umožní tímu rýchlo pracovať s funkciou a využívať funkcie bez písania kódu. Dotazy je možné vykonať prostredníctvom služieb Power BI a T-SQL a zároveň povoliť prístup k údajom aj všetkým používateľom služby Spark v organizácii.

Scenár 4

Daisy je obchodná analyzátorka, ktorá má skúsenosti s používaním služby Power BI na analýzu kritických miest dodávateľského reťazca pre veľký globálny maloobchodný reťazec. Musia vytvoriť škálovateľné riešenie údajov, ktoré dokáže spracovať miliardy riadkov údajov a môže sa použiť na vytvorenie tabúľ a zostáv, ktoré možno použiť na prijímanie obchodných rozhodnutí. Údaje pochádzajú z rastlín, dodávateľov, odosielateľov a ďalších zdrojov v rôznych štruktúrovaných, polo štruktúrovaných a neštruktúrovaných formátoch.

Daisy sa rozhodne použiť Eventhouse vďaka škálovateľnosti, rýchlemu odozve, pokročilým možnostiam analýzy vrátane analýzy časových radov, geopriestorových funkcií a režimu rýchleho priameho dotazu v službe Power BI. Dotazy je možné vykonať pomocou služieb Power BI a KQL na porovnanie medzi aktuálnym a predchádzajúcim obdobím, rýchle identifikáciu vznikajúcich problémov alebo poskytovanie geograficky priestorových analýz suchozemských a námorných trás.

Scenár 5

Kirby je architekt aplikácií skúsený pri vývoji aplikácií .NET pre prevádzkové údaje. Potrebujú vysokú súbežnosť databázy s úplnou acid transakcie dodržiavanie a dôrazne vynútiť cudzie kľúče pre relačné integritu. Kirby chce výhodu automatického ladenia výkonu na zjednodušenie každodennej správy databázy.

Kirby rozhodne o databáze SQL v službe Fabrics rovnakým databázovým strojom SQL ako databáza Azure SQL. Databázy SQL v službe Fabric automaticky spĺňajú požiadavky počas celého pracovného dňa. Majú plnú schopnosť transakčných tabuliek a flexibilitu úrovní izolácie transakcií od serializovateľných po prečítané snímky. Databáza SQL v službe Fabric automaticky vytvára a znižuje prehľadné indexy na základe silných signálov z plánov vykonávania, ktoré sa pozorovali v priebehu času.

V kirby scenári, údaje z prevádzkovej aplikácie musia byť spojené s inými údajmi v Fabric: v Spark, v sklade, a z real-time udalostí v Eventhouse. Každá databáza služby Fabric obsahuje koncový bod analýzy SQL, takže k údajom, ktoré sa majú získať v reálnom čase, je možné získať prístup z Spark alebo pomocou dotazov služby Power BI pomocou režimu DirectLake. Tieto riešenia vytvárania zostáv odstraňujú primárnu prevádzkovú databázu od režijných nákladov analytických pracovných úloh a vyhýbajú sa denormalizácii. Kirby má tiež existujúce prevádzkové údaje v iných databázach SQL a potrebuje tieto údaje importovať bez transformácie. Ak chcete importovať existujúce prevádzkové údaje bez konverzie typu údajov, Kirby navrhuje dátové kanály so službou Fabric Data Factory na import údajov do databázy Fabric SQL.

Zdieľať cez

Príručka pre rozhodnutia služby Microsoft Fabric: výber úložiska údajov

Vlastnosti ukladacieho priestoru údajov

Scenáre

Scenár 1

Scenár 2

Scenár 3

Scenár 4

Scenár 5

Pripomienky

Ďalšie zdroje informácií

Zdieľať cez

Príručka pre rozhodnutia služby Microsoft Fabric: výber úložiska údajov

Vlastnosti ukladacieho priestoru údajov

Scenáre

Scenár 1

Scenár 2

Scenár 3

Scenár 4

Scenár 5

Súvisiaci obsah

Pripomienky

Ďalšie zdroje informácií