Zdieľať cez


Príručka pre rozhodnutia služby Microsoft Fabric: výber úložiska údajov

Túto referenčnú príručku a príklady môžete použiť na pomoc pri výbere ukladacieho priestoru údajov pre vyťaženia služby Microsoft Fabric.

Vlastnosti ukladacieho priestoru údajov

Pomocou týchto informácií môžete porovnať obchody údajov služby Fabric, ako sú napríklad warehouse, lakehouse, Eventhouse, SQL database a Power BI datamart, na základe objemu údajov, typu, osoby vývojára, množiny zručností, operácií a ďalších funkcií. Tieto porovnania sú usporiadané do týchto dvoch tabuliek:

Tabuľka 1 z 2 Lakehouse skladov Eventhouse
objem údajov Neobmedzený Neobmedzený Neobmedzený
Typ údajov Neštruktúrované
polo-štruktúrované,
Štruktúrované
Štruktúrované
polo-štruktúrovaný (JSON)
Neštruktúrované
polo-štruktúrované,
Štruktúrované
primary developer persona Dátový inžinier, dátový vedec Vývojár skladu údajov, architekt údajov, dátový inžinier, vývojár databáz Vývojár aplikácií, dátový vedec, dátový inžinier
primárnych dev skill (rozvoj) Spark (Scala, PySpark, Spark SQL, R) SQL Žiadny kód, KQL, SQL
údaje usporiadané podľa Priečinky a súbory, databázy a tabuľky Databázy, schémy a tabuľky Databázy, schémy a tabuľky
operácií čítania Spark, T-SQL T-SQL, Spark* KQL, T-SQL, Spark
operácií zapisovaia Spark (Scala, PySpark, Spark SQL, R) T-SQL Ekosystém konektorov, KQL, Spark,
transakcií s viacerými tabuľkami Nie Áno Áno, pri príjem viacerých tabuliek
primárne vývojové rozhranie Poznámkové bloky Spark, definície úloh spark Skripty SQL Množina dotazov KQL, databáza KQL
zabezpečenia RLS, CLS**, úroveň tabuľky (T-SQL), žiadne pre Spark na úrovni objektu , zabezpečenia na úrovni riadkov, CLS, DDL/DML dynamické maskovanie údajov Zabezpečenie na úrovni riadkov
Prístup k údajom prostredníctvom odkazov Áno Áno, cez koncový bod analýzy SQL Áno
Môže byť zdrojom odkazov Áno (súbory a tabuľky) Áno (tabuľky) Áno
dotaz na položky Áno Áno Áno
pokročilú analýzu Rozhranie na rozsiahle spracovanie údajov, vstavané paralelné spracovanie údajov a toleranciu chýb Rozhranie na rozsiahle spracovanie údajov, vstavané paralelné spracovanie údajov a toleranciu chýb Natívne prvky časového radu, úplné geo-priestorové a dotazovacie možnosti
podpora rozšíreného formátovania Tabuľky definované pomocou PARQUET, CSV, AVRO, JSON a akéhokoľvek formátu súboru kompatibilného so systémom Apache Hive Tabuľky definované pomocou PARQUET, CSV, AVRO, JSON a akéhokoľvek formátu súboru kompatibilného so systémom Apache Hive Úplné indexovanie pre voľný text a polo štruktúrované údaje, ako napríklad JSON
latencie príjmu K dispozícii okamžite na dotazovanie K dispozícii okamžite na dotazovanie Príjem vo fronte, príjem streamovania má niekoľko sekúnd časového oneskorenia

* Spark podporuje čítanie z tabuliek pomocou skratiek, zatiaľ nepodporuje prístup k zobrazeniam, uloženým procedúrám, funkciám atď.

Tabuľka 2 z 2 databázu SQL služby Fabric údajový graf služby Power BI
objem údajov 4 TB Až 100 GB
Typ údajov Štruktúrované
polo-štruktúrované,
Neštruktúrované
Štruktúrované
primary developer persona Vývojár AI, vývojár aplikácií, vývojár databáz, správca databázy Dátový vedec, dátový analytik
primárnych dev skill (rozvoj) SQL Žiadny kód, SQL
údaje usporiadané podľa Databázy, schémy, tabuľky Databáza, tabuľky, dotazy
operácií čítania T-SQL Spark, T-SQL
operácií zapisovaia T-SQL Toky údajov, T-SQL
transakcií s viacerými tabuľkami Áno, dodržiavanie súladu s celou kyselinou Nie
primárne vývojové rozhranie Skripty SQL Power BI
zabezpečenia Úroveň objektu, RLS, CLS, DDL/DML, dynamické maskovanie údajov Vstavaný editor zabezpečenia na úrovni riadkov
Prístup k údajom prostredníctvom odkazov Áno Nie
Môže byť zdrojom odkazov Áno (tabuľky) Nie
dotaz na položky Áno Nie
pokročilú analýzu Analytické možnosti T-SQL sa replikujú na delta parquet vo OneLake pre analýzu Rozhranie na spracovanie údajov pomocou automatizovaného ladenia výkonu
podpora rozšíreného formátovania Podpora tabuliek pre OLTP, JSON, vektor, graf, XML, priestorové, kľúčové hodnoty Tabuľky definované pomocou PARQUET, CSV, AVRO, JSON a akéhokoľvek formátu súboru kompatibilného so systémom Apache Hive
latencie príjmu K dispozícii okamžite na dotazovanie K dispozícii okamžite na dotazovanie

** Zabezpečenie na úrovni stĺpca dostupné v službe Lakehouse prostredníctvom koncového bodu analýzy SQL pomocou T-SQL.

Scenáre

Prezrite si tieto scenáre a získajte pomoc pri výbere ukladacieho priestoru údajov v službe Fabric.

Scenár 1

Susan, profesionálny vývojár, je novým používateľom služby Microsoft Fabric. Sú pripravení na to, aby začali s čistením, modelovaním a analýzou údajov, ale musia sa rozhodnúť vytvoriť sklad údajov alebo komplex Lakehouse. Po preskúmaní podrobností v predchádzajúcej tabuľke sú hlavnými rozhodovacími bodmi množina zručností dostupné a potreba transakcií s viacerými tabuľkami.

Susan strávila mnoho rokov vytváraním skladov údajov v relačných databázových strojoch a je oboznámená so syntaxou a funkciami SQL. Keď uvažujete o väčšom tíme, primárni spotrebitelia týchto údajov majú tiež skúsenosti s analytickými nástrojmi SQL a SQL. Susan sa rozhodne použiť sklad služby Fabric, ktorý umožní tímu pracovať predovšetkým s T-SQL a zároveň umožní všetkým používateľom služby Spark v organizácii prístup k údajom.

Susan vytvorí nový sklad údajov a bude s ním interagovať pomocou T-SQL, rovnako ako ostatné databázy SQL Servera. Väčšina existujúceho kódu T-SQL, ktorý napísala na vytvorenie svojho skladu na SQL Serveri, bude fungovať v sklade údajov služby Fabric, čím sa prechod zjednoduší. Ak sa rozhodne, môže dokonca používať rovnaké nástroje, ktoré pracujú s jej ďalšie databázy, ako SQL Server Management Studio. Zuzana a ďalší členovia tímu môžu pomocou editora SQL na portáli služby Fabric napísať analytické dotazy, ktoré odkazujú na iné sklady údajov a tabuľky Delta v komplexoch lakehouse, a to jednoducho pomocou trojdielskych názvov na vykonávanie dotazov krížovej databázy.

Scenár 2

Rob, dátový inžinier, potrebuje uložiť a modelovať niekoľko terabajtov údajov v službe Fabric. Tím má kombináciu zručností PySpark a T-SQL. Väčšina tímu, ktorý spúšťa dotazy T-SQL, sú spotrebiteľmi, a preto nemusia písať príkazy VLOŽIŤ, AKTUALIZOVAŤ alebo DELETE. Zostávajúci vývojári sú spokojní s prácou v poznámkových blokoch a keďže údaje sú uložené v spoločnosti Delta, môžu pracovať s podobnou syntaxou SQL.

Rob sa rozhodne použiť lakehouse, ktorý umožní tímu dátového inžiniera využívať rôzne zručnosti v súvislosti s údajmi a zároveň členom tímu s vysokou odbornosťou v T-SQL umožniť využívanie údajov.

Scenár 3

Ash je vývojárom pre občanov, a to v službe Power BI. Sú oboznámení s Excelom, Power BI a balíkom Office. Je potrebné, aby vytvorili dátový produkt pre organizačnú jednotku. Vedia, že nemajú úplne zručnosti na vytvorenie skladu údajov alebo jazera, a tie sa zdajú byť príliš veľa na ich potreby a objemy údajov. Prehodnocujú podrobnosti v predchádzajúcej tabuľke a vidia, že hlavné rozhodovacie body sú ich vlastné zručnosti a potreba samoobslužných funkcií, možnosti písania kódu a objem údajov do 100 GB.

Ash spolupracuje s obchodnými analytikmi oboznámenými so službami Power BI a Microsoft Office a vie, že už majú predplatné kapacity Premium. Keďže uvažujú o svojom väčšom tíme, uvedomujú si, že hlavnými spotrebiteľmi týchto údajov sú analytici bez použitia kódu a analytické nástroje SQL. Ash sa rozhodne použiť datamart služby Power BI, ktorý umožní tímu rýchlo pracovať s funkciou a využívať funkcie bez písania kódu. Dotazy je možné vykonať prostredníctvom služieb Power BI a T-SQL a zároveň povoliť prístup k údajom aj všetkým používateľom služby Spark v organizácii.

Scenár 4

Daisy je obchodná analyzátorka, ktorá má skúsenosti s používaním služby Power BI na analýzu kritických miest dodávateľského reťazca pre veľký globálny maloobchodný reťazec. Musia vytvoriť škálovateľné riešenie údajov, ktoré dokáže spracovať miliardy riadkov údajov a môže sa použiť na vytvorenie tabúľ a zostáv, ktoré možno použiť na prijímanie obchodných rozhodnutí. Údaje pochádzajú z rastlín, dodávateľov, odosielateľov a ďalších zdrojov v rôznych štruktúrovaných, polo štruktúrovaných a neštruktúrovaných formátoch.

Daisy sa rozhodne použiť Eventhouse vďaka škálovateľnosti, rýchlemu odozve, pokročilým možnostiam analýzy vrátane analýzy časových radov, geopriestorových funkcií a režimu rýchleho priameho dotazu v službe Power BI. Dotazy je možné vykonať pomocou služieb Power BI a KQL na porovnanie medzi aktuálnym a predchádzajúcim obdobím, rýchle identifikáciu vznikajúcich problémov alebo poskytovanie geograficky priestorových analýz suchozemských a námorných trás.

Scenár 5

Kirby je architekt aplikácií skúsený pri vývoji aplikácií .NET pre prevádzkové údaje. Potrebujú vysokú súbežnosť databázy s úplnou acid transakcie dodržiavanie a dôrazne vynútiť cudzie kľúče pre relačné integritu. Kirby chce výhodu automatického ladenia výkonu na zjednodušenie každodennej správy databázy.

Kirby rozhodne o databáze SQL v službe Fabrics rovnakým databázovým strojom SQL ako databáza Azure SQL. Databázy SQL v službe Fabric automaticky spĺňajú požiadavky počas celého pracovného dňa. Majú plnú schopnosť transakčných tabuliek a flexibilitu úrovní izolácie transakcií od serializovateľných po prečítané snímky. Databáza SQL v službe Fabric automaticky vytvára a znižuje prehľadné indexy na základe silných signálov z plánov vykonávania, ktoré sa pozorovali v priebehu času.

V kirby scenári, údaje z prevádzkovej aplikácie musia byť spojené s inými údajmi v Fabric: v Spark, v sklade, a z real-time udalostí v Eventhouse. Každá databáza služby Fabric obsahuje koncový bod analýzy SQL, takže k údajom, ktoré sa majú získať v reálnom čase, je možné získať prístup z Spark alebo pomocou dotazov služby Power BI pomocou režimu DirectLake. Tieto riešenia vytvárania zostáv odstraňujú primárnu prevádzkovú databázu od režijných nákladov analytických pracovných úloh a vyhýbajú sa denormalizácii. Kirby má tiež existujúce prevádzkové údaje v iných databázach SQL a potrebuje tieto údaje importovať bez transformácie. Ak chcete importovať existujúce prevádzkové údaje bez konverzie typu údajov, Kirby navrhuje dátové kanály so službou Fabric Data Factory na import údajov do databázy Fabric SQL.