Tabuľky Lakehouse a Delta Lake
Microsoft Fabric Lakehouse je platforma architektúry údajov na ukladanie, spravovanie a analýzu štruktúrovaných a neštruktúrovaných údajov na jednom mieste. Na dosiahnutie bezproblémového prístupu k údajom so všetkými výpočtovými zariadeniami v službe Microsoft Fabric sa Delta Lake vyberie ako zjednotený formát tabuľky.
Ukladanie údajov v Lakehouse pomocou funkcií, ako je napríklad načítanie do tabuliek alebo metódy popísané v časti Možnosti na získanie údajov do služby Fabric Lakehouse, všetky údaje sa uložia vo formáte Delta.
Komplexnejší úvod do formátu tabuľky Delta Lake získate po prepojeniach v časti Ďalšie kroky.
Big data, Apache Spark a staršie formáty tabuliek
Microsoft Fabric Runtime pre Apache Spark používa rovnaký základ ako služba Azure Synapse Analytics Runtime pre Apache Spark, ale obsahuje kľúčové rozdiely, ktoré poskytujú zjednodušené správanie všetkých nástrojov v službe Microsoft Fabric. V službe Microsoft Fabric sú predvolene zapnuté kľúčové funkcie výkonu. Pokročilí používatelia Apache Spark môžu vrátiť konfigurácie na predchádzajúce hodnoty, aby sa lepšie zosúladili s konkrétnymi scenármi.
Microsoft Fabric Lakehouse a nástroj Apache Spark podporujú všetky typy tabuliek spravované aj nespravované; To zahŕňa zobrazenia a pravidelné formáty tabuliek bez delta Hive. Tabuľky definované pomocou PARQUET, CSV, AVRO, JSON a akéhokoľvek formátu súboru kompatibilného so systémom Apache Hive fungujú podľa očakávaní.
Prostredie používateľského rozhrania prieskumníka Lakehouse sa líši v závislosti od typu tabuľky. V súčasnosti prieskumník Lakehouse vykresľuje iba objekty tabuľky.
Rozdiely v konfigurácii so službou Azure Synapse Analytics
Nasledujúca tabuľka obsahuje konfiguračné rozdiely medzi službami Azure Synapse Analytics a Microsoft Fabric Runtime pre Apache Spark.
Konfigurácia Apache Spark | Hodnota služby Microsoft Fabric | Hodnota služby Azure Synapse Analytics | Poznámky |
---|---|---|---|
spark.sql.sources.default | delta | Parketové | Predvolený formát tabuľky |
spark.sql.parquet.vorder.default | true | Nie je k dispozícii | Spisovateľ poradia V-Order |
spark.sql.parquet.vorder.dictionaryPageSize | 2 GB | Nie je k dispozícii | Limit veľkosti slovníka strany pre poradie V |
spark.databricks.delta.optimizeWrite.enabled | true | unset (false) | Optimalizácia zapisovaia |
Automatické vyhľadávanie tabuliek
Prieskumník Lakehouse poskytuje stromový pohľad na objekty v položke Microsoft Fabric Lakehouse. Má kľúčovú možnosť zisťovania a zobrazovania tabuliek, ktoré sú popísané v odkladacom priestore metaúdajov a v úložisku OneLake. Odkazy na tabuľku sa zobrazujú v Tables
časti používateľského rozhrania prieskumníka Lakehouse. Automatické zisťovanie sa vzťahuje aj na tabuľky definované cez skratky OneLake.
Tabuľky cez skratky
Microsoft Fabric Lakehouse podporuje tabuľky definované cez skratky OneLake, aby sa poskytovala maximálna kompatibilita a žiadny pohyb údajov. Nasledujúca tabuľka obsahuje najvhodnejšie postupy pre jednotlivé typy položiek pri ich používaní s odkazmi.
Cieľ skratky | Kde vytvoriť odkaz | Osvedčený postup |
---|---|---|
Tabuľka Delta Lake |
Tables sekcia |
Ak v cieli existuje viacero tabuliek, vytvorte jednu skratku na tabuľku. |
Priečinky so súbormi |
Files sekcia |
Pomocou Apache Spark môžete cieľ použiť priamo pomocou relatívnych ciest. Načítajte údaje do natívneho Delta tabuliek Lakehouse, aby ste mali maximálny výkon. |
Staršie tabuľky Apache Hive |
Files sekcia |
Pomocou Apache Spark použite cieľ priamo pomocou relatívnych ciest alebo vytvorte odkaz na katalóg metaúdajov pomocou CREATE EXTERNAL TABLE syntaxe. Načítajte údaje do natívneho Delta tabuliek Lakehouse, aby ste mali maximálny výkon. |
Načítanie do tabuliek
Microsoft Fabric Lakehouse poskytuje pohodlné a produktívne používateľské rozhranie na zjednodušenie načítania údajov do tabuliek Delta. Funkcia Načítať do tabuliek umožňuje vizuálne prostredia na načítanie bežných formátov súborov do spoločnosti Delta s cieľom zvýšiť analytickú produktivitu pre všetky osoby. Ďalšie informácie o funkcii Načítať do tabuliek nájdete v referenčnej dokumentácii Lakehouse Load to Tables .
Optimalizácia tabuľky Delta Lake
Udržať tabuľky v tvare pre široký rozsah analytických scenárov nie je žiadny menší výkon. Služba Microsoft Fabric Lakehouse pro-aktívne umožňuje dôležitým parametrom minimalizovať bežné problémy spojené s veľkými údajovými tabuľkami, ako sú napríklad zmenšovanie a malé veľkosti súborov, a maximalizovať výkon dotazov. Existuje však mnoho scenárov, v ktorých tieto parametre potrebujú zmeny. Článok o optimalizácii tabuľky Delta Lake a V-Order zahŕňa niektoré kľúčové scenáre a poskytuje podrobnú príručku o tom, ako efektívne udržiavať tabuľky Delta na dosiahnutie maximálneho výkonu.