Načítanie do tabuľky Delta Lake
Lakehouse v službe Microsoft Fabric poskytuje funkciu na efektívne načítanie bežných typov súborov do optimalizovanej tabuľky Delta pripravenej na analýzu. Funkcia Načítať do tabuľky umožňuje používateľom načítať do tabuľky jeden súbor alebo priečinok súborov. Táto funkcia zvyšuje produktivitu dátových inžinierov tým, že im umožňuje rýchlo použiť akciu pravého tlačidla myši na povolenie načítavania tabuliek do súborov a priečinkov. Načítanie do tabuľky je tiež prostredie bez použitia kódu, ktoré znižuje vstupný panel pre všetky osoby.
Prehľad funkcií načítania do tabuľky
Tu je zoznam funkcií, ktoré sme povolili v integrovanom načítaní do tabuľky, aby sme našim používateľom poskytli flexibilitu a zároveň zvýšili ich produktivitu:
Podporované typy súborov: Táto funkcia v súčasnosti podporuje iba načítavanie typov súborov PARQUET alebo CSV. Na prípade prípony súboru nezáleží.
Načítanie jedného súboru: Používatelia môžu načítať jeden súbor podľa svojho výberu v jednom z podporovaných formátov výberom položky "Načítať do tabuľky Delta" v akcii kontextovej ponuky súboru.
Načítanie na úrovni priečinka: Všetky súbory môžete načítať do priečinka a jeho podpriečinkov naraz tak, že po kliknutí na priečinok vyberiete položku Načítať do tabuľky Delta. Táto funkcia automaticky prechádza všetkými súbormi a načíta ich do Delta Table. Je dôležité poznamenať, že do tabuľky je možné naraz načítať iba súbory rovnakého typu.
Načítanie do novej a existujúcej tabuľky: Používateľ môže vybrať, či chce načítať svoje súbory a priečinky do novej tabuľky alebo existujúcej tabuľky podľa vlastného výberu. Ak sa rozhodnú načítať do existujúcej tabuľky, môžu buď pripojiť alebo prepísať svoje údaje v tabuľke.
Možnosť Zdrojový súbor CSV: V prípade súborov CSV povoľujeme používateľovi určiť, či jeho zdrojový súbor obsahuje hlavičky, ktoré by chcel použiť ako názvy stĺpcov. Používatelia môžu tiež zadať oddeľovač podľa svojho výberu, ktorý prepíše predvolený oddeľovač čiarky na mieste.
Načítané ako tabuľky Delta: Tabuľky sa vždy načítajú pomocou formátu tabuľky Delta Lake s povolenou optimalizáciou V-Order.
Poznámka
V súčasnosti nie je možné zadať schému tabuľky cez používateľské rozhranie Lakehouse. na tento účel musíte použiť poznámkový blok.
Pokyny a pravidlá overovania
Nasledujúci štandard sa vzťahuje na prostredie funkcie Načítať do tabuľky:
Názvy tabuliek môžu obsahovať iba alfanumerické znaky a znaky podčiarknutia. Tiež umožňuje všetky anglické písmená, veľké alebo malé písmená a znak podčiarknutia (
_
) s maximálnou dĺžkou 256 znakov. Nie sú povolené žiadne pomlčky (-
) ani znaky medzery.Textové súbory bez hlavičiek stĺpcov sa nahradia štandardným
col#
zápisom ako názvami stĺpcov tabuľky.Názvy stĺpcov umožňujú ľubovoľné anglické písmeno, veľké alebo malé písmená, znak podčiarknutia (
_
) a znaky v inom jazyku, napríklad čínštinu v UTF, s dĺžkou do 128 znakov. Názvy stĺpcov sa počas akcie načítania overia. Algoritmus Load to Delta nahradí zakázané hodnoty podbarom (_
). Ak sa počas overovania nedosiahne žiadny správny názov stĺpca, akcia načítania zlyhá.V prípade súborov CSV oddeľovač nemôže byť prázdny, nemôže byť dlhší ako 8 znakov alebo nesmie používať žiadny z nasledujúcich znakov:
(
,)
,[
,]
,{
, ,}
jednoduchá úvodzovka ('
), dvojitá úvodzovka ("
) a medzera prázdneho znaku.