Zdieľať cez


Formát parketov v službe Data Factory v službe Microsoft Fabric

Tento článok popisuje, ako nakonfigurovať formát Parquet v kanáli údajov služby Data Factory v službe Microsoft Fabric.

Podporované schopnosti

Formát parkety je podporovaný pre nasledujúce aktivity a konektory ako zdroj a cieľ.

Kategória Konektor/aktivita
Podporovaný konektor Amazon S3
Amazon S3 Kompatibilné
Ukladací priestor objektov BLOB na platforme Azure
Azure Data Lake Storage 1. generácie
Azure Data Lake Storage Gen2
Súbory Azure
Systém súborov
FTP
Google Cloud Storage
HTTP (http)
Lakehouse Files
Oracle Cloud Storage
SFTP
Podporovaná aktivita Kopírovať aktivitu (zdroj/cieľ)
Aktivita vyhľadávania
Aktivita GetMetadata
Odstránenie aktivity

Formát parkety v aktivite kopírovania

Ak chcete nakonfigurovať formát Parquet, vyberte pripojenie v zdroji alebo cieli aktivity kopírovania kanála údajov a potom v rozbaľovacom zozname Formát súboru vyberte položku Parquet. Vyberte položku Nastavenia pre ďalšiu konfiguráciu tohto formátu.

Snímka obrazovky zobrazujúca nastavenia formátu súboru.

Formát parketu ako zdroj

Po výbere položky Nastavenia v časti Formát súboru sa v kontextovom okne Nastavenia formátu súboru zobrazia nasledujúce vlastnosti.

Snímka obrazovky zobrazujúca zdroj formátu súboru vo formáte parquet.

  • Typ kompresie: Vyberte kompresný kodek používaný na čítanie súborov vo formáte Parquet v rozbaľovacom zozname. Môžete si vybrať niektorú z možností None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) alebo lz4hadoop.

Formát parketu ako cieľ

Po výbere položky Nastavenia sa v kontextovom okne Nastavenia formátu súboru zobrazia nasledujúce vlastnosti.

Snímka obrazovky zobrazujúca cieľ formátu súboru vo formáte parquet.

  • Typ kompresie: Vyberte kompresný kodek používaný na zápis súborov vo formáte Parquet v rozbaľovacom zozname. Môžete si vybrať niektorú z možností None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) alebo lz4hadoop.

  • Použitie poradia V: Povoľte optimalizáciu času zápisu do formátu súboru vo formáte parketu. Ďalšie informácie nájdete v téme Optimalizácia tabuľky Delta Lake a Objednávka V-Order. Predvolene je zapnutá.

V časti Rozšírené nastavenia na karte Cieľ sa zobrazujú nasledujúce vlastnosti súvisiace s formátom Parquet.

  • Maximálny počet riadkov na súbor: Pri písaní údajov do priečinka môžete vybrať možnosť zapisovania do viacerých súborov a určenia maximálnych riadkov na súbor. Zadajte maximálny počet riadkov, ktoré chcete na súbor zapísať.
  • Predpona názvu súboru: Použiteľné, keď je nakonfigurovaný maximálny počet riadkov na súbor . Pri písaní údajov do viacerých súborov zadajte predponu názvu súboru, výsledkom čoho bude tento vzor: <fileNamePrefix>_00000.<fileExtension>. Ak parameter nie je zadaný, automaticky sa vygeneruje predpona názvu súboru. Táto vlastnosť sa nevzťahuje, keď je zdrojom súbor na báze úložiska alebo oblasti povoleného úložiska údajov.

Súhrn tabuľky

Parket ako zdroj

Pri používaní formátu Parquet sú v časti Zdroj aktivity kopírovania podporované nasledujúce vlastnosti.

Názov Popis Value Požaduje sa Vlastnosť skriptu JSON
Formát súboru Formát súboru, ktorý chcete použiť. Parketové Áno type (do datasetSettings):
Parketové
Typ kompresie Kompresný kodek slúžiaci na čítanie súborov vo formáte Parquet. Vyberte si z:
Žiadny
gzip (.gz)
Elegantné
LZO
Brotli (.br)
Zstandard
Lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
No compressionCodec:

gzip
Elegantné
LZO
brotli
zstd
Lz4
lz4frame
bz2
lz4hadoop

Parket ako cieľ

Pri používaní formátu Parquet sú podporované nasledujúce vlastnosti v časti Cieľ aktivity kopírovania.

Názov Popis Value Požaduje sa Vlastnosť skriptu JSON
Formát súboru Formát súboru, ktorý chcete použiť. Parketové Áno type (do datasetSettings):
Parketové
Použitie poradia V Optimalizácia času zápisu do formátu súboru vo formáte parketu. vybraté alebo nevybrané No enableVertiParquet
Typ kompresie Kompresný kodek slúžiaci na zápis súborov vo formáte Parquet. Vyberte si z:
Žiadny
gzip (.gz)
Elegantné
LZO
Brotli (.br)
Zstandard
Lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
No compressionCodec:

gzip
Elegantné
LZO
brotli
zstd
Lz4
lz4frame
bz2
lz4hadoop
Maximálny počet riadkov na súbor Pri zapisovaní údajov do priečinka môžete vybrať možnosť zapisovania do viacerých súborov a určenia maximálneho počtu riadkov na súbor. Zadajte maximálny počet riadkov, ktoré chcete na súbor zapísať. <maximálny počet riadkov na súbor> No maxRowsPerFile
Predpona názvu súboru Vhodné, ak je nakonfigurovaný maximálny počet riadkov na súbor . Pri písaní údajov do viacerých súborov zadajte predponu názvu súboru, výsledkom čoho bude tento vzor: <fileNamePrefix>_00000.<fileExtension>. Ak parameter nie je zadaný, automaticky sa vygeneruje predpona názvu súboru. Táto vlastnosť sa nevzťahuje, keď je zdrojom súbor na báze úložiska alebo oblasti povoleného úložiska údajov. <predpona názvu súboru> No fileNamePrefix