Formát parketov v službe Data Factory v službe Microsoft Fabric
Tento článok popisuje, ako nakonfigurovať formát Parquet v kanáli údajov služby Data Factory v službe Microsoft Fabric.
Podporované schopnosti
Formát parkety je podporovaný pre nasledujúce aktivity a konektory ako zdroj a cieľ.
Kategória | Konektor/aktivita |
---|---|
Podporovaný konektor | Amazon S3 |
Amazon S3 Kompatibilné | |
Ukladací priestor objektov BLOB na platforme Azure | |
Azure Data Lake Storage 1. generácie | |
Azure Data Lake Storage Gen2 | |
Súbory Azure | |
Systém súborov | |
FTP | |
Google Cloud Storage | |
HTTP (http) | |
Lakehouse Files | |
Oracle Cloud Storage | |
SFTP | |
Podporovaná aktivita | Kopírovať aktivitu (zdroj/cieľ) |
Aktivita vyhľadávania | |
Aktivita GetMetadata | |
Odstránenie aktivity |
Formát parkety v aktivite kopírovania
Ak chcete nakonfigurovať formát Parquet, vyberte pripojenie v zdroji alebo cieli aktivity kopírovania kanála údajov a potom v rozbaľovacom zozname Formát súboru vyberte položku Parquet. Vyberte položku Nastavenia pre ďalšiu konfiguráciu tohto formátu.
Formát parketu ako zdroj
Po výbere položky Nastavenia v časti Formát súboru sa v kontextovom okne Nastavenia formátu súboru zobrazia nasledujúce vlastnosti.
- Typ kompresie: Vyberte kompresný kodek používaný na čítanie súborov vo formáte Parquet v rozbaľovacom zozname. Môžete si vybrať niektorú z možností None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) alebo lz4hadoop.
Formát parketu ako cieľ
Po výbere položky Nastavenia sa v kontextovom okne Nastavenia formátu súboru zobrazia nasledujúce vlastnosti.
Typ kompresie: Vyberte kompresný kodek používaný na zápis súborov vo formáte Parquet v rozbaľovacom zozname. Môžete si vybrať niektorú z možností None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) alebo lz4hadoop.
Použitie poradia V: Povoľte optimalizáciu času zápisu do formátu súboru vo formáte parketu. Ďalšie informácie nájdete v téme Optimalizácia tabuľky Delta Lake a Objednávka V-Order. Predvolene je zapnutá.
V časti Rozšírené nastavenia na karte Cieľ sa zobrazujú nasledujúce vlastnosti súvisiace s formátom Parquet.
- Maximálny počet riadkov na súbor: Pri písaní údajov do priečinka môžete vybrať možnosť zapisovania do viacerých súborov a určenia maximálnych riadkov na súbor. Zadajte maximálny počet riadkov, ktoré chcete na súbor zapísať.
- Predpona názvu súboru: Použiteľné, keď je nakonfigurovaný maximálny počet riadkov na súbor . Pri písaní údajov do viacerých súborov zadajte predponu názvu súboru, výsledkom čoho bude tento vzor:
<fileNamePrefix>_00000.<fileExtension>
. Ak parameter nie je zadaný, automaticky sa vygeneruje predpona názvu súboru. Táto vlastnosť sa nevzťahuje, keď je zdrojom súbor na báze úložiska alebo oblasti povoleného úložiska údajov.
Súhrn tabuľky
Parket ako zdroj
Pri používaní formátu Parquet sú v časti Zdroj aktivity kopírovania podporované nasledujúce vlastnosti.
Názov | Popis | Value | Požaduje sa | Vlastnosť skriptu JSON |
---|---|---|---|---|
Formát súboru | Formát súboru, ktorý chcete použiť. | Parketové | Áno | type (do datasetSettings ):Parketové |
Typ kompresie | Kompresný kodek slúžiaci na čítanie súborov vo formáte Parquet. | Vyberte si z: Žiadny gzip (.gz) Elegantné LZO Brotli (.br) Zstandard Lz4 lz4frame bzip2 (.bz2) lz4hadoop |
No | compressionCodec: gzip Elegantné LZO brotli zstd Lz4 lz4frame bz2 lz4hadoop |
Parket ako cieľ
Pri používaní formátu Parquet sú podporované nasledujúce vlastnosti v časti Cieľ aktivity kopírovania.
Názov | Popis | Value | Požaduje sa | Vlastnosť skriptu JSON |
---|---|---|---|---|
Formát súboru | Formát súboru, ktorý chcete použiť. | Parketové | Áno | type (do datasetSettings ):Parketové |
Použitie poradia V | Optimalizácia času zápisu do formátu súboru vo formáte parketu. | vybraté alebo nevybrané | No | enableVertiParquet |
Typ kompresie | Kompresný kodek slúžiaci na zápis súborov vo formáte Parquet. | Vyberte si z: Žiadny gzip (.gz) Elegantné LZO Brotli (.br) Zstandard Lz4 lz4frame bzip2 (.bz2) lz4hadoop |
No | compressionCodec: gzip Elegantné LZO brotli zstd Lz4 lz4frame bz2 lz4hadoop |
Maximálny počet riadkov na súbor | Pri zapisovaní údajov do priečinka môžete vybrať možnosť zapisovania do viacerých súborov a určenia maximálneho počtu riadkov na súbor. Zadajte maximálny počet riadkov, ktoré chcete na súbor zapísať. | <maximálny počet riadkov na súbor> | No | maxRowsPerFile |
Predpona názvu súboru | Vhodné, ak je nakonfigurovaný maximálny počet riadkov na súbor . Pri písaní údajov do viacerých súborov zadajte predponu názvu súboru, výsledkom čoho bude tento vzor: <fileNamePrefix>_00000.<fileExtension> . Ak parameter nie je zadaný, automaticky sa vygeneruje predpona názvu súboru. Táto vlastnosť sa nevzťahuje, keď je zdrojom súbor na báze úložiska alebo oblasti povoleného úložiska údajov. |
<predpona názvu súboru> | No | fileNamePrefix |