Formát textu s oddeľovačmi v službe Data Factory v službe Microsoft Fabric
Tento článok popisuje, ako nakonfigurovať formát textu s oddeľovačmi v kanáli údajov služby Data Factory v službe Microsoft Fabric.
Podporované schopnosti
Textový formát s oddeľovačmi je podporovaný v nasledujúcich aktivitách a konektoroch ako zdroj a cieľ.
Kategória | Konektor/aktivita |
---|---|
Podporovaný konektor | Amazon S3 |
Amazon S3 Kompatibilné | |
Ukladací priestor objektov BLOB na platforme Azure | |
Azure Data Lake Storage 1. generácie | |
Azure Data Lake Storage Gen2 | |
Súbory Azure | |
Systém súborov | |
FTP | |
Google Cloud Storage | |
HTTP (http) | |
Lakehouse Files | |
Oracle Cloud Storage | |
SFTP | |
Podporovaná aktivita | Kopírovať aktivitu (zdroj/cieľ) |
Aktivita vyhľadávania | |
Aktivita GetMetadata | |
Odstránenie aktivity |
Formát textu s oddeľovačmi v kopírovanej aktivite
Ak chcete nakonfigurovať formát textu s oddeľovačmi, vyberte pripojenie v zdroji alebo cieli aktivity kopírovania kanála údajov a potom v rozbaľovacom zozname Formát súboru vyberte položku DelimitedText. Vyberte položku Nastavenia pre ďalšiu konfiguráciu tohto formátu.
Formát textu s oddeľovačmi ako zdroj
Po výbere položky Nastavenia v časti Formát súboru sa v kontextovom okne Nastavenia formátu súboru zobrazia nasledujúce vlastnosti.
Typ kompresie: Kompresný kodek slúžiaci na čítanie textovými súbormi s oddeľovačmi. V rozbaľovacom zozname si môžete vybrať z položiek Žiadne, bzip2, gzip, deflate, ZipDeflate, TarGzip alebo decht .
Ak ako typ kompresie vyberiete možnosť ZipDeflate , položka Zachovať názov súboru zip ako priečinok sa zobrazí na karte Rozšírené nastavenia na karte Zdroj .
- Zachovať názov súboru zip ako priečinok: udáva, či sa má zachovať názov zdrojového súboru zip ako štruktúra priečinka počas kopírovania.
- Ak je toto políčko začiarknuté (predvolené), služba zapíše rozbalené súbory do
<specified file path>/<folder named as source zip file>/
. - Ak toto políčko nie je začiarknuté, služba zapíše rozbalené súbory priamo do
<specified file path>
. Dbajte na to, aby ste v rôznych zdrojových súboroch ZIP nemali duplicitné názvy súborov, aby ste sa vyhli pretekaniu alebo neočakávanému správaniu.
- Ak je toto políčko začiarknuté (predvolené), služba zapíše rozbalené súbory do
Ak ako typ kompresie vyberiete tarGzip /tar , položka Zachovať názov kompresného súboru ako priečinok sa zobrazí na karte Rozšírené nastavenia na karte Zdroj .
- Zachovanie názvu kompresného súboru ako priečinka: udáva, či sa má počas kopírovania zachovať komprimovaný názov zdroja ako štruktúra priečinkov.
- Ak je toto políčko začiarknuté (predvolené), služba zapíše dekomprimované súbory do
<specified file path>/<folder named as source compressed file>/
. - Ak toto políčko nie je začiarknuté, služba zapíše dekomprimované súbory priamo do
<specified file path>
. Dbajte na to, aby ste v rôznych zdrojových súboroch ZIP nemali duplicitné názvy súborov, aby ste sa vyhli pretekaniu alebo neočakávanému správaniu.
- Ak je toto políčko začiarknuté (predvolené), služba zapíše dekomprimované súbory do
- Zachovať názov súboru zip ako priečinok: udáva, či sa má zachovať názov zdrojového súboru zip ako štruktúra priečinka počas kopírovania.
Úroveň kompresie: Pri výbere typu kompresie zadajte kompresný pomer. Môžete si vybrať možnosť Optimálny alebo Najrýchlejší.
- Najrýchlejšie: Kompresná operácia by sa mala dokončiť čo najrýchlejšie, dokonca aj vtedy, ak výsledný súbor nie je optimálne komprimovaný.
- Optimálna: Operácia kompresie by mala byť optimálne komprimovaná, dokonca aj vtedy, ak dokončenie operácie trvá dlhšie. Ďalšie informácie nájdete v téme Úroveň kompresie.
Oddeľovač stĺpcov: znaky používané na oddelenie stĺpcov v súbore. Predvolená hodnota je čiarka (
,
).Oddeľovač riadkov: zadajte znak, ktorý sa používa na oddelenie riadkov v súbore. Povolený je iba jeden znak. Predvolená hodnota je posun
\n
riadka .Kódovanie: typ kódovania, ktorý sa používa na čítanie a zapisovanie testovacích súborov. Predvolená hodnota je UTF-8.
Escape character: jeden znak na koncové úvodzovky v úvodzovkách. Predvolená hodnota je spätná lomka
\
. Keď je escape character definovaný ako prázdny reťazec, znak Úvodzovky musí byť nastavený aj ako prázdny reťazec. V takom prípade sa uistite, že všetky hodnoty stĺpcov neobsahujú oddeľovače.Znak úvodzovky: jeden znak na úvodzovku hodnôt stĺpca, ak obsahuje oddeľovač stĺpcov. Predvolená hodnota je dvojité úvodzovky
"
. Keď je znak úvodzovky definovaný ako prázdny reťazec, znamená to, že neexistuje žiadna hodnota char úvodzoviek a hodnota stĺpca nie je citovaná, a escape character sa používa na únik oddeľovača stĺpcov a sám.Prvý riadok ako hlavička: Určuje, či sa má prvý riadok považovať za riadok hlavičky s názvami stĺpcov. Povolené hodnoty sú vybraté a nevybrané (predvolené). Keď nie je vybraný prvý riadok ako hlavička, všimnite si ukážku údajov používateľského rozhrania a výstup aktivity vyhľadávania automaticky vygeneruje názvy stĺpcov ako Prop_{n} (od 0), kopírovanie aktivity vyžaduje explicitné mapovanie zo zdroja do cieľa a vyhľadá stĺpce podľa poradových (od 1).
Hodnota Null: Určuje vyjadrenie reťazca hodnoty null. Predvolená hodnota je prázdny reťazec.
Na karte Rozšírené nastavenia na karte Zdroj sa zobrazujú ďalšie súvisiace vlastnosti formátu textu s oddeľovačmi.
Text vo formáte s oddeľovačmi ako cieľ
Po výbere položky Nastavenia v časti Formát súboru sa v kontextovom okne Nastavenia formátu súboru zobrazia nasledujúce vlastnosti.
Typ kompresie: Kompresný kodek, ktorý sa používa na zápis textovými súbormi s oddeľovačmi. V rozbaľovacom zozname si môžete vybrať z položiek Žiadne, bzip2, gzip, deflate, ZipDeflate, TarGzip alebo decht .
Úroveň kompresie: Pri výbere typu kompresie zadajte kompresný pomer. Môžete si vybrať možnosť Optimálny alebo Najrýchlejší.
- Najrýchlejšie: Kompresná operácia by sa mala dokončiť čo najrýchlejšie, dokonca aj vtedy, ak výsledný súbor nie je optimálne komprimovaný.
- Optimálna: Operácia kompresie by mala byť optimálne komprimovaná, dokonca aj vtedy, ak dokončenie operácie trvá dlhšie. Ďalšie informácie nájdete v téme Úroveň kompresie.
Oddeľovač stĺpcov: znaky používané na oddelenie stĺpcov v súbore. Predvolená hodnota je čiarka (
,
).Oddeľovač riadkov: Znak, ktorý sa používa na oddelenie riadkov v súbore. Povolený je iba jeden znak. Predvolená hodnota je posun
\n
riadka .Kódovanie: typ kódovania, ktorý sa používa na zapisovanie testovacích súborov. Predvolená hodnota je UTF-8.
Escape character: jeden znak na koncové úvodzovky v úvodzovkách. Predvolená hodnota je spätná lomka
\
. Keď je escape character definovaný ako prázdny reťazec, znak Úvodzovky musí byť nastavený aj ako prázdny reťazec. V takom prípade sa uistite, že všetky hodnoty stĺpcov neobsahujú oddeľovače.Znak úvodzovky: jeden znak na úvodzovku hodnôt stĺpca, ak obsahuje oddeľovač stĺpcov. Predvolená hodnota je dvojité úvodzovky
"
. Keď je znak úvodzovky definovaný ako prázdny reťazec, znamená to, že neexistuje žiadna hodnota char úvodzoviek a hodnota stĺpca nie je citovaná, a escape character sa používa na únik oddeľovača stĺpcov a sám.Prvý riadok ako hlavička: Určuje, či sa má prvý riadok považovať za riadok hlavičky s názvami stĺpcov. Povolené hodnoty sú vybraté a nevybrané (predvolené). Keď nie je vybraný prvý riadok ako hlavička, všimnite si ukážku údajov používateľského rozhrania a výstup aktivity vyhľadávania automaticky vygeneruje názvy stĺpcov ako Prop_{n} (od 0), kopírovanie aktivity vyžaduje explicitné mapovanie zo zdroja do cieľa a vyhľadá stĺpce podľa poradových (od 1).
Hodnota Null: Určuje vyjadrenie reťazca hodnoty null. Predvolená hodnota je prázdny reťazec.
V časti Rozšírené nastavenia na karte Cieľ sa zobrazí ďalšia vlastnosť formátu textu s oddeľovačmi.
Úvodzovka všetkých textov: Všetky hodnoty uzavrite do úvodzoviek.
Prípona súboru: Prípona súborov používaná na pomenovanie výstupných súborov, napríklad
.csv
,.txt
.Maximálny počet riadkov na súbor: Pri písaní údajov do priečinka môžete vybrať možnosť zapisovania do viacerých súborov a určenia maximálnych riadkov na súbor.
Predpona názvu súboru: Použiteľné, keď je nakonfigurovaný maximálny počet riadkov na súbor . Pri písaní údajov do viacerých súborov zadajte predponu názvu súboru, výsledkom čoho bude tento vzor:
<fileNamePrefix>_00000.<fileExtension>
. Ak parameter nie je zadaný, automaticky sa vygeneruje predpona názvu súboru. Táto vlastnosť sa nevzťahuje, keď je zdrojom súbor na báze úložiska alebo oblasti povoleného ukladacieho priestoru údajov.
Súhrn tabuľky
Text s oddeľovačmi ako zdroj
Pri používaní textového formátu s oddeľovačmi sú v časti Zdroj aktivity kopírovania podporované nasledujúce vlastnosti.
Meno | Popis | Hodnota | Požadovaný | Vlastnosť skriptu JSON |
---|---|---|---|---|
Formát súboru | Formát súboru, ktorý chcete použiť. | DelimitedText | Áno | type (do datasetSettings ):DelimitedText |
Typ kompresie | Kompresný kodek slúžiaci na čítanie textovými súbormi s oddeľovačmi. | Vyberte si z: Žiadny bzip2 gzip vyfúknuť ZipDeflate (psč) TarGzip decht |
No | type (do compression ): bzip2 gzip vyfúknuť ZipDeflate (psč) TarGzip decht |
Zachovanie názvu súboru zip ako priečinka | Udáva, či sa má počas kopírovania zachovať názov zdrojového súboru zip ako štruktúra priečinka. Vzťahuje sa na výber kompresie zipdeflate . | Vybraté alebo zrušenie výberu | Nie | preserveZipFileNameAsFolder (v časti compressionProperties –>type ako ZipDeflateReadSettings ) |
Zachovanie názvu kompresných súborov ako priečinka | Udáva, či sa má zachovať názov komprimovaného zdroja ako štruktúra priečinka počas kopírovania. Vzťahuje sa na výber kompresie targzip/dechtu . | Vybraté alebo zrušenie výberu | No | preserveCompressionFileNameAsFolder (pod compressionProperties ->type ako TarGZipReadSettings alebo TarReadSettings ) |
Úroveň kompresie | Kompresný pomer. Povolené hodnoty sú optimálne alebo najrýchlejšie. | Optimálny alebo Najrýchlejší | Nie | úroveň (v rámci compression ): Najrýchlejší Optimálny |
Oddeľovač stĺpcov | Znaky, ktoré sa používajú na oddelenie stĺpcov v súbore. | < vybratý oddeľovač stĺpcov > čiarka , (predvolene) |
No | columnDelimiter |
Oddeľovač riadkov | Znak, ktorý sa používa na oddelenie riadkov v súbore. | < vybratý oddeľovač riadkov > \r ,\n (predvolene) alebo r\n |
Nie | rowDelimiter |
Kódovanie | Typ kódovania, ktorý sa používa na čítanie a zapisovanie testovacích súborov. | "UTF-8" (predvolene),"UTF-8 bez BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM437", "IBM500", "IBM737", "IBM775", "IBM500", "IBM737", "IBM775", "IBM500", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM730", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737 "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM8 70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-1251" 1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nie | encodingName |
Znak úniku | Jeden znak na koncové úvodzovky v rámci hodnoty v úvodzovkách. Keď je escape character definovaný ako prázdny reťazec, znak Úvodzovky musí byť nastavený aj ako prázdny reťazec. V takom prípade sa uistite, že všetky hodnoty stĺpcov neobsahujú oddeľovače. | < vybratý znak úniku > opačná lomka \ (predvolene) |
No | escapeChar |
Znak úvodzovky | Jeden znak na úvodzovku hodnôt stĺpca, ak obsahuje oddeľovač stĺpcov. Keď je znak úvodzovky definovaný ako prázdny reťazec, znamená to, že neexistuje žiadna hodnota char úvodzoviek a hodnota stĺpca nie je citovaná, a escape character sa používa na únik oddeľovača stĺpcov a sám. | < váš vybratý znak úvodzovky > dvojité úvodzovky " (predvolené) |
No | quoteChar |
Prvý riadok ako hlavička | Určuje, či sa má prvý riadok v danom hárku alebo rozsahu považovať za riadok hlavičky s názvami stĺpcov. | Vybraté alebo nevybrané | No | firstRowAsHeader: true alebo false (predvolené) |
Hodnota Null | Určuje vyjadrenie reťazca hodnoty null. Predvolená hodnota je prázdny reťazec. | < vyjadrenie reťazca hodnoty null > prázdny reťazec (predvolene) |
No | Hodnota nullValue |
Text s oddeľovačmi ako cieľ
Pri používaní textového formátu s oddeľovačmi sú podporované nasledujúce vlastnosti v časti Cieľ aktivity kopírovania.
Meno | Popis | Hodnota | Požadovaný | Vlastnosť skriptu JSON |
---|---|---|---|---|
Formát súboru | Formát súboru, ktorý chcete použiť. | DelimitedText | Áno | type (do datasetSettings ):DelimitedText |
Typ kompresie | Kompresný kodek, ktorý sa používa na zápis textovými súbormi s oddeľovačmi. | Vyberte si z: Žiadny bzip2 gzip vyfúknuť ZipDeflate (psč) TarGzip decht |
No | type (do compression ): bzip2 gzip vyfúknuť ZipDeflate (psč) TarGzip decht |
Zachovanie názvu súboru zip ako priečinka | Udáva, či sa má počas kopírovania zachovať názov zdrojového súboru zip ako štruktúra priečinka. | Vybraté alebo zrušenie výberu | Nie | preserveZipFileNameAsFolder (v časti compressionProperties –>type ako ZipDeflateReadSettings ) |
Zachovanie názvu kompresných súborov ako priečinka | Udáva, či sa má zachovať názov komprimovaného zdroja ako štruktúra priečinka počas kopírovania. | Vybraté alebo zrušenie výberu | No | preserveCompressionFileNameAsFolder (pod compressionProperties ->type ako TarGZipReadSettings alebo TarReadSettings ) |
Úroveň kompresie | Kompresný pomer. Povolené hodnoty sú optimálne alebo najrýchlejšie. | Optimálny alebo Najrýchlejší | Nie | úroveň (v rámci compression ): Najrýchlejší Optimálny |
Oddeľovač stĺpcov | Znaky, ktoré sa používajú na oddelenie stĺpcov v súbore. | < vybratý oddeľovač stĺpcov > čiarka , (predvolene) |
No | columnDelimiter |
Oddeľovač riadkov | Znak, ktorý sa používa na oddelenie riadkov v súbore. | < vybratý oddeľovač riadkov > \r ,\n (predvolene) alebo r\n |
Nie | rowDelimiter |
Kódovanie | Typ kódovania, ktorý sa používa na čítanie a zapisovanie testovacích súborov. | "UTF-8" (predvolene),"UTF-8 bez BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM437", "IBM500", "IBM737", "IBM775", "IBM500", "IBM737", "IBM775", "IBM500", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM730", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737 "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM8 70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-1251" 1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nie | encodingName |
Znak úniku | Jeden znak na koncové úvodzovky v rámci hodnoty v úvodzovkách. Keď je escape character definovaný ako prázdny reťazec, znak Úvodzovky musí byť nastavený aj ako prázdny reťazec. V takom prípade sa uistite, že všetky hodnoty stĺpcov neobsahujú oddeľovače. | < vybratý znak úniku > opačná lomka \ (predvolene) |
No | escapeChar |
Znak úvodzovky | Jeden znak na úvodzovku hodnôt stĺpca, ak obsahuje oddeľovač stĺpcov. Keď je znak úvodzovky definovaný ako prázdny reťazec, znamená to, že neexistuje žiadna hodnota char úvodzoviek a hodnota stĺpca nie je citovaná, a escape character sa používa na únik oddeľovača stĺpcov a sám. | < váš vybratý znak úvodzovky > dvojité úvodzovky " (predvolené) |
No | quoteChar |
Prvý riadok ako hlavička | Určuje, či sa má prvý riadok v danom hárku alebo rozsahu považovať za riadok hlavičky s názvami stĺpcov. | Vybraté alebo nevybrané | No | firstRowAsHeader: true alebo false (predvolené) |
Cenová ponuka celého textu | Všetky hodnoty uzavrite do úvodzoviek. | Vybraté (predvolené) alebo nevybrané | No | quoteAllText: true (predvolené) alebo false |
Prípona súboru | Prípona súborov, ktorá sa používa na pomenovanie výstupných súborov. | < vaša prípona súboru > .txt (predvolené) |
No | fileExtension (súborExtenzia) |
Maximálny počet riadkov na súbor | Pri zapisovaní údajov do priečinka môžete vybrať možnosť zapisovania do viacerých súborov a určenia maximálny počet riadkov na súbor. | < maximálny počet riadkov na súbor > | No | maxRowsPerFile |
Predpona názvu súboru | Vhodné, ak je nakonfigurovaný maximálny počet riadkov na súbor . Pri písaní údajov do viacerých súborov zadajte predponu názvu súboru, výsledkom čoho bude tento vzor: <fileNamePrefix>_00000.<fileExtension> . Ak parameter nie je zadaný, automaticky sa vygeneruje predpona názvu súboru. Táto vlastnosť sa nevzťahuje, keď je zdrojom súbor na báze úložiska alebo oblasti povoleného ukladacieho priestoru údajov. |
< predpona názvu súboru > | No | fileNamePrefix |