Zdieľať cez


Formát textu s oddeľovačmi v službe Data Factory v službe Microsoft Fabric

Tento článok popisuje, ako nakonfigurovať formát textu s oddeľovačmi v kanáli údajov služby Data Factory v službe Microsoft Fabric.

Podporované schopnosti

Textový formát s oddeľovačmi je podporovaný v nasledujúcich aktivitách a konektoroch ako zdroj a cieľ.

Kategória Konektor/aktivita
Podporovaný konektor Amazon S3
Amazon S3 Kompatibilné
Ukladací priestor objektov BLOB na platforme Azure
Azure Data Lake Storage 1. generácie
Azure Data Lake Storage Gen2
Súbory Azure
Systém súborov
FTP
Google Cloud Storage
HTTP (http)
Lakehouse Files
Oracle Cloud Storage
SFTP
Podporovaná aktivita Kopírovať aktivitu (zdroj/cieľ)
Aktivita vyhľadávania
Aktivita GetMetadata
Odstránenie aktivity

Formát textu s oddeľovačmi v kopírovanej aktivite

Ak chcete nakonfigurovať formát textu s oddeľovačmi, vyberte pripojenie v zdroji alebo cieli aktivity kopírovania kanála údajov a potom v rozbaľovacom zozname Formát súboru vyberte položku DelimitedText. Vyberte položku Nastavenia pre ďalšiu konfiguráciu tohto formátu.

Snímka obrazovky zobrazujúca nastavenia formátu súboru.

Formát textu s oddeľovačmi ako zdroj

Po výbere položky Nastavenia v časti Formát súboru sa v kontextovom okne Nastavenia formátu súboru zobrazia nasledujúce vlastnosti.

Snímka obrazovky zobrazujúca nastavenia formátu zdrojového súboru.

  • Typ kompresie: Kompresný kodek slúžiaci na čítanie textovými súbormi s oddeľovačmi. V rozbaľovacom zozname si môžete vybrať z položiek Žiadne, bzip2, gzip, deflate, ZipDeflate, TarGzip alebo decht .

    Ak ako typ kompresie vyberiete možnosť ZipDeflate , položka Zachovať názov súboru zip ako priečinok sa zobrazí na karte Rozšírené nastavenia na karte Zdroj .

    • Zachovať názov súboru zip ako priečinok: udáva, či sa má zachovať názov zdrojového súboru zip ako štruktúra priečinka počas kopírovania.
      • Ak je toto políčko začiarknuté (predvolené), služba zapíše rozbalené súbory do <specified file path>/<folder named as source zip file>/.
      • Ak toto políčko nie je začiarknuté, služba zapíše rozbalené súbory priamo do <specified file path>. Dbajte na to, aby ste v rôznych zdrojových súboroch ZIP nemali duplicitné názvy súborov, aby ste sa vyhli pretekaniu alebo neočakávanému správaniu.

    Ak ako typ kompresie vyberiete tarGzip /tar , položka Zachovať názov kompresného súboru ako priečinok sa zobrazí na karte Rozšírené nastavenia na karte Zdroj .

    • Zachovanie názvu kompresného súboru ako priečinka: udáva, či sa má počas kopírovania zachovať komprimovaný názov zdroja ako štruktúra priečinkov.
      • Ak je toto políčko začiarknuté (predvolené), služba zapíše dekomprimované súbory do <specified file path>/<folder named as source compressed file>/.
      • Ak toto políčko nie je začiarknuté, služba zapíše dekomprimované súbory priamo do <specified file path>. Dbajte na to, aby ste v rôznych zdrojových súboroch ZIP nemali duplicitné názvy súborov, aby ste sa vyhli pretekaniu alebo neočakávanému správaniu.
  • Úroveň kompresie: Pri výbere typu kompresie zadajte kompresný pomer. Môžete si vybrať možnosť Optimálny alebo Najrýchlejší.

    • Najrýchlejšie: Kompresná operácia by sa mala dokončiť čo najrýchlejšie, dokonca aj vtedy, ak výsledný súbor nie je optimálne komprimovaný.
    • Optimálna: Operácia kompresie by mala byť optimálne komprimovaná, dokonca aj vtedy, ak dokončenie operácie trvá dlhšie. Ďalšie informácie nájdete v téme Úroveň kompresie.
  • Oddeľovač stĺpcov: znaky používané na oddelenie stĺpcov v súbore. Predvolená hodnota je čiarka (,).

  • Oddeľovač riadkov: zadajte znak, ktorý sa používa na oddelenie riadkov v súbore. Povolený je iba jeden znak. Predvolená hodnota je posun \nriadka .

  • Kódovanie: typ kódovania, ktorý sa používa na čítanie a zapisovanie testovacích súborov. Predvolená hodnota je UTF-8.

  • Escape character: jeden znak na koncové úvodzovky v úvodzovkách. Predvolená hodnota je spätná lomka \. Keď je escape character definovaný ako prázdny reťazec, znak Úvodzovky musí byť nastavený aj ako prázdny reťazec. V takom prípade sa uistite, že všetky hodnoty stĺpcov neobsahujú oddeľovače.

  • Znak úvodzovky: jeden znak na úvodzovku hodnôt stĺpca, ak obsahuje oddeľovač stĺpcov. Predvolená hodnota je dvojité úvodzovky ". Keď je znak úvodzovky definovaný ako prázdny reťazec, znamená to, že neexistuje žiadna hodnota char úvodzoviek a hodnota stĺpca nie je citovaná, a escape character sa používa na únik oddeľovača stĺpcov a sám.

  • Prvý riadok ako hlavička: Určuje, či sa má prvý riadok považovať za riadok hlavičky s názvami stĺpcov. Povolené hodnoty sú vybraté a nevybrané (predvolené). Keď nie je vybraný prvý riadok ako hlavička, všimnite si ukážku údajov používateľského rozhrania a výstup aktivity vyhľadávania automaticky vygeneruje názvy stĺpcov ako Prop_{n} (od 0), kopírovanie aktivity vyžaduje explicitné mapovanie zo zdroja do cieľa a vyhľadá stĺpce podľa poradových (od 1).

  • Hodnota Null: Určuje vyjadrenie reťazca hodnoty null. Predvolená hodnota je prázdny reťazec.

Na karte Rozšírené nastavenia na karte Zdroj sa zobrazujú ďalšie súvisiace vlastnosti formátu textu s oddeľovačmi.

Text vo formáte s oddeľovačmi ako cieľ

Po výbere položky Nastavenia v časti Formát súboru sa v kontextovom okne Nastavenia formátu súboru zobrazia nasledujúce vlastnosti.

Snímka obrazovky zobrazujúca nastavenia formátu cieľového súboru.

  • Typ kompresie: Kompresný kodek, ktorý sa používa na zápis textovými súbormi s oddeľovačmi. V rozbaľovacom zozname si môžete vybrať z položiek Žiadne, bzip2, gzip, deflate, ZipDeflate, TarGzip alebo decht .

  • Úroveň kompresie: Pri výbere typu kompresie zadajte kompresný pomer. Môžete si vybrať možnosť Optimálny alebo Najrýchlejší.

    • Najrýchlejšie: Kompresná operácia by sa mala dokončiť čo najrýchlejšie, dokonca aj vtedy, ak výsledný súbor nie je optimálne komprimovaný.
    • Optimálna: Operácia kompresie by mala byť optimálne komprimovaná, dokonca aj vtedy, ak dokončenie operácie trvá dlhšie. Ďalšie informácie nájdete v téme Úroveň kompresie.
  • Oddeľovač stĺpcov: znaky používané na oddelenie stĺpcov v súbore. Predvolená hodnota je čiarka (,).

  • Oddeľovač riadkov: Znak, ktorý sa používa na oddelenie riadkov v súbore. Povolený je iba jeden znak. Predvolená hodnota je posun \nriadka .

  • Kódovanie: typ kódovania, ktorý sa používa na zapisovanie testovacích súborov. Predvolená hodnota je UTF-8.

  • Escape character: jeden znak na koncové úvodzovky v úvodzovkách. Predvolená hodnota je spätná lomka \. Keď je escape character definovaný ako prázdny reťazec, znak Úvodzovky musí byť nastavený aj ako prázdny reťazec. V takom prípade sa uistite, že všetky hodnoty stĺpcov neobsahujú oddeľovače.

  • Znak úvodzovky: jeden znak na úvodzovku hodnôt stĺpca, ak obsahuje oddeľovač stĺpcov. Predvolená hodnota je dvojité úvodzovky ". Keď je znak úvodzovky definovaný ako prázdny reťazec, znamená to, že neexistuje žiadna hodnota char úvodzoviek a hodnota stĺpca nie je citovaná, a escape character sa používa na únik oddeľovača stĺpcov a sám.

  • Prvý riadok ako hlavička: Určuje, či sa má prvý riadok považovať za riadok hlavičky s názvami stĺpcov. Povolené hodnoty sú vybraté a nevybrané (predvolené). Keď nie je vybraný prvý riadok ako hlavička, všimnite si ukážku údajov používateľského rozhrania a výstup aktivity vyhľadávania automaticky vygeneruje názvy stĺpcov ako Prop_{n} (od 0), kopírovanie aktivity vyžaduje explicitné mapovanie zo zdroja do cieľa a vyhľadá stĺpce podľa poradových (od 1).

  • Hodnota Null: Určuje vyjadrenie reťazca hodnoty null. Predvolená hodnota je prázdny reťazec.

V časti Rozšírené nastavenia na karte Cieľ sa zobrazí ďalšia vlastnosť formátu textu s oddeľovačmi.

  • Úvodzovka všetkých textov: Všetky hodnoty uzavrite do úvodzoviek.

  • Prípona súboru: Prípona súborov používaná na pomenovanie výstupných súborov, napríklad .csv, .txt.

  • Maximálny počet riadkov na súbor: Pri písaní údajov do priečinka môžete vybrať možnosť zapisovania do viacerých súborov a určenia maximálnych riadkov na súbor.

  • Predpona názvu súboru: Použiteľné, keď je nakonfigurovaný maximálny počet riadkov na súbor . Pri písaní údajov do viacerých súborov zadajte predponu názvu súboru, výsledkom čoho bude tento vzor: <fileNamePrefix>_00000.<fileExtension>. Ak parameter nie je zadaný, automaticky sa vygeneruje predpona názvu súboru. Táto vlastnosť sa nevzťahuje, keď je zdrojom súbor na báze úložiska alebo oblasti povoleného ukladacieho priestoru údajov.

Súhrn tabuľky

Text s oddeľovačmi ako zdroj

Pri používaní textového formátu s oddeľovačmi sú v časti Zdroj aktivity kopírovania podporované nasledujúce vlastnosti.

Meno Popis Hodnota Požadovaný Vlastnosť skriptu JSON
 Formát súboru Formát súboru, ktorý chcete použiť. DelimitedText Áno type (do datasetSettings):
DelimitedText
Typ kompresie Kompresný kodek slúžiaci na čítanie textovými súbormi s oddeľovačmi. Vyberte si z:
Žiadny
bzip2
gzip
vyfúknuť
ZipDeflate (psč)
TarGzip
decht
No type (do compression):

bzip2
gzip
vyfúknuť
ZipDeflate (psč)
TarGzip
decht
Zachovanie názvu súboru zip ako priečinka Udáva, či sa má počas kopírovania zachovať názov zdrojového súboru zip ako štruktúra priečinka. Vzťahuje sa na výber kompresie zipdeflate . Vybraté alebo zrušenie výberu Nie preserveZipFileNameAsFolder
(v časti compressionProperties–>type ako ZipDeflateReadSettings)
Zachovanie názvu kompresných súborov ako priečinka Udáva, či sa má zachovať názov komprimovaného zdroja ako štruktúra priečinka počas kopírovania. Vzťahuje sa na výber kompresie targzip/dechtu . Vybraté alebo zrušenie výberu No preserveCompressionFileNameAsFolder
(pod compressionProperties->type ako TarGZipReadSettings alebo TarReadSettings)
Úroveň kompresie  Kompresný pomer. Povolené hodnoty sú optimálne alebo najrýchlejšie. Optimálny alebo Najrýchlejší Nie úroveň (v rámci compression):
Najrýchlejší
Optimálny
Oddeľovač stĺpcov  Znaky, ktoré sa používajú na oddelenie stĺpcov v súbore.  < vybratý oddeľovač stĺpcov >
čiarka , (predvolene)
No columnDelimiter
Oddeľovač riadkov Znak, ktorý sa používa na oddelenie riadkov v súbore. < vybratý oddeľovač riadkov >
\r,\n (predvolene) alebo r\n
Nie rowDelimiter
Kódovanie Typ kódovania, ktorý sa používa na čítanie a zapisovanie testovacích súborov. "UTF-8" (predvolene),"UTF-8 bez BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM437", "IBM500", "IBM737", "IBM775", "IBM500", "IBM737", "IBM775", "IBM500", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM730", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737 "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM8 70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-1251" 1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nie encodingName
Znak úniku Jeden znak na koncové úvodzovky v rámci hodnoty v úvodzovkách. Keď je escape character definovaný ako prázdny reťazec, znak Úvodzovky musí byť nastavený aj ako prázdny reťazec. V takom prípade sa uistite, že všetky hodnoty stĺpcov neobsahujú oddeľovače. < vybratý znak úniku >
opačná lomka \ (predvolene)
No escapeChar
Znak úvodzovky Jeden znak na úvodzovku hodnôt stĺpca, ak obsahuje oddeľovač stĺpcov. Keď je znak úvodzovky definovaný ako prázdny reťazec, znamená to, že neexistuje žiadna hodnota char úvodzoviek a hodnota stĺpca nie je citovaná, a escape character sa používa na únik oddeľovača stĺpcov a sám. < váš vybratý znak úvodzovky >
dvojité úvodzovky " (predvolené)
No quoteChar
Prvý riadok ako hlavička Určuje, či sa má prvý riadok v danom hárku alebo rozsahu považovať za riadok hlavičky s názvami stĺpcov. Vybraté alebo nevybrané No firstRowAsHeader:
true alebo false (predvolené)
Hodnota Null Určuje vyjadrenie reťazca hodnoty null. Predvolená hodnota je prázdny reťazec. < vyjadrenie reťazca hodnoty null >
prázdny reťazec (predvolene)
No Hodnota nullValue

Text s oddeľovačmi ako cieľ

Pri používaní textového formátu s oddeľovačmi sú podporované nasledujúce vlastnosti v časti Cieľ aktivity kopírovania.

Meno Popis Hodnota Požadovaný Vlastnosť skriptu JSON
 Formát súboru Formát súboru, ktorý chcete použiť. DelimitedText Áno type (do datasetSettings):
DelimitedText
Typ kompresie Kompresný kodek, ktorý sa používa na zápis textovými súbormi s oddeľovačmi. Vyberte si z:
Žiadny
bzip2
gzip
vyfúknuť
ZipDeflate (psč)
TarGzip
decht
No type (do compression):

bzip2
gzip
vyfúknuť
ZipDeflate (psč)
TarGzip
decht
Zachovanie názvu súboru zip ako priečinka Udáva, či sa má počas kopírovania zachovať názov zdrojového súboru zip ako štruktúra priečinka. Vybraté alebo zrušenie výberu Nie preserveZipFileNameAsFolder
(v časti compressionProperties–>type ako ZipDeflateReadSettings)
Zachovanie názvu kompresných súborov ako priečinka Udáva, či sa má zachovať názov komprimovaného zdroja ako štruktúra priečinka počas kopírovania. Vybraté alebo zrušenie výberu No preserveCompressionFileNameAsFolder
(pod compressionProperties->type ako TarGZipReadSettings alebo TarReadSettings)
Úroveň kompresie  Kompresný pomer. Povolené hodnoty sú optimálne alebo najrýchlejšie. Optimálny alebo Najrýchlejší Nie úroveň (v rámci compression):
Najrýchlejší
Optimálny
Oddeľovač stĺpcov  Znaky, ktoré sa používajú na oddelenie stĺpcov v súbore.  < vybratý oddeľovač stĺpcov >
čiarka , (predvolene)
No columnDelimiter
Oddeľovač riadkov Znak, ktorý sa používa na oddelenie riadkov v súbore. < vybratý oddeľovač riadkov >
\r,\n (predvolene) alebo r\n
Nie rowDelimiter
Kódovanie Typ kódovania, ktorý sa používa na čítanie a zapisovanie testovacích súborov. "UTF-8" (predvolene),"UTF-8 bez BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM437", "IBM500", "IBM737", "IBM775", "IBM500", "IBM737", "IBM775", "IBM500", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM730", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737", "IBM737 "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM8 70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-1251" 1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nie encodingName
Znak úniku Jeden znak na koncové úvodzovky v rámci hodnoty v úvodzovkách. Keď je escape character definovaný ako prázdny reťazec, znak Úvodzovky musí byť nastavený aj ako prázdny reťazec. V takom prípade sa uistite, že všetky hodnoty stĺpcov neobsahujú oddeľovače. < vybratý znak úniku >
opačná lomka \ (predvolene)
No escapeChar
Znak úvodzovky Jeden znak na úvodzovku hodnôt stĺpca, ak obsahuje oddeľovač stĺpcov. Keď je znak úvodzovky definovaný ako prázdny reťazec, znamená to, že neexistuje žiadna hodnota char úvodzoviek a hodnota stĺpca nie je citovaná, a escape character sa používa na únik oddeľovača stĺpcov a sám. < váš vybratý znak úvodzovky >
dvojité úvodzovky " (predvolené)
No quoteChar
Prvý riadok ako hlavička Určuje, či sa má prvý riadok v danom hárku alebo rozsahu považovať za riadok hlavičky s názvami stĺpcov. Vybraté alebo nevybrané No firstRowAsHeader:
true alebo false (predvolené)
Cenová ponuka celého textu Všetky hodnoty uzavrite do úvodzoviek. Vybraté (predvolené) alebo nevybrané No quoteAllText:
true (predvolené) alebo false
Prípona súboru Prípona súborov, ktorá sa používa na pomenovanie výstupných súborov. < vaša prípona súboru >
.txt (predvolené)
No fileExtension (súborExtenzia)
Maximálny počet riadkov na súbor Pri zapisovaní údajov do priečinka môžete vybrať možnosť zapisovania do viacerých súborov a určenia maximálny počet riadkov na súbor. < maximálny počet riadkov na súbor > No maxRowsPerFile
Predpona názvu súboru Vhodné, ak je nakonfigurovaný maximálny počet riadkov na súbor . Pri písaní údajov do viacerých súborov zadajte predponu názvu súboru, výsledkom čoho bude tento vzor: <fileNamePrefix>_00000.<fileExtension>. Ak parameter nie je zadaný, automaticky sa vygeneruje predpona názvu súboru. Táto vlastnosť sa nevzťahuje, keď je zdrojom súbor na báze úložiska alebo oblasti povoleného ukladacieho priestoru údajov. < predpona názvu súboru > No fileNamePrefix