Zdieľať cez


Formát XML v službe Data Factory v službe Microsoft Fabric

Tento článok popisuje, ako nakonfigurovať formát XML v kanáli údajov služby Data Factory v službe Microsoft Fabric.

Podporované schopnosti

Formát XML je podporovaný pre nasledujúce aktivity a konektory ako zdroj.

Kategória Konektor/aktivita
Podporovaný konektor Amazon S3
Amazon S3 Kompatibilné
Ukladací priestor objektov BLOB na platforme Azure
Azure Data Lake Storage 1. generácie
Azure Data Lake Storage Gen2
Súbory Azure
Systém súborov
FTP
Google Cloud Storage
HTTP (http)
Lakehouse Files
Oracle Cloud Storage
SFTP
Podporovaná aktivita Kopírovať aktivitu (zdroj/-)
Aktivita vyhľadávania
Aktivita GetMetadata
Odstránenie aktivity

Formát XML v kopírovanej aktivite

Ak chcete nakonfigurovať formát XML, vyberte pripojenie v zdroji aktivity kopírovania kanála údajov a potom v rozbaľovacom zozname Formát súboru vyberte položku XML. Vyberte položku Nastavenia pre ďalšiu konfiguráciu tohto formátu.

Snímka obrazovky zobrazujúca nastavenia formátu súboru.

XML ako zdroj

Po výbere položky Nastavenia v časti Formát súboru sa v kontextovom okne Nastavenia formátu súboru zobrazia nasledujúce vlastnosti.

Snímka obrazovky zobrazujúca výber formátu súboru.

  • Typ kompresie: Kompresný kodek slúžiaci na čítanie súborov XML. V rozbaľovacom zozname si môžete vybrať z položiek Žiadne, bzip2, gzip, deflate, ZipDeflate, TarGZip alebo decht .

    Ak ako typ kompresie vyberiete možnosť ZipDeflate , položka Zachovať názov súboru zip ako priečinok sa zobrazí na karte Rozšírené nastavenia na karte Zdroj .

    • Zachovať názov súboru zip ako priečinok: udáva, či sa má zachovať názov zdrojového súboru zip ako štruktúra priečinka počas kopírovania.
      • Ak je toto políčko začiarknuté (predvolené), služba zapíše rozbalené súbory do <specified file path>/<folder named as source zip file>/.
      • Ak toto políčko nie je začiarknuté, služba zapíše rozbalené súbory priamo do <specified file path>. Dbajte na to, aby ste v rôznych zdrojových súboroch ZIP nemali duplicitné názvy súborov, aby ste sa vyhli pretekaniu alebo neočakávanému správaniu.

    Ak ako typ kompresie vyberiete tarGZip /tar , ako priečinok sa zobrazí zachovať názov kompresného súboru, ako priečinok sa zobrazí na karte Rozšírené nastavenia na karte Zdroj .

    • Zachovať názov kompresného súboru ako priečinok: udáva, či sa má zachovať komprimovaný názov zdroja ako štruktúra priečinkov počas kopírovania.
      • Ak je toto políčko začiarknuté (predvolené), služba zapíše dekomprimované súbory do <specified file path>/<folder named as source compressed file>/.
      • Ak toto políčko nie je začiarknuté, služba zapíše dekomprimované súbory priamo do <specified file path>. Dbajte na to, aby ste v rôznych zdrojových súboroch nemali duplicitné názvy súborov, aby ste sa vyhli pretekaniu alebo neočakávanému správaniu.
  • Úroveň kompresie: Pri výbere typu kompresie zadajte kompresný pomer. Môžete si vybrať z najrýchlejších alebo optimálnych.

    • Najrýchlejšie: Kompresná operácia by sa mala dokončiť čo najrýchlejšie, dokonca aj vtedy, ak výsledný súbor nie je optimálne komprimovaný.
    • Optimálna: Operácia kompresie by mala byť optimálne komprimovaná, dokonca aj vtedy, ak dokončenie operácie trvá dlhšie. Ďalšie informácie nájdete v téme Úroveň kompresie.
  • Kódovanie: zadajte typ kódovania, ktorý sa používa na zapisovanie testovacích súborov. Z rozbaľovacieho zoznamu vyberte jeden typ. Predvolená hodnota je UTF-8.

  • Hodnota Null: Určuje vyjadrenie reťazca hodnoty null. Predvolená hodnota je prázdny reťazec.

V časti Rozšírené nastavenia na karte Zdroj sa zobrazujú nasledujúce vlastnosti súvisiace s formátom XML.

  • Režim overenia: určuje, či sa má overiť schéma XML. Z rozbaľovacieho zoznamu vyberte jeden režim.

    • Žiadna: Túto možnosť vyberte, ak chcete nepoužívať režim overenia.
    • xsd: Výberom tejto možnosti overte schému XML pomocou XSD.
    • dtd: Vyberte túto možnosť, ak chcete overiť schému XML pomocou DTD.

    Snímka obrazovky zobrazujúca režimy overenia.

  • Priestory názvov: zadajte, či sa má povoliť priestor názvov pri analýze súborov XML. Predvolene je vybratá.

  • Páry predpony priestoru názvov: Ak sú povolené priestory názvov, vyberte položku + Nové a zadajte URL adresu a predponu. Výberom položky + Nové môžete pridať ďalšie páry.
    Identifikátor URI priestoru názvov na priradenie predpony sa používa na pomenovanie polí pri analýze súboru XML. Ak má súbor XML priestor názvov a priestor názvov je povolený, názov poľa je predvolene rovnaký ako v dokumente XML. Ak je na tejto mape definovaná položka pre identifikátor URI priestoru názvov, názov poľa je prefix:fieldName.

    Snímka obrazovky znázorňujúca páry predpony priestoru názvov.

  • Zistiť typ údajov: zadajte, či sa majú zistiť celočíselné, dvojité a booleovské typy údajov. Predvolene je vybratá.

Súhrn tabuľky

XML ako zdroj

Pri používaní formátu XML sú v časti Zdroj aktivity kopírovania podporované nasledujúce vlastnosti.

Meno Popis Hodnota Požadovaný Vlastnosť skriptu JSON
Formát súboru Formát súboru, ktorý chcete použiť. XML Áno type (do datasetSettings):
XML
Typ kompresie Kompresný kodek slúžiaci na čítanie súborov XML. Žiadny
bzip2
gzip
vyfúknuť
ZipDeflate (psč)
TarGZip
decht
No type (do compression):

bzip2
gzip
vyfúknuť
ZipDeflate (psč)
TarGZip
decht
Úroveň kompresie  Kompresný pomer. Najrýchlejší
Optimálny 
Nie úroveň (v rámci compression):
Najrýchlejší
Optimálny
Kódovanie Typ kódovania, ktorý sa používa na čítanie testovacích súborov. "UTF-8" (predvolene),"UTF-8 bez KUSOV", "UTF-16LE", "UTF-16BE", "UTF-32LE", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM273", "IBM437", "IBM500", "IBM737", "IBM437", "IBM500", "IBM737", "IBM437", "IBM500", "IBM737", "IBM500", "IBM737", "IBM437", "IBM500", "IBM737", "IBM273", "IBM500", "IBM737", "IBM500", "IBM737", "IBM500", "IBM737", "IBM500", "IBM737", "IBM437", "IBM500", "IBM737", "IBM500", "IBM737", "IBM5 "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-125 2", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nie encodingName
Zachovanie názvu súboru zip ako priečinka Udáva, či sa má zachovať názov zdrojového súboru zip ako štruktúra priečinka počas kopírovania. Vybraté (predvolené) alebo zrušenie výberu No preserveZipFileNameAsFolder
(pod compressionProperties–>type ako ZipDeflateReadSettings):
true (predvolené) alebo false
Zachovanie názvu kompresných súborov ako priečinka Udáva, či sa má zachovať názov komprimovaného zdroja ako štruktúra priečinka počas kopírovania. Vybraté (predvolené) alebo zrušenie výberu No preserveCompressionFileNameAsFolder
(pod compressionProperties–>type ako TarGZipReadSettings alebo TarReadSettings):
true (predvolené) alebo false
Hodnota Null Vyjadrenie reťazca hodnoty null. <vaša hodnota null>
prázdny reťazec (predvolene)
Nie Hodnota nullValue
Režim overenia Určuje, či sa má overiť schéma XML. Žiadny
xsd
Dtd
No validationMode:

xsd
Dtd
Priestory názvov Určuje, či sa má povoliť priestor názvov pri analýze súborov XML. Vybraté (predvolené) alebo nevybrané No priestory názvov:
true (predvolené) alebo false
Páry predpony priestoru názvov Identifikátor URI priestoru názvov na priradenie predpony, ktoré sa používa na pomenovanie polí pri analýze súboru XML.
Ak má súbor XML priestor názvov a priestor názvov je povolený, názov poľa je predvolene rovnaký ako v dokumente XML.
Ak je na tejto mape definovaná položka pre identifikátor URI priestoru názvov, názov poľa je prefix:fieldName.
< URL >:< predpona > No namespacePrefixes:
< URL >:< predpona >
Zistiť typ údajov Určuje, či sa majú zistiť typy údajov typu celé číslo, double a booleovská hodnota. Vybraté (predvolené) alebo nevybrané No detectDataType:
true (predvolené) alebo false