Konfigurácia protokolu FTP v kopírovanej aktivite
V tomto článku sa uvádza, ako používať kopírovanú aktivitu v kanáli údajov na kopírovanie údajov z protokolu FTP.
Podporovaný formát
Protokol FTP podporuje nasledujúce formáty súborov. V každom článku nájdete informácie o nastaveniach založených na formáte.
- Formát Avro
- Binárny formát
- Text vo formáte s oddeľovačmi
- Formát Excelu
- Formát JSON
- Formát ORC
- Formát parketu
- Formát XML
Podporovaná konfigurácia
Ak chcete nastaviť každú kartu v časti Aktivita kopírovania, prejdite do nasledujúcich sekcií.
Všeobecné
Ak chcete nakonfigurovať kartu Všeobecné nastavenia, prečítajte si tému Všeobecné pokyny na nastavenie.
Source
Prejdite na kartu Zdroj a nakonfigurujte zdroj aktivity kopírovania. Podrobnú konfiguráciu získate v nasledujúcom obsahu.
Vyžadujú sa tieto tri vlastnosti:
Typ ukladacieho priestoru údajov: Vyberte položku Externé.
Pripojenie ion: Zo zoznamu pripojení vyberte pripojenie FTP. Ak žiadne pripojenie neexistuje, vytvorte nové pripojenie FTP výberom položky Nové.
Typ cesty k súboru: vyberte položku zo zoznamu Cesta k súboru, cestu k súboru zástupného znaku a Zoznam súborov podľa toho, ako sa majú čítať súbory.
Cesta k súboru: Ak vyberiete tento typ, zadajte cestu k zdrojového súboru. Môžete vybrať položku Prehľadávať a vybrať zdrojové súbory alebo zadať cestu k súboru manuálne.
Cesta k divokému súboru: Ak vyberiete tento typ, zadajte zástupné cesty na filtrovanie zdrojových priečinkov alebo súborov.
Povolené zástupné znaky sú
*
(zodpovedá nule alebo viacerým znakom) a?
(zodpovedá nule alebo jednému znaku). Ak názov priečinka obsahuje zástupný znak alebo tento escape znak, použite na^
to, aby ste sa vyhli. Ďalšie príklady nájdete v príkladoch s filtrom priečinkov a súborov.Cesta k zástupnému priečinku: zadajte cestu k priečinku so zástupnými znakmi na filtrovanie zdrojových priečinkov.
Názov zástupného súboru: zadajte názov súboru so zástupnými znakmi v danom priečinku Cesta k priečinkuPath/zástupný znak na filtrovanie zdrojových súborov.
Zoznam súborov: Ak vyberiete tento typ, zadajte cestu k priečinku a zoznam Cesta k súboru, čo označuje, že sa má skopírovať daná množina súborov. Ukážte na textový súbor obsahujúci zoznam súborov, ktoré chcete skopírovať, jeden súbor na riadok. Ďalšie príklady nájdete v príkladoch zoznamu Súbor.
Cesta k priečinku: zadajte cestu k zdrojového priečinku. Je to nutné.
Cesta k zoznamu súborov: zadajte cestu k textovému súboru, ktorý obsahuje zoznam súborov, ktoré chcete skopírovať.
Formát súboru: Vyberte formát súboru použitý v rozbaľovacom zozname. Vyberte položku Nastavenia a nakonfigurujte formát súboru. Ak chcete získať nastavenia rôznych formátov súborov, podrobné informácie nájdete v článkoch v časti Podporované formáty .
V časti Rozšírené môžete zadať nasledujúce polia:
Filtrovať podľa poslednej úpravy: Súbory sa filtrujú na základe dátumov poslednej úpravy. Táto vlastnosť sa nevzťahuje na konfiguráciu typu cesty k súboru ako zoznamu súborov.
- Čas začatia (UTC): Súbory sa vyberú, ak je ich čas poslednej úpravy väčší alebo rovný nakonfigurovanému času.
- Čas ukončenia (UTC): Súbory sa vyberú, ak je ich čas poslednej úpravy kratší ako nakonfigurovaný čas.
Keď má čas začatia (UTC) hodnotu dátumu a času, ale čas ukončenia (UTC) je NULL, znamená to, že sa vyberú súbory, ktorých naposledy upravený atribút je väčší alebo rovnaký ako hodnota datetime. Keď má čas ukončenia (UTC) hodnotu dátumu a času, ale čas začatia (UTC) je NULL, znamená to, že súbory, ktorých posledný upravený atribút je menší ako hodnota datetime, sa vyberú. Vlastnosti môžu mať hodnotu NULL, čo znamená, že na údaje sa nepoužije žiadny filter atribútu súboru.
Vypnutie bloku údajov: Blokovanie je navrhnuté tak, aby optimalizovalo výkon a dochádza pod ním. Táto možnosť vám umožňuje zakázať bloku údajov v jednotlivých súboroch. Pri kopírovaní údajov z ftp, služba sa snaží získať dĺžku súboru prvý, potom rozdeľte súbor do viacerých častí a prečítať ich paralelne. Špecifikujte, či váš server FTP podporuje získavanie dĺžky súboru alebo snahu prečítať z určitého posunu. Predvolene nie je začiarknuté.
Povoliť zisťovanie oblasti: zadajte, či sa majú analyzovať oblasti z cesty k súboru, a pridajte ich ako ďalšie zdrojové stĺpce. Keď používate formát binárneho súboru, výber nie je predvolene zrušený a nepodporuje sa.
Koreňová cesta oblasti: Keď je povolené zisťovanie oblasti, zadajte absolútnu koreňovú cestu, aby ste mohli čítať zdieľané priečinky ako stĺpce údajov.
Ak v predvolenom nastavení nie je zadaná,- Keď použijete cestu k súboru alebo zoznam súborov v zdroji, cesta ku koreňu oblasti je cesta, ktorú ste nakonfigurovali.
- Ak použijete filter zástupného priečinka, koreňová cesta oblasti je podradená cesta pred prvým zástupným znakom.
Za predpokladu, že napríklad nakonfigurujete cestu ako
root/folder/year=2020/month=08/day=27
:- Ak určíte koreňovú cestu oblasti ako
root/folder/year=2020
, aktivita kopírovania vygeneruje ďalšie dva stĺpce za mesiac a deň s hodnotou 08 a 27 okrem stĺpcov v súboroch. - Ak nie je zadaná koreňová cesta oblasti, nevygeneruje sa žiadny ďalší stĺpec.
Použitie binárneho prenosu: Zadajte, či sa má použiť režim binárneho prenosu. Vyberte ho, ak chcete použiť binárny režim (predvolený), alebo ho zrušte jeho výber, aby ste mohli používať ASCII.
Maximálny počet súbežných pripojení: Táto vlastnosť označuje hornú hranicu súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia.
Ďalšie stĺpce: Pridajte ďalšie stĺpce údajov na ukladanie relatívnej cesty alebo statickej hodnoty zdrojových súborov. Pre druhý sa podporuje výraz. Ďalšie informácie nájdete v časti Pridanie ďalších stĺpcov počas kopírovania.
Mapovanie
Informácie o konfigurácii karty Mapovanie nájdete v téme Konfigurácia priradení na karte priradenia. Ak ako formát súboru vyberiete binárnu hodnotu, mapovanie nebude podporované.
Nastavenie
Ak chcete Nastavenia konfiguráciu kariet, prejdite do časti Konfigurácia ďalších nastavení na karte Nastavenia.
Súhrn tabuľky
Nasledujúca tabuľka obsahuje ďalšie informácie o aktivite kopírovania v protokole FTP.
Source
Name | Description | Value | Požaduje sa | Vlastnosť skriptu JSON |
---|---|---|---|---|
Typ ukladacieho priestoru údajov | Typ ukladacieho priestoru údajov. | Externé | Áno | / |
Pripojenie ion | Pripojenie FTP k zdrojovému úložisku údajov. | < vaše pripojenie FTP > | Áno | Pripojenie |
Typ cesty k súboru | Typ cesty k súboru, ktorý sa používa na získanie zdrojových údajov. | • Cesta k súboru • Cesta k zástupnému súboru • Zoznam súborov |
Áno | / |
Cesta k súboru | Cesta k zdrojového súboru. | < cesta k súboru> | Áno | Názov_súboru cesta k priečinku |
Zástupné cesty | Zástupná cesta k zdrojového súboru. | < cesta k zástupnému súboru > | Áno pre názov súboru so zástupnými znakmi | wildcardFolderPath wildcardFileName |
Cesta k priečinku | Cesta k zdrojového priečinku. | < bežná cesta k domovsk ďalšiemu priečinku> | Áno | folderPath |
Cesta k zoznamu súborov | Označuje skopírovanie danej množiny súborov. Ukážte na textový súbor obsahujúci zoznam súborov, ktoré chcete skopírovať, jeden súbor na riadok. | < cesta k zoznamu súborov > | Nie | fileListPath |
Formát súboru | Formát súboru pre zdrojové údaje. Informácie o rôznych formátoch súborov nájdete v článkoch v časti Podporované formáty , kde nájdete podrobné informácie. | / | Áno | / |
Filtrovanie podľa poslednej úpravy | Súbory s časom poslednej úpravy v rozsahu [Čas začatia, Čas ukončenia) sa vyfiltrujú na ďalšie spracovanie. Čas sa použije na časové pásmo UTC vo formáte yyyy-mm-ddThh:mm:ss.fffZ . Tieto vlastnosti možno vynechať, čo znamená, že sa nepoužije žiadny filter atribútu súboru. Táto vlastnosť sa nevzťahuje na konfiguráciu typu cesty k súboru ako zoznamu súborov. |
Datetime | Nie | modifiedDatetimeStart modifiedDatetimeEnd |
Zakázanie blokovania údajov | Blokovanie je navrhnuté tak, aby optimalizovalo výkon a vykonáva sa v dolnej časti. Táto možnosť vám umožňuje zakázať bloku údajov v jednotlivých súboroch. Pri kopírovaní údajov z ftp, služba sa snaží získať dĺžku súboru prvý, potom rozdeľte súbor do viacerých častí a prečítať ich paralelne. Špecifikujte, či váš server FTP podporuje získavanie dĺžky súboru alebo snahu prečítať z určitého posunu. | vybraté alebo nevybrané (predvolené) | Nie | disableChunking: true alebo false (predvolené) |
Povolenie zisťovania oblasti | Udáva, či sa majú analyzovať oblasti z cesty k súboru, a či sa majú pridať ako ďalšie zdrojové stĺpce. | vybraté alebo nevybrané (predvolené) | Nie | enablePartitionDiscovery: true alebo false (predvolené) |
Koreňová cesta k oblasti | Absolútna koreňová cesta oblasti na čítanie rozdelených priečinkov ako stĺpce údajov. Zadajte ju, keď je povolený objav oblasti. | < cesta ku koreňu oblasti > | Nie | partitionRootPath |
Použitie binárneho prenosu | Udáva, či sa má použiť režim binárneho prenosu. Hodnoty sú true pre binárny režim (predvolené) a false pre ASCII. | selected (predvolené) alebo nevybrané | Nie | useBinaryTransfer: true (predvolené) alebo false |
Maximálny počet súbežných pripojení | Horná hranica súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia. | < horná hranica súbežných pripojení > (celé číslo) |
Nie | maxConcurrent Pripojenie ions |
Ďalšie stĺpce | Pridajte ďalšie stĺpce údajov na ukladanie relatívnej cesty alebo statickej hodnoty zdrojových súborov. Pre druhý sa podporuje výraz. Ďalšie informácie nájdete v časti Pridanie ďalších stĺpcov počas kopírovania. | •Meno •Hodnota |
Nie | additionalColumns: •meno •Hodnota |