Akcie PDF
Akcie PDF vám umožňujú extrahovať obrázky, text a tabuľky zo súborov PDF a usporiadať strany na vytváranie nových dokumentov.
Ak chcete extrahovať text zo súboru PDF, použite akciu Extrahovať text z PDF . Nasledujúci príklad extrahuje text zo špecifického rozsahu stránok súboru chráneného heslom. Heslo je špecifikované v Rozšírených nastaveniach.
Ak chcete extrahovať texty usporiadané do tabuľkovej formy, povoľte Optimalizovať pre štruktúrované údaje na zlepšenie formátu a presnosti výsledkov.
Ak chcete extrahovať tabuľky zo súboru PDF, nasaďte akciu Extrahovať tabuľky z PDF , vyberte súbor a zadajte strany, z ktorých sa má extrahovať.
Akcia vytvorí premennú ExtractedPDFTables , ktorá obsahuje zoznam informácií o tabuľke PDF. Ak chcete nájsť informácie o tomto type zoznamu, prejdite na Rozšírené typy údajov.
Poznámka
- Akcia Extrahovať tabuľky z PDF nepoužíva optické rozpoznávanie znakov (OCR), takže z naskenovaných súborov PDF nemôžete extrahovať nekopírovateľný text.
- Knižnica za akciou príležitostne extrahuje ďalšie údaje PDF, ktoré nie sú tabuľkami. Táto funkcia minimalizuje riziko náhodného vynechania skutočnej tabuľky.
Okrem extrahovania informácií zo súborov PDF môžete vytvoriť nový dokument PDF z existujúceho súboru pomocou akcie Extrahovať strany súboru PDF do nového súboru PDF .
Nasledujúci príklad vyberá kombináciu konkrétnych stránok a rozsahu stránok.
Text zo súboru PDF môžete extrahovať pomocou akcie „Extrahovať text z PDF“. Vo vlastnostiach akcie môžete definovať zdrojový súbor PDF a stránky, z ktorých sa má text extrahovať. V rámci pokročilých vlastností akcie môžete definovať heslo v prípade, že je súbor PDF chránený a či sa má stroj optimalizovať pre štruktúrované dáta alebo nie.
Argument | Voliteľné | Akceptuje | Predvolená hodnota | Description |
---|---|---|---|---|
PDF file | Nie | Súbor | Súbor PDF, z ktorého sa má extrahovať text. Zadajte cestu k súboru alebo premennú obsahujúcu súbor alebo cestu k textu | |
Page(s) to extract | Neaplikovateľné | Všetko, Jeden, Rozsah | Všetko | Určuje, koľko strán sa má extrahovať: Všetky strany, jedna strana alebo rozsah strán |
Single page number | Nie | Číselná hodnota | Číslo jednej strany, z ktorej sa má extrahovať text | |
From page number | Nie | Číselná hodnota | Číslo prvej strany z rozsahu strán, z ktorých sa má extrahovať text | |
To page number | Nie | Číselná hodnota | Číslo poslednej strany z rozsahu strán, z ktorých sa má extrahovať text | |
Password | Áno | Priamy šifrovaný vstup alebo Textová hodnota | Používateľské heslo k súboru PDF. Ak súbor PDF nie je chránený heslom, nechajte toto pole prázdne | |
Optimalizovať pre štruktúrované údaje | Neaplikovateľné | Booleovská hodnota | Nepravdivé | Zadajte, či sa má v dokumente zistiť formátované rozloženie a podľa toho extrahovať text |
Argument | Type | Description |
---|---|---|
ExtractedPDFText | Textová hodnota | Extrahovaný text |
Výnimka | Popis |
---|---|
Súbor PDF neexistuje | Súbor na danej ceste neexistuje |
Neplatné heslo | Dané heslo je neplatné |
Nepodarilo sa extrahovať text | Chyba pri pokuse o extrahovanie textu |
Tabuľky, ktoré sa nachádzajú v súbore PDF, môžete extrahovať pomocou akcie Extrahovať tabuľky z PDF . Vo vlastnostiach akcie môžete definovať súbor PDF a rozsah strán, z ktorých budú tabuľky extrahované. V rámci rozšírených vlastností akcie môžete definovať heslo v prípade, že je súbor PDF chránený, definovať, či tabuľka má alebo nemá hlavičky a nakoniec, či sa majú zlúčiť tabuľky, ktoré prekračujú okraje stránky.
Argument | Voliteľné | Akceptuje | Predvolená hodnota | Description |
---|---|---|---|---|
PDF file | No | Súbor | Súbor PDF na extrahovanie tabuliek. Zadajte cestu k súboru alebo premennú obsahujúcu súbor alebo cestu k textu | |
Page(s) to extract | Neaplikovateľné | Všetko, Jeden, Rozsah | Všetko | Určuje počet strán, z ktorých sa majú extrahovať tabuľky: všetky strany, jedna strana alebo rozsah strán |
Single page number | No | Číselná hodnota | Číslo jednej strany, z ktorej sa majú extrahovať tabuľky | |
From page number | No | Číselná hodnota | Číslo prvej strany z rozsahu strán, z ktorých sa majú extrahovať tabuľky | |
To page number | No | Číselná hodnota | Číslo poslednej strany z rozsahu strán, z ktorých sa majú extrahovať tabuľky | |
Password | Áno | Priamy šifrovaný vstup alebo Textová hodnota | Používateľské heslo k súboru PDF. Ak súbor PDF nie je chránený heslom, nechajte toto pole prázdne | |
Zlúčiť tabuľky, ktoré presahujú okraje strán | Neaplikovateľné | Booleovská hodnota | Pravdivé | Určuje, či sa majú zlúčiť tabuľky, ktoré presahujú okraje strán v zadanom rozsahu strán |
First line contains column names | Neaplikovateľné | Booleovská hodnota | Pravdivé | Určuje, či prvý riadok tabuľky obsahuje názvy stĺpcov |
Argument | Type | Description |
---|---|---|
Extrahované tabuľky PDF | Zoznam informácií o tabuľke PDF | Extrahované tabuľky s ich informáciami ako zoznamom |
Výnimka | Description |
---|---|
Súbor PDF neexistuje | Súbor na danej ceste neexistuje |
Neplatné heslo | Dané heslo je neplatné |
Nepodarilo sa extrahovať tabuľky | Pri pokuse o extrahovanie tabuliek sa vyskytla chyba |
Na extrahovanie obrázkov zo súboru PDF môžete použiť akciu Extrahovať obrázky z PDF . V parametroch akcie môžete definovať súbor PDF a stránky, z ktorých sa majú extrahovať obrázky, konvenciu pomenovania extrahovaných obrázkov a cieľové umiestnenie uložených obrázkov. Môžete tiež definovať heslo, ak je súbor PDF chránený v rámci rozšírených nastavení.
Argument | Voliteľné | Akceptuje | Predvolená hodnota | Description |
---|---|---|---|---|
PDF file | Nie | Súbor | Súbor PDF, z ktorého sa majú extrahovať obrázky. Zadajte cestu k súboru alebo premennú obsahujúcu súbor alebo cestu k textu | |
Password | Áno | Priamy šifrovaný vstup alebo Textová hodnota | Používateľské heslo k súboru PDF. Ak súbor PDF nie je chránený heslom, nechajte toto pole prázdne | |
Page(s) to extract | Nie je k dispozícii | Všetko, Jeden, Rozsah | Všetko | Určuje, koľko strán sa má extrahovať: Všetky strany, jedna strana alebo rozsah strán |
Single page number | Nie | Číselná hodnota | Číslo jednej strany, z ktorej sa majú extrahovať obrázky | |
From page number | Nie | Číselná hodnota | Číslo prvej strany z rozsahu strán, z ktorých sa majú extrahovať obrázky | |
To page number | Nie | Číselná hodnota | Číslo poslednej strany z rozsahu strán, z ktorých sa majú extrahovať obrázky | |
Image(s) name | Nie | Textová hodnota | Ako sa začína názov obrázkov. Príklad názvu extrahovaných obrázkov: GivenName_1, GivenName_2 | |
Save image(s) to | Nie | Priečinok | Priečinok, do ktorého sa majú extrahované obrázky uložiť ako súbory png |
Táto akcia nevytvára žiadne premenné.
Výnimka | Description |
---|---|
Neplatné heslo | Dané heslo je neplatné |
Nepodarilo sa extrahovať obrázky | Označuje, že pri extrahovaní obrázkov z daných stránok PDF sa vyskytla chyba |
Priečinok neexistuje | Označuje, že priečinok neexistuje |
Súbor PDF neexistuje | Súbor na danej ceste neexistuje |
Nový súbor PDF môžete vytvoriť extrahovaním strán z existujúceho súboru PDF pomocou akcie Stránky súboru PDF na nový súbor PDF . V parametroch akcie môžete definovať súbor PDF, z ktorého sa majú extrahovať strany, strany, ktoré sa majú extrahovať, umiestnenie nového súboru PDF a čo sa má stať, ak súbor s rovnakým názvom a príponou už existuje. Nakoniec v pokročilých vlastnostiach môžete definovať heslo v prípade, že je zdrojové PDF chránené.
Argument | Voliteľné | Akceptuje | Predvolená hodnota | Description |
---|---|---|---|---|
PDF file | Nie | Súbor | Súbor PDF, z ktorého sa majú extrahovať strany. Zadajte cestu k súboru alebo premennú obsahujúcu súbor alebo cestu k textu | |
Password | Áno | Priamy šifrovaný vstup alebo Textová hodnota | Používateľské heslo k súboru PDF. Ak súbor PDF nie je chránený heslom, nechajte toto pole prázdne | |
Page selection | No | Textová hodnota | Indexové čísla strán, ktoré sa majú zachovať (napríklad 1,3,17-24) | |
Extracted PDF path | No | Súbor | Cesta, kam sa má uložiť extrahovaný súbor PDF | |
If file exists | Nie je k dispozícii | Prepísať, Neprepísať, Pridať sekvenčnú príponu | Pridať sekvenčnú príponu | Určuje, čo robiť, ak výstupný súbor PDF už existuje |
Argument | Type | Description |
---|---|---|
ExtractedPDF | Súbor | Nový súbor PDF |
Výnimka | Popis |
---|---|
Neplatné heslo | Dané heslo je neplatné |
Súbor PDF neexistuje | Súbor na danej ceste neexistuje |
Strana mimo hraníc | Označuje, že najmenej jedna strana súboru PDF je mimo hraníc |
Neplatný výber strán | Označuje, že dané strany nie sú platné pre súbor PDF |
Nepodarilo sa extrahovať nové PDF | Označuje, že pri pokuse o extrahovanie nového PDF sa vyskytla chyba |
Zlúči viaceré PDF súbory do nového súboru.
Akciu Zlúčiť súbory PDF môžete použiť na vytvorenie dvoch alebo viacerých súborov PDF a ich zlúčenie do jedného súboru. Súbory, ktoré sa majú zlúčiť, môžu byť poskytnuté buď vo forme zoznamu, alebo v úvodzovkách a oddelené oddeľovačom. Môžete tiež poskytnúť heslá pre súbory PDF v prípade, že sú chránené heslom.
Argument | Voliteľné | Akceptuje | Predvolená hodnota | Description |
---|---|---|---|---|
PDF files | Nie | Zoznam zo súborov | Súbory, ktoré sa majú zlúčiť. Uzavrite viaceré súbory do dvojitých úvodzoviek (") a oddeľte ich oddeľovačom, prípadne použite zoznam súborov | |
Merged PDF path | Nie | Súbor | Cesta, kam sa má uložiť zlúčený súbor PDF | |
If file exists | Nie je k dispozícii | Prepísať, Neprepísať, Pridať sekvenčnú príponu | Pridať sekvenčnú príponu | Určuje, čo robiť, ak cieľový súbor už existuje |
Passwords | Áno | Priamy šifrovaný vstup alebo Textová hodnota | Oddelené heslá. Poradie by malo byť rovnaké ako poradie vstupných súborov PDF. Ak súbory PDFs nie sú chránené heslom, nechajte toto pole prázdne | |
Delimiter | No | Textová hodnota | , | Vlastný oddeľovač hesiel. Tento oddeľovač by nemal byť súčasťou žiadneho z hesiel |
Argument | Type | Description |
---|---|---|
MergedPDF | Súbor | Zlúčený súbor PDF |
Výnimka | Popis |
---|---|
Súbor PDF neexistuje | Súbor na danej ceste neexistuje |
Neplatné heslo | Dané heslo je neplatné |
Nepodarilo sa zlúčiť súbory PDF | Označuje, že počas zlučovania súborov sa vyskytla chyba |