Acțiuni PDF
Acțiunile PDF vă permit să extrageți imagini, text și tabele din fișiere PDF și să aranjați pagini pentru a crea documente noi.
Pentru a extrage text dintr-un fișier PDF, utilizați acțiunea Extrage text din PDF . Următorul exemplu extrage text dintr-un anumit interval de pagini dintr-un fișier protejat prin parolă. Parola este specificată în setările Avansate .
Pentru a extrage texte aranjate într-o formă tabelară, activați Optimizare pentru date structurate pentru a îmbunătăți formatul și acuratețea rezultatelor.
Pentru a extrage tabelele dintr-un fișier PDF, implementați acțiunea Extrageți tabelele din PDF , selectați fișierul și specificați paginile din care să extrageți.
Acțiunea produce variabila ExtractedPDFTables care conține o listă cu informații despre tabelul PDF. Pentru a găsi informații despre acest tip de listă, accesați Tipuri de date avansate.
Notă
- Acțiunea Extrage tabele din PDF nu folosește recunoașterea optică a caracterelor (OCR), așa că nu poți extrage text care nu poate fi copiat din PDF-urile scanate.
- Biblioteca din spatele acțiunii extrage ocazional date PDF suplimentare care nu sunt tabele. Această funcționalitate minimizează riscul de a omite accidental o masă reală.
Pe lângă extragerea informațiilor din fișierele PDF, puteți crea un document PDF nou dintr-un fișier existent utilizând acțiunea Extrage paginile fișierului PDF într-un fișier PDF nou .
Următorul exemplu selectează o combinație de pagini specifice și o serie de pagini.
Extrageți text din PDF
Puteți extrage text dintr-un fișier PDF utilizând acțiunea „Extrage text din PDF”. În proprietățile acțiunii, puteți defini fișierul PDF sursă și paginile din care ar trebui extras textul. Sub proprietățile avansate de acțiune puteți defini o parolă în cazul în care fișierul PDF este protejat și dacă motorul ar trebui să se optimizeze pentru date structurate sau nu.
Parametri de intrare
Argument | Opțional | Acceptă | Valoare implicită | Descriere |
---|---|---|---|---|
Fișier PDF | No | Fişier | Fișierul PDF din care să extragă text. Introduceți o cale de fișier, o variabilă care conține un fișier sau o cale de text | |
Pagini de extras | Nedisponibil | Toate, Single, Gamă | Tot | Specifică câte pagini se extrage: Toate paginile, o singură pagină sau o serie de pagini |
Număr pagină unică | No | Valoare numerica | Numărul paginii unice din care se extrage textul | |
Numărul paginii De la | No | Valoare numerica | Numărul primei pagini din intervalul de pagini din care se extrage textul | |
Numărul paginii Până la | No | Valoare numerica | Numărul ultimei pagini din intervalul de pagini din care se extrage textul | |
Parolă | Da | Intrare criptată directă sau Valoare text | Parola fișierului PDF. Lăsați necompletat dacă PDF-ul nu este protejat prin parolă | |
Optimizare pentru datele structurate | Nedisponibil | Valoare booleană | Fals | Specificați dacă urmează să detectați aspectul formatat în document și să extrageți textul în mod corespunzător |
Variabile produse
Argument | Tipul | Descriere |
---|---|---|
Text PDF extras | Valoare text | Textul extras |
Excepții
Excepție | Descriere |
---|---|
Fișierul PDF nu există | Fișierul nu există pe calea specificată |
Parolă nevalidă | Parola specificată este nevalidă |
Extragerea textului nu a reușit | Eroare la încercarea de extragere a textului |
Extrageți tabele din PDF
Puteți extrage tabelele care sunt conținute într-un fișier PDF utilizând acțiunea Extrage tabele din PDF . În proprietățile acțiunii puteți defini fișierul PDF și intervalul de pagini din care vor fi extrase tabelele. Sub proprietățile acțiunilor avansate puteți defini o parolă în cazul în care fișierul PDF este protejat, definiți dacă tabelul are antete sau nu și, în sfârșit, dacă tabelele care încrucișează marginile paginilor ar trebui să fie îmbinate sau nu.
Parametri de intrare
Argument | Opțional | Acceptă | Valoare implicită | Descriere |
---|---|---|---|---|
Fișier PDF | No | Fişier | Fișierul PDF din care să extrageți tabele. Introduceți o cale de fișier, o variabilă care conține un fișier sau o cale de text | |
Pagini de extras | Nedisponibil | Toate, Single, Gamă | Tot | Specifică din câte pagini vor fi extrase tabele: din toate paginile, dintr-o singură pagină sau dintr-un interval de pagini |
Număr pagină unică | No | Valoare numerica | Numărul unei singure pagini din care se extrag tabele | |
Numărul paginii De la | No | Valoare numerica | Primul număr de pagină din intervalul de pagini din care extrageți tabele | |
Numărul paginii Până la | No | Valoare numerica | Ultimul număr de pagină din intervalul de pagini din care se extrag tabelele | |
Parolă | Da | Intrare criptată directă sau Valoare text | Parola fișierului PDF. Lăsați necompletat dacă PDF-ul nu este protejat prin parolă | |
Îmbinare tabele care depășesc marginile paginilor | Nedisponibil | Valoare booleană | Adevărat | Specifică dacă doriți să îmbinați tabelele care depășesc marginile paginilor în intervalul de pagini specificat |
Prima linie conține numele de coloane | Nedisponibil | Valoare booleană | Adevărat | Specifică dacă prima linie de tabel conține nume de coloane |
Variabile produse
Argument | Tipul | Descriere |
---|---|---|
Tabelele PDF extrase | Lista cu informații despre tabelul PDF | Tabelele extrase cu informațiile lor aranjate ca listă |
Excepții
Excepție | Descriere |
---|---|
Fișierul PDF nu există | Fișierul nu există pe calea specificată |
Parolă nevalidă | Parola specificată este nevalidă |
Nu a reușit extragerea tabelelor | Eroare în timpul încercării de a extrage tabele |
Extrageți imagini din PDF
Pentru a extrage imagini dintr-un fișier PDF, puteți utiliza acțiunea Extrage imagini din PDF . În parametrii de acțiune puteți defini fișierul PDF și paginile din care să extrageți imaginile, convenția de denumire a imaginilor extacate și locația țintă a imaginilor salvate. De asemenea, puteți defini o parolă dacă fișierul PDF este protejat prin setările avansate.
Parametri de intrare
Argument | Opțional | Acceptă | Valoare implicită | Descriere |
---|---|---|---|---|
Fișier PDF | No | Fişier | Fișierul PDF din care să extragă imagini. Introduceți o cale de fișier, o variabilă care conține un fișier sau o cale de text | |
Parolă | Da | Intrare criptată directă sau Valoare text | Parola fișierului PDF. Lăsați necompletat dacă PDF-ul nu este protejat prin parolă | |
Pagini de extras | Nedisponibil | Toate, Single, Gamă | Tot | Specifică câte pagini se extrage: Toate paginile, o singură pagină sau o serie de pagini |
Număr pagină unică | No | Valoare numerica | Numărul paginii unice din care vor fi extrase imagini | |
Numărul paginii De la | No | Valoare numerica | Primul număr de pagină din gama de pagini din care să extrageți imagini | |
Numărul paginii Până la | No | Valoare numerica | Ultimul număr de pagină din intervalul de pagini din care să extrageți imagini | |
Numele imaginilor | No | Valoare text | Cum începe numele imaginilor. Exemplu de nume de imagini extrase: GivenName_1, GivenName_2 | |
Salvați imaginile în | No | Pliant | Dosarul pentru a salva imaginile extrase ca fișiere png |
Variabile produse
Această acțiune nu produce nicio variabilă.
Excepții
Excepție | Descriere |
---|---|
Parolă nevalidă | Parola specificată este nevalidă |
Extragerea imaginilor nu a reușit | Indică faptul că a apărut o eroare la extragerea imaginilor din paginile date ale PDF-ului |
Folderul nu există | Indică faptul că folderul nu există |
Fișierul PDF nu există | Fișierul nu există pe calea specificată |
Extrageți paginile unui fișier PDF într-un nou fișier PDF
Puteți crea un fișier PDF nou extragând pagini dintr-un fișier PDF existent utilizând paginile fișierului PDF într-o acțiune nouă pentru fișierul PDF. În parametrii de acțiune puteți defini fișierul PDF din care să extrageți paginile, paginile care urmează să fie extrase, locația noului fișier PDF și ce ar trebui să se întâmple dacă există deja un fișier cu același nume și extensie. În cele din urmă, sub proprietățile avansate puteți defini o parolă în cazul în care PDF-ul sursă este protejat.
Parametri de intrare
Argument | Opțional | Acceptă | Valoare implicită | Descriere |
---|---|---|---|---|
Fișier PDF | No | Fișier | Fișierul PDF din care să extrageți pagini. Introduceți o cale de fișier, o variabilă care conține un fișier sau o cale de text | |
Parolă | Da | Intrare criptată directă sau Valoare text | Parola fișierului PDF. Lăsați necompletat dacă PDF-ul nu este protejat prin parolă | |
Selecție pagini | No | Valoarea textului | Numerele de index ale paginilor de păstrat (de exemplu, 1,3,17-24) | |
Cale PDF extrasă | No | Fișier | Calea de stocare a fișierului PDF extras | |
Dacă fișierul există | Nedisponibil | Suprascriere, Nu suprascrieți, Adăugați sufix secvențial | Adăugați un sufix secvențial | Specifică modul în care se procedează în cazul în care fișierul PDF de ieșire există deja |
Variabile produse
Argument | Tipul | Descriere |
---|---|---|
ExtrasPDF | Fișier | Noul fișier PDF |
Excepții
Excepție | Descriere |
---|---|
Parolă nevalidă | Parola specificată este nevalidă |
Fișierul PDF nu există | Fișierul nu există pe calea specificată |
Pagină în afara limitelor | Indică faptul că una sau mai multe pagini sunt în afara limitelor fișierului PDF |
Selecție pagină nevalidă | Indică faptul că paginile date nu sunt valide pentru fișierul PDF |
Nu s-a reușit extragerea PDF-ului nou | Indică faptul că a apărut o eroare în timpul încercării de extragere a unui PDF nou |
Îmbinare fișiere PDF
Îmbină mai multe fișiere PDF într-unul nou.
Puteți utiliza acțiunea Fuzionare fișiere PDF pentru a prelua două sau mai multe fișiere PDF și a le îmbina într-un singur fișier. Fișierele care urmează să fie îmbinate pot fi furnizate fie sub forma unei liste, fie închise între ghilimele duble și separate printr-un delimitator. De asemenea, puteți furniza parole pentru fișierele PDF, în cazul în care acestea sunt protejate prin parolă.
Parametri de intrare
Argument | Opțional | Acceptă | Valoare implicită | Descriere |
---|---|---|---|---|
Fișiere PDF | No | Listafișierelor | Fișierele de îmbinat. Includeți mai multe fișiere între ghilimele duble (") și separați-le printr-un delimitator sau utilizați o listă de fișiere | |
Cale PDF îmbinat | No | Fișier | Calea de stocare a fișierului PDF îmbinat | |
Dacă fișierul există | Nedisponibil | Suprascriere, Nu suprascrieți, Adăugați sufix secvențial | Adăugați un sufix secvențial | Specifică modul în care se procedează în cazul în care fișierul de destinație există deja |
Parole | Da | Intrare criptată directă sau Valoare text | Parolele delimitate. Ordinea trebuie să fie aceeași cu ordinea PDF-urilor de intrare. Lăsați această necompletată dacă PDF-urile nu sunt protejate prin parolă | |
Delimitator | No | Valoarea textului | . | Un delimitator de parole personalizat. Acest delimitator nu ar trebui să facă parte din niciuna dintre parole |
Variabile produse
Argument | Tipul | Descriere |
---|---|---|
FuzionatPDF | Fișier | Fișierul PDF îmbinat |
Excepții
Excepție | Descriere |
---|---|
Fișierul PDF nu există | Fișierul nu există pe calea specificată |
Parolă nevalidă | Parola specificată este nevalidă |
Îmbinarea fișierelor PDF nu a reușit | Indică faptul că a apărut o eroare la îmbinarea fișierelor |