Partajați prin


Acțiuni PDF

Acțiunile PDF vă permit să extrageți imagini, text și tabele din fișiere PDF și să aranjați pagini pentru a crea documente noi.

Pentru a extrage text dintr-un fișier PDF, utilizați acțiunea Extrage text din PDF . Următorul exemplu extrage text dintr-un anumit interval de pagini dintr-un fișier protejat prin parolă. Parola este specificată în setările Avansate .

Pentru a extrage texte aranjate într-o formă tabelară, activați Optimizare pentru date structurate pentru a îmbunătăți formatul și acuratețea rezultatelor.

Captură de ecran a acțiunii Extragere text din PDF.

Pentru a extrage tabelele dintr-un fișier PDF, implementați acțiunea Extrageți tabelele din PDF , selectați fișierul și specificați paginile din care să extrageți.

Acțiunea produce variabila ExtractedPDFTables care conține o listă cu informații despre tabelul PDF. Pentru a găsi informații despre acest tip de listă, accesați Tipuri de date avansate.

Notă

  • Acțiunea Extrage tabele din PDF nu folosește recunoașterea optică a caracterelor (OCR), așa că nu poți extrage text care nu poate fi copiat din PDF-urile scanate.
  • Biblioteca din spatele acțiunii extrage ocazional date PDF suplimentare care nu sunt tabele. Această funcționalitate minimizează riscul de a omite accidental o masă reală.

Captură de ecran a acțiunii Extrage tabelele din PDF.

Pe lângă extragerea informațiilor din fișierele PDF, puteți crea un document PDF nou dintr-un fișier existent utilizând acțiunea Extrage paginile fișierului PDF într-un fișier PDF nou .

Următorul exemplu selectează o combinație de pagini specifice și o serie de pagini.

Captură de ecran a acțiunii Extrageți paginile fișierului PDF în noul fișier PDF.

Extrageți text din PDF

Puteți extrage text dintr-un fișier PDF utilizând acțiunea „Extrage text din PDF”. În proprietățile acțiunii, puteți defini fișierul PDF sursă și paginile din care ar trebui extras textul. Sub proprietățile avansate de acțiune puteți defini o parolă în cazul în care fișierul PDF este protejat și dacă motorul ar trebui să se optimizeze pentru date structurate sau nu.

Parametri de intrare

Argument Opțional Acceptă Valoare implicită Descriere
Fișier PDF No Fişier Fișierul PDF din care să extragă text. Introduceți o cale de fișier, o variabilă care conține un fișier sau o cale de text
Pagini de extras Nedisponibil Toate, Single, Gamă Tot Specifică câte pagini se extrage: Toate paginile, o singură pagină sau o serie de pagini
Număr pagină unică No Valoare numerica Numărul paginii unice din care se extrage textul
Numărul paginii De la No Valoare numerica Numărul primei pagini din intervalul de pagini din care se extrage textul
Numărul paginii Până la No Valoare numerica Numărul ultimei pagini din intervalul de pagini din care se extrage textul
Parolă Da Intrare criptată directă sau Valoare text Parola fișierului PDF. Lăsați necompletat dacă PDF-ul nu este protejat prin parolă
Optimizare pentru datele structurate Nedisponibil Valoare booleană Fals Specificați dacă urmează să detectați aspectul formatat în document și să extrageți textul în mod corespunzător

Variabile produse

Argument Tipul Descriere
Text PDF extras Valoare text Textul extras

Excepții

Excepție Descriere
Fișierul PDF nu există Fișierul nu există pe calea specificată
Parolă nevalidă Parola specificată este nevalidă
Extragerea textului nu a reușit Eroare la încercarea de extragere a textului

Extrageți tabele din PDF

Puteți extrage tabelele care sunt conținute într-un fișier PDF utilizând acțiunea Extrage tabele din PDF . În proprietățile acțiunii puteți defini fișierul PDF și intervalul de pagini din care vor fi extrase tabelele. Sub proprietățile acțiunilor avansate puteți defini o parolă în cazul în care fișierul PDF este protejat, definiți dacă tabelul are antete sau nu și, în sfârșit, dacă tabelele care încrucișează marginile paginilor ar trebui să fie îmbinate sau nu.

Parametri de intrare

Argument Opțional Acceptă Valoare implicită Descriere
Fișier PDF No Fişier Fișierul PDF din care să extrageți tabele. Introduceți o cale de fișier, o variabilă care conține un fișier sau o cale de text
Pagini de extras Nedisponibil Toate, Single, Gamă Tot Specifică din câte pagini vor fi extrase tabele: din toate paginile, dintr-o singură pagină sau dintr-un interval de pagini
Număr pagină unică No Valoare numerica Numărul unei singure pagini din care se extrag tabele
Numărul paginii De la No Valoare numerica Primul număr de pagină din intervalul de pagini din care extrageți tabele
Numărul paginii Până la No Valoare numerica Ultimul număr de pagină din intervalul de pagini din care se extrag tabelele
Parolă Da Intrare criptată directă sau Valoare text Parola fișierului PDF. Lăsați necompletat dacă PDF-ul nu este protejat prin parolă
Îmbinare tabele care depășesc marginile paginilor Nedisponibil Valoare booleană Adevărat Specifică dacă doriți să îmbinați tabelele care depășesc marginile paginilor în intervalul de pagini specificat
Prima linie conține numele de coloane Nedisponibil Valoare booleană Adevărat Specifică dacă prima linie de tabel conține nume de coloane

Variabile produse

Argument Tipul Descriere
Tabelele PDF extrase Lista cu informații despre tabelul PDF Tabelele extrase cu informațiile lor aranjate ca listă

Excepții

Excepție Descriere
Fișierul PDF nu există Fișierul nu există pe calea specificată
Parolă nevalidă Parola specificată este nevalidă
Nu a reușit extragerea tabelelor Eroare în timpul încercării de a extrage tabele

Extrageți imagini din PDF

Pentru a extrage imagini dintr-un fișier PDF, puteți utiliza acțiunea Extrage imagini din PDF . În parametrii de acțiune puteți defini fișierul PDF și paginile din care să extrageți imaginile, convenția de denumire a imaginilor extacate și locația țintă a imaginilor salvate. De asemenea, puteți defini o parolă dacă fișierul PDF este protejat prin setările avansate.

Parametri de intrare

Argument Opțional Acceptă Valoare implicită Descriere
Fișier PDF No Fişier Fișierul PDF din care să extragă imagini. Introduceți o cale de fișier, o variabilă care conține un fișier sau o cale de text
Parolă Da Intrare criptată directă sau Valoare text Parola fișierului PDF. Lăsați necompletat dacă PDF-ul nu este protejat prin parolă
Pagini de extras Nedisponibil Toate, Single, Gamă Tot Specifică câte pagini se extrage: Toate paginile, o singură pagină sau o serie de pagini
Număr pagină unică No Valoare numerica Numărul paginii unice din care vor fi extrase imagini
Numărul paginii De la No Valoare numerica Primul număr de pagină din gama de pagini din care să extrageți imagini
Numărul paginii Până la No Valoare numerica Ultimul număr de pagină din intervalul de pagini din care să extrageți imagini
Numele imaginilor No Valoare text Cum începe numele imaginilor. Exemplu de nume de imagini extrase: GivenName_1, GivenName_2
Salvați imaginile în No Pliant Dosarul pentru a salva imaginile extrase ca fișiere png

Variabile produse

Această acțiune nu produce nicio variabilă.

Excepții

Excepție Descriere
Parolă nevalidă Parola specificată este nevalidă
Extragerea imaginilor nu a reușit Indică faptul că a apărut o eroare la extragerea imaginilor din paginile date ale PDF-ului
Folderul nu există Indică faptul că folderul nu există
Fișierul PDF nu există Fișierul nu există pe calea specificată

Extrageți paginile unui fișier PDF într-un nou fișier PDF

Puteți crea un fișier PDF nou extragând pagini dintr-un fișier PDF existent utilizând paginile fișierului PDF într-o acțiune nouă pentru fișierul PDF. În parametrii de acțiune puteți defini fișierul PDF din care să extrageți paginile, paginile care urmează să fie extrase, locația noului fișier PDF și ce ar trebui să se întâmple dacă există deja un fișier cu același nume și extensie. În cele din urmă, sub proprietățile avansate puteți defini o parolă în cazul în care PDF-ul sursă este protejat.

Parametri de intrare

Argument Opțional Acceptă Valoare implicită Descriere
Fișier PDF No Fișier Fișierul PDF din care să extrageți pagini. Introduceți o cale de fișier, o variabilă care conține un fișier sau o cale de text
Parolă Da Intrare criptată directă sau Valoare text Parola fișierului PDF. Lăsați necompletat dacă PDF-ul nu este protejat prin parolă
Selecție pagini No Valoarea textului Numerele de index ale paginilor de păstrat (de exemplu, 1,3,17-24)
Cale PDF extrasă No Fișier Calea de stocare a fișierului PDF extras
Dacă fișierul există Nedisponibil Suprascriere, Nu suprascrieți, Adăugați sufix secvențial Adăugați un sufix secvențial Specifică modul în care se procedează în cazul în care fișierul PDF de ieșire există deja

Variabile produse

Argument Tipul Descriere
ExtrasPDF Fișier Noul fișier PDF

Excepții

Excepție Descriere
Parolă nevalidă Parola specificată este nevalidă
Fișierul PDF nu există Fișierul nu există pe calea specificată
Pagină în afara limitelor Indică faptul că una sau mai multe pagini sunt în afara limitelor fișierului PDF
Selecție pagină nevalidă Indică faptul că paginile date nu sunt valide pentru fișierul PDF
Nu s-a reușit extragerea PDF-ului nou Indică faptul că a apărut o eroare în timpul încercării de extragere a unui PDF nou

Îmbinare fișiere PDF

Îmbină mai multe fișiere PDF într-unul nou.

Puteți utiliza acțiunea Fuzionare fișiere PDF pentru a prelua două sau mai multe fișiere PDF și a le îmbina într-un singur fișier. Fișierele care urmează să fie îmbinate pot fi furnizate fie sub forma unei liste, fie închise între ghilimele duble și separate printr-un delimitator. De asemenea, puteți furniza parole pentru fișierele PDF, în cazul în care acestea sunt protejate prin parolă.

Parametri de intrare

Argument Opțional Acceptă Valoare implicită Descriere
Fișiere PDF No Listafișierelor Fișierele de îmbinat. Includeți mai multe fișiere între ghilimele duble (") și separați-le printr-un delimitator sau utilizați o listă de fișiere
Cale PDF îmbinat No Fișier Calea de stocare a fișierului PDF îmbinat
Dacă fișierul există Nedisponibil Suprascriere, Nu suprascrieți, Adăugați sufix secvențial Adăugați un sufix secvențial Specifică modul în care se procedează în cazul în care fișierul de destinație există deja
Parole Da Intrare criptată directă sau Valoare text Parolele delimitate. Ordinea trebuie să fie aceeași cu ordinea PDF-urilor de intrare. Lăsați această necompletată dacă PDF-urile nu sunt protejate prin parolă
Delimitator No Valoarea textului . Un delimitator de parole personalizat. Acest delimitator nu ar trebui să facă parte din niciuna dintre parole

Variabile produse

Argument Tipul Descriere
FuzionatPDF Fișier Fișierul PDF îmbinat

Excepții

Excepție Descriere
Fișierul PDF nu există Fișierul nu există pe calea specificată
Parolă nevalidă Parola specificată este nevalidă
Îmbinarea fișierelor PDF nu a reușit Indică faptul că a apărut o eroare la îmbinarea fișierelor