Поділитися через


Дії PDF

Дії PDF дають змогу витягувати зображення, текст і таблиці з PDF-файлів, а також упорядковувати сторінки для створення нових документів.

Щоб витягти текст із PDF-файлу, скористайтеся дією «Витягти текст із PDF ». У наведеному нижче прикладі витягується текст із певного діапазону сторінок файлу, захищеного паролем. Пароль вказується в Додаткових налаштуваннях.

Щоб витягти тексти, упорядковані в табличній формі, увімкніть параметр Оптимізувати для структурованих даних , щоб покращити формат і точність результатів.

Знімок екрана дії «Витягти текст із PDF».

Щоб витягти таблиці з PDF-файлу, розгорніть дію Витягти таблиці з PDF , виділіть файл і вкажіть сторінки, з яких потрібно витягти.

Ця дія створює змінну ExtractedPDFTables , яка містить список відомостей про таблицю PDF. Щоб знайти відомості про цей тип списку, перейдіть до розділу Додаткові типи даних.

Нотатка

  • У дії «Витягти таблиці з PDF» не використовується оптичне розпізнавання символів (OCR), тому ви не можете витягти текст, який не можна копіювати, зі сканованих PDF-файлів .
  • Бібліотека, що стоїть за цією дією, час від часу витягує додаткові дані PDF, які не є таблицями. Такий функціонал мінімізує ризик випадково пропустити реальну таблицю.

Скріншот дії Витягти таблиці з PDF.

Окрім видобування інформації з PDF-файлів, ви можете створити новий PDF-документ із наявного файлу за допомогою дії Витягти сторінки PDF-файлу до нового PDF-файлу .

У наведеному нижче прикладі вибирається комбінація конкретних сторінок і діапазону сторінок.

Знімок екрана дії Витягти сторінки PDF-файлу в новий PDF-файл.

Видобути текст із PDF-файлу

Ви можете витягти текст із PDF-файлу за допомогою дії «Витягти текст із PDF». У властивостях дії ви можете визначити вихідний PDF-файл і сторінки, з яких слід витягти текст. У властивостях розширених дій ви можете визначити пароль на випадок, якщо PDF-файл захищений, і чи повинен рушій оптимізувати структуровані дані чи ні.

Вхідні параметри

Аргумент Необов'язково Приймає Значення за замовчуванням Опис
Файл PDF No Файл PDF-файл для вилучення тексту. Введіть шлях до файлу, змінну, що містить файл, або шлях до тексту
Сторінки, які потрібно видобути Немає Всі, одиночні, діапазон Усе Визначає, скільки сторінок потрібно витягти: усі сторінки, одну сторінку або діапазон сторінок
Номер сторінки "Одна" No Числове значення Номер однієї сторінки, з якої потрібно видобути текст
Номер сторінки "З" No Числове значення Номер першої сторінки в діапазоні сторінок, з якого потрібно видобути текст
Номер сторінки "До" No Числове значення Номер останньої сторінки в діапазоні сторінок, з якого потрібно видобути текст
Пароль Так Пряме зашифроване введення або текстове значення Пароль PDF-файлу. Залиште це поле пустим, якщо PDF-файл не захищено паролем
Оптимізація для структурованих даних Немає Логічне значення Ні Укажіть, чи потрібно виявляти форматований макет у документі та відповідно видобувати текст

Змінні, які створюються

Аргумент Ввести Опис
ExtractedPDFText Текстове значення Видобутий текст

Винятки

Виняток Опис
PDF-файл не існує Файл не існує за вказаним шляхом
Неприпустимий пароль Указано неприпустимий пароль
Не вдалося видобути текст Помилка під час спроби видобути текст

Видобути таблиці з PDF-файлу

Ви можете витягти таблиці, які містяться в PDF-файлі, за допомогою дії Витягти таблиці з PDF . У властивостях дії можна визначити PDF-файл і діапазон сторінок, з яких будуть витягуватися таблиці. За допомогою властивостей додаткових дій ви можете визначити пароль на випадок, якщо PDF-файл захищений, визначити, чи має таблиця заголовки чи ні, і, нарешті, чи слід об’єднувати таблиці, які перетинають поля сторінки, чи ні.

Вхідні параметри

Аргумент Необов'язково Приймає Значення за замовчуванням Опис
Файл PDF No Файл PDF-файл для вилучення таблиць. Введіть шлях до файлу, змінну, що містить файл, або шлях до тексту
Сторінки, які потрібно видобути Немає Всі, одиночні, діапазон Усе Указує, зі скількох сторінок потрібно видобути таблиці: усіх, однієї чи діапазону сторінок
Номер сторінки "Одна" No Числове значення Номер однієї сторінки, з якої потрібно видобути таблиці
Номер сторінки "З" No Числове значення Номер першої сторінки в діапазоні сторінок, з якого потрібно видобути таблиці
Номер сторінки "До" No Числове значення Номер останньої сторінки в діапазоні сторінок, з якого потрібно видобути таблиці
Пароль Так Пряме зашифроване введення або текстове значення Пароль PDF-файлу. Залиште це поле пустим, якщо PDF-файл не захищено паролем
Об’єднати таблиці, у яких поля сторінок пересікаються Немає Логічне значення Так Указує, чи потрібно об’єднувати таблиці, у яких поля сторінок пересікаються у вказаному діапазоні сторінок
Перший рядок містить імена стовпців Немає Логічне значення Так Указує, чи містить перший рядок таблиці імена стовпців

Змінні, які створюються

Аргумент Ввести Опис
ExtractedPDFTables Список відомостей про таблицю PDF Видобуті таблиці з інформацією у вигляді списку

Винятки

Виняток Опис
PDF-файл не існує Файл не існує за вказаним шляхом
Неприпустимий пароль Указано неприпустимий пароль
Не вдалося видобути таблиці Помилка під час спроби видобути таблиці

Видобути зображення з PDF-файлу

Щоб витягти зображення з PDF-файлу, ви можете скористатися дією «Витягти зображення з PDF ». У параметрах дії ви можете визначити PDF-файл і сторінки, з яких буде вилучено зображення, правила іменування розширених зображень і цільове розташування збережених зображень. Ви також можете визначити пароль, якщо PDF-файл захищено розширеними налаштуваннями.

Вхідні параметри

Аргумент Необов'язково Приймає Значення за замовчуванням Опис
Файл PDF No Файл PDF-файл для вилучення зображень. Введіть шлях до файлу, змінну, що містить файл, або шлях до тексту
Пароль Так Пряме зашифроване введення або текстове значення Пароль PDF-файлу. Залиште це поле пустим, якщо PDF-файл не захищено паролем
Сторінки, які потрібно видобути Немає Всі, одиночні, діапазон Усе Визначає, скільки сторінок потрібно витягти: усі сторінки, одну сторінку або діапазон сторінок
Номер сторінки "Одна" No Числове значення Номер однієї сторінки, з якої потрібно видобути зображення
Номер сторінки "З" No Числове значення Номер першої сторінки з діапазону сторінок, з яких потрібно витягти зображення
Номер сторінки "До" No Числове значення Номер останньої сторінки з діапазону сторінок, з яких потрібно витягти зображення
Назва зображень No Текстове значення Як починається назва зображень. Приклад назви витягнутих зображень: GivenName_1, GivenName_2
Зберегти зображення в No Папку Папка для збереження видобутих зображень у форматі png

Змінні, які створюються

Ця дія не створює жодних змінних.

Винятки

Виняток Опис
Неприпустимий пароль Указано неприпустимий пароль
Не вдалося видобути зображення Указує на те, що під час видобування зображень із заданих сторінок PDF-файлу сталася помилка
Папка не існує Указує, що папка не існує
PDF-файл не існує Файл не існує за вказаним шляхом

Видобути сторінки PDF-файлів у новий PDF-файл

Ви можете створити новий PDF-файл, витягнувши сторінки з наявного PDF-файлу за допомогою сторінок PDF-файлу для нової дії PDF-файлу . У параметрах дії ви можете визначити PDF-файл, з якого потрібно витягти сторінки, сторінки, які потрібно витягти, розташування нового PDF-файлу та що має статися, якщо файл із таким самим ім’ям та розширенням вже існує. Нарешті, за допомогою додаткових властивостей ви можете визначити пароль на випадок, якщо вихідний PDF-файл захищений.

Вхідні параметри

Аргумент Необов'язково Приймає Значення за замовчуванням Опис
Файл PDF No Файл PDF-файл для вилучення сторінок. Введіть шлях до файлу, змінну, що містить файл, або шлях до тексту
Пароль Так Пряме зашифроване введення або текстове значення Пароль PDF-файлу. Залиште це поле пустим, якщо PDF-файл не захищено паролем
Вибір сторінок No Текстове значення Індексні номери сторінок, які потрібно зберегти (наприклад, 1,3,17-24)
Витягнутий шлях до PDF No Файл Шлях для збереження видобутого PDF-файлу
Якщо файл існує Немає Перезаписати, Не перезаписувати, Додати послідовний суфікс Додати суфікс послідовності Указує, що потрібно робити, якщо вихідний PDF-файл уже існує

Змінні, які створюються

Аргумент Ввести Опис
ВитягнутиPDF Файл Новий PDF-файл

Винятки

Виняток Опис
Неприпустимий пароль Указано неприпустимий пароль
PDF-файл не існує Файл не існує за вказаним шляхом
Сторінка виходить за межі Вказує на те, що одна або кілька сторінок виходять за межі PDF-файлу
Неприпустимий вибір сторінок Указує, що зазначені сторінки неприпустимі для PDF-файлу
Не вдалося розпакувати новий PDF-файл Указує на те, що під час спроби витягти новий PDF-файл сталася помилка

Об’єднати PDF-файли

Об’єднує кілька PDF-файлів у новий.

За допомогою дії «Об’єднати PDF-файли » можна взяти два або більше PDF-файлів і об’єднати їх в один файл. Файли, що підлягають об’єднанню, можуть бути надані або у вигляді списку, або укладені в подвійні лапки і розділені роздільником. Ви також можете вказати паролі для PDF-файлів, якщо вони захищені паролем.

Вхідні параметри

Аргумент Необов'язково Приймає Значення за замовчуванням Опис
PDF-файли No Списокфайлів Файли, які потрібно об’єднати. Візьміть кілька файлів у подвійні лапки (") і розділіть їх роздільником або скористайтеся списком файлів
Шлях до об’єднаного PDF-файлу No Файл Шлях для збереження об’єднаного PDF-файлу
Якщо файл існує Немає Перезаписати, Не перезаписувати, Додати послідовний суфікс Додати суфікс послідовності Указує, що робити, якщо кінцевий файл уже існує
Паролі Так Пряме зашифроване введення або текстове значення Паролі з роздільниками. Порядок має збігатися з порядком вхідних PDF-файлів. Залиште це поле пустим, якщо PDF-файли не захищені паролем
Роздільник No Текстове значення , Спеціальний роздільник пароля. Цей роздільник не повинен бути частиною жодного з паролів

Змінні, які створюються

Аргумент Ввести Опис
Об’єднанийPDF Файл Об’єднаний PDF-файл

Винятки

Виняток Опис
PDF-файл не існує Файл не існує за вказаним шляхом
Неприпустимий пароль Указано неприпустимий пароль
Не вдалось об’єднати PDF-файли Указує, що сталася помилка під час спроби об’єднати файли