Дії PDF
Дії PDF дають змогу витягувати зображення, текст і таблиці з PDF-файлів, а також упорядковувати сторінки для створення нових документів.
Щоб витягти текст із PDF-файлу, скористайтеся дією «Витягти текст із PDF ». У наведеному нижче прикладі витягується текст із певного діапазону сторінок файлу, захищеного паролем. Пароль вказується в Додаткових налаштуваннях.
Щоб витягти тексти, упорядковані в табличній формі, увімкніть параметр Оптимізувати для структурованих даних , щоб покращити формат і точність результатів.
Щоб витягти таблиці з PDF-файлу, розгорніть дію Витягти таблиці з PDF , виділіть файл і вкажіть сторінки, з яких потрібно витягти.
Ця дія створює змінну ExtractedPDFTables , яка містить список відомостей про таблицю PDF. Щоб знайти відомості про цей тип списку, перейдіть до розділу Додаткові типи даних.
Нотатка
- У дії «Витягти таблиці з PDF» не використовується оптичне розпізнавання символів (OCR), тому ви не можете витягти текст, який не можна копіювати, зі сканованих PDF-файлів .
- Бібліотека, що стоїть за цією дією, час від часу витягує додаткові дані PDF, які не є таблицями. Такий функціонал мінімізує ризик випадково пропустити реальну таблицю.
Окрім видобування інформації з PDF-файлів, ви можете створити новий PDF-документ із наявного файлу за допомогою дії Витягти сторінки PDF-файлу до нового PDF-файлу .
У наведеному нижче прикладі вибирається комбінація конкретних сторінок і діапазону сторінок.
Видобути текст із PDF-файлу
Ви можете витягти текст із PDF-файлу за допомогою дії «Витягти текст із PDF». У властивостях дії ви можете визначити вихідний PDF-файл і сторінки, з яких слід витягти текст. У властивостях розширених дій ви можете визначити пароль на випадок, якщо PDF-файл захищений, і чи повинен рушій оптимізувати структуровані дані чи ні.
Вхідні параметри
Аргумент | Необов'язково | Приймає | Значення за замовчуванням | Опис |
---|---|---|---|---|
Файл PDF | No | Файл | PDF-файл для вилучення тексту. Введіть шлях до файлу, змінну, що містить файл, або шлях до тексту | |
Сторінки, які потрібно видобути | Немає | Всі, одиночні, діапазон | Усе | Визначає, скільки сторінок потрібно витягти: усі сторінки, одну сторінку або діапазон сторінок |
Номер сторінки "Одна" | No | Числове значення | Номер однієї сторінки, з якої потрібно видобути текст | |
Номер сторінки "З" | No | Числове значення | Номер першої сторінки в діапазоні сторінок, з якого потрібно видобути текст | |
Номер сторінки "До" | No | Числове значення | Номер останньої сторінки в діапазоні сторінок, з якого потрібно видобути текст | |
Пароль | Так | Пряме зашифроване введення або текстове значення | Пароль PDF-файлу. Залиште це поле пустим, якщо PDF-файл не захищено паролем | |
Оптимізація для структурованих даних | Немає | Логічне значення | Ні | Укажіть, чи потрібно виявляти форматований макет у документі та відповідно видобувати текст |
Змінні, які створюються
Аргумент | Ввести | Опис |
---|---|---|
ExtractedPDFText | Текстове значення | Видобутий текст |
Винятки
Виняток | Опис |
---|---|
PDF-файл не існує | Файл не існує за вказаним шляхом |
Неприпустимий пароль | Указано неприпустимий пароль |
Не вдалося видобути текст | Помилка під час спроби видобути текст |
Видобути таблиці з PDF-файлу
Ви можете витягти таблиці, які містяться в PDF-файлі, за допомогою дії Витягти таблиці з PDF . У властивостях дії можна визначити PDF-файл і діапазон сторінок, з яких будуть витягуватися таблиці. За допомогою властивостей додаткових дій ви можете визначити пароль на випадок, якщо PDF-файл захищений, визначити, чи має таблиця заголовки чи ні, і, нарешті, чи слід об’єднувати таблиці, які перетинають поля сторінки, чи ні.
Вхідні параметри
Аргумент | Необов'язково | Приймає | Значення за замовчуванням | Опис |
---|---|---|---|---|
Файл PDF | No | Файл | PDF-файл для вилучення таблиць. Введіть шлях до файлу, змінну, що містить файл, або шлях до тексту | |
Сторінки, які потрібно видобути | Немає | Всі, одиночні, діапазон | Усе | Указує, зі скількох сторінок потрібно видобути таблиці: усіх, однієї чи діапазону сторінок |
Номер сторінки "Одна" | No | Числове значення | Номер однієї сторінки, з якої потрібно видобути таблиці | |
Номер сторінки "З" | No | Числове значення | Номер першої сторінки в діапазоні сторінок, з якого потрібно видобути таблиці | |
Номер сторінки "До" | No | Числове значення | Номер останньої сторінки в діапазоні сторінок, з якого потрібно видобути таблиці | |
Пароль | Так | Пряме зашифроване введення або текстове значення | Пароль PDF-файлу. Залиште це поле пустим, якщо PDF-файл не захищено паролем | |
Об’єднати таблиці, у яких поля сторінок пересікаються | Немає | Логічне значення | Так | Указує, чи потрібно об’єднувати таблиці, у яких поля сторінок пересікаються у вказаному діапазоні сторінок |
Перший рядок містить імена стовпців | Немає | Логічне значення | Так | Указує, чи містить перший рядок таблиці імена стовпців |
Змінні, які створюються
Аргумент | Ввести | Опис |
---|---|---|
ExtractedPDFTables | Список відомостей про таблицю PDF | Видобуті таблиці з інформацією у вигляді списку |
Винятки
Виняток | Опис |
---|---|
PDF-файл не існує | Файл не існує за вказаним шляхом |
Неприпустимий пароль | Указано неприпустимий пароль |
Не вдалося видобути таблиці | Помилка під час спроби видобути таблиці |
Видобути зображення з PDF-файлу
Щоб витягти зображення з PDF-файлу, ви можете скористатися дією «Витягти зображення з PDF ». У параметрах дії ви можете визначити PDF-файл і сторінки, з яких буде вилучено зображення, правила іменування розширених зображень і цільове розташування збережених зображень. Ви також можете визначити пароль, якщо PDF-файл захищено розширеними налаштуваннями.
Вхідні параметри
Аргумент | Необов'язково | Приймає | Значення за замовчуванням | Опис |
---|---|---|---|---|
Файл PDF | No | Файл | PDF-файл для вилучення зображень. Введіть шлях до файлу, змінну, що містить файл, або шлях до тексту | |
Пароль | Так | Пряме зашифроване введення або текстове значення | Пароль PDF-файлу. Залиште це поле пустим, якщо PDF-файл не захищено паролем | |
Сторінки, які потрібно видобути | Немає | Всі, одиночні, діапазон | Усе | Визначає, скільки сторінок потрібно витягти: усі сторінки, одну сторінку або діапазон сторінок |
Номер сторінки "Одна" | No | Числове значення | Номер однієї сторінки, з якої потрібно видобути зображення | |
Номер сторінки "З" | No | Числове значення | Номер першої сторінки з діапазону сторінок, з яких потрібно витягти зображення | |
Номер сторінки "До" | No | Числове значення | Номер останньої сторінки з діапазону сторінок, з яких потрібно витягти зображення | |
Назва зображень | No | Текстове значення | Як починається назва зображень. Приклад назви витягнутих зображень: GivenName_1, GivenName_2 | |
Зберегти зображення в | No | Папку | Папка для збереження видобутих зображень у форматі png |
Змінні, які створюються
Ця дія не створює жодних змінних.
Винятки
Виняток | Опис |
---|---|
Неприпустимий пароль | Указано неприпустимий пароль |
Не вдалося видобути зображення | Указує на те, що під час видобування зображень із заданих сторінок PDF-файлу сталася помилка |
Папка не існує | Указує, що папка не існує |
PDF-файл не існує | Файл не існує за вказаним шляхом |
Видобути сторінки PDF-файлів у новий PDF-файл
Ви можете створити новий PDF-файл, витягнувши сторінки з наявного PDF-файлу за допомогою сторінок PDF-файлу для нової дії PDF-файлу . У параметрах дії ви можете визначити PDF-файл, з якого потрібно витягти сторінки, сторінки, які потрібно витягти, розташування нового PDF-файлу та що має статися, якщо файл із таким самим ім’ям та розширенням вже існує. Нарешті, за допомогою додаткових властивостей ви можете визначити пароль на випадок, якщо вихідний PDF-файл захищений.
Вхідні параметри
Аргумент | Необов'язково | Приймає | Значення за замовчуванням | Опис |
---|---|---|---|---|
Файл PDF | No | Файл | PDF-файл для вилучення сторінок. Введіть шлях до файлу, змінну, що містить файл, або шлях до тексту | |
Пароль | Так | Пряме зашифроване введення або текстове значення | Пароль PDF-файлу. Залиште це поле пустим, якщо PDF-файл не захищено паролем | |
Вибір сторінок | No | Текстове значення | Індексні номери сторінок, які потрібно зберегти (наприклад, 1,3,17-24) | |
Витягнутий шлях до PDF | No | Файл | Шлях для збереження видобутого PDF-файлу | |
Якщо файл існує | Немає | Перезаписати, Не перезаписувати, Додати послідовний суфікс | Додати суфікс послідовності | Указує, що потрібно робити, якщо вихідний PDF-файл уже існує |
Змінні, які створюються
Аргумент | Ввести | Опис |
---|---|---|
ВитягнутиPDF | Файл | Новий PDF-файл |
Винятки
Виняток | Опис |
---|---|
Неприпустимий пароль | Указано неприпустимий пароль |
PDF-файл не існує | Файл не існує за вказаним шляхом |
Сторінка виходить за межі | Вказує на те, що одна або кілька сторінок виходять за межі PDF-файлу |
Неприпустимий вибір сторінок | Указує, що зазначені сторінки неприпустимі для PDF-файлу |
Не вдалося розпакувати новий PDF-файл | Указує на те, що під час спроби витягти новий PDF-файл сталася помилка |
Об’єднати PDF-файли
Об’єднує кілька PDF-файлів у новий.
За допомогою дії «Об’єднати PDF-файли » можна взяти два або більше PDF-файлів і об’єднати їх в один файл. Файли, що підлягають об’єднанню, можуть бути надані або у вигляді списку, або укладені в подвійні лапки і розділені роздільником. Ви також можете вказати паролі для PDF-файлів, якщо вони захищені паролем.
Вхідні параметри
Аргумент | Необов'язково | Приймає | Значення за замовчуванням | Опис |
---|---|---|---|---|
PDF-файли | No | Списокфайлів | Файли, які потрібно об’єднати. Візьміть кілька файлів у подвійні лапки (") і розділіть їх роздільником або скористайтеся списком файлів | |
Шлях до об’єднаного PDF-файлу | No | Файл | Шлях для збереження об’єднаного PDF-файлу | |
Якщо файл існує | Немає | Перезаписати, Не перезаписувати, Додати послідовний суфікс | Додати суфікс послідовності | Указує, що робити, якщо кінцевий файл уже існує |
Паролі | Так | Пряме зашифроване введення або текстове значення | Паролі з роздільниками. Порядок має збігатися з порядком вхідних PDF-файлів. Залиште це поле пустим, якщо PDF-файли не захищені паролем | |
Роздільник | No | Текстове значення | , | Спеціальний роздільник пароля. Цей роздільник не повинен бути частиною жодного з паролів |
Змінні, які створюються
Аргумент | Ввести | Опис |
---|---|---|
Об’єднанийPDF | Файл | Об’єднаний PDF-файл |
Винятки
Виняток | Опис |
---|---|
PDF-файл не існує | Файл не існує за вказаним шляхом |
Неприпустимий пароль | Указано неприпустимий пароль |
Не вдалось об’єднати PDF-файли | Указує, що сталася помилка під час спроби об’єднати файли |