Обработка файлов PDF

Vietnam · 2 мар 2017

Всем привет!
Такая задача - есть несколько файлов pdf одностраничных (или как вариант многостраничных). На них текст - поле-значение, поле-значение и тдтп - в основном поля повторяются, меняются лишь значения. Нужно как-то просканировать/обработать/спарсить/... по полям и значениям, и результат загнать в excel или еще куда, для последующей работы. Лучше в автоматическом режиме
Есть у кого опыт или мысли? Желательно попроще и бесплатно

improver · 2 мар 2017

@Vietnam, .pdf - он коварен в плане настроек уровня защиты файла... Я бы попробовал открыть в Acrobat Pro или PDF Xchange Pro и оценил доступные операции. Возможно, экспорт в Excel окажется доступным на уровне copy-paste.

kaasnake · 3 мар 2017

@Vietnam, а FineReader чем не устраивает?

Vietnam · 3 мар 2017

improver сказал(а): ↑

@Vietnam, .pdf - он коварен в плане настроек уровня защиты файла... Я бы попробовал открыть в Acrobat Pro или PDF Xchange Pro и оценил доступные операции. Возможно, экспорт в Excel окажется доступным на уровне copy-paste.
Нажмите, чтобы раскрыть...

Pdf без защиты, и их ~ 25000. Копипаст не подходит. Нужна минимальная автоматика

kaasnake сказал(а): ↑

@Vietnam, а FineReader чем не устраивает?
Нажмите, чтобы раскрыть...

Мне нужен не весь текст с pdf, определенные поля и их значения. У него скрипт можно создать свой? Давно не пользовался

Кендарат · 3 мар 2017

Что есть спарсить - не догадываются, но ведь для начала можно сделать complete, а потом уже работать со страницами конкретно?
Хотя это все не для свободного общения.

improver · 3 мар 2017

Да, я тоже склоняюсь к варианту "сначала перегнать в Excel полностью, а уж дальше выдирать нужные ячейки/значения средствами Excel". И здесь подойдет любой из (офлайн) конвертеров PDF-Excel, поддерживающий пакетную обработку pdf-файлов. Например, Total PDF Converter или PDF to Excel Converter - но в последнем вроде проблемы с кириллицей (сам я аналогичные задачи не решал, поэтому подсказать, какой из конвертеров не захлебнется на объеме 25 000 файлов - не могу, sorry).

kaasnake · 4 мар 2017

Vietnam сказал(а): ↑

Pdf без защиты, и их ~ 25000. Копипаст не подходит. Нужна минимальная автоматика

Мне нужен не весь текст с pdf, определенные поля и их значения. У него скрипт можно создать свой? Давно не пользовался
Нажмите, чтобы раскрыть...

Для ответа хотя бы 2-3 образца, желательно, разных нужно видеть. А так чего гадать на кофейной гуще

Vietnam · 4 мар 2017

Ребяты и девчата - вопрос решился, правда через другое место
Всем спасибо за ответы...