Всем привет! Такая задача - есть несколько файлов pdf одностраничных (или как вариант многостраничных). На них текст - поле-значение, поле-значение и тдтп - в основном поля повторяются, меняются лишь значения. Нужно как-то просканировать/обработать/спарсить/... по полям и значениям, и результат загнать в excel или еще куда, для последующей работы. Лучше в автоматическом режиме Есть у кого опыт или мысли? Желательно попроще и бесплатно
@Vietnam, .pdf - он коварен в плане настроек уровня защиты файла... Я бы попробовал открыть в Acrobat Pro или PDF Xchange Pro и оценил доступные операции. Возможно, экспорт в Excel окажется доступным на уровне copy-paste.
Pdf без защиты, и их ~ 25000. Копипаст не подходит. Нужна минимальная автоматика Мне нужен не весь текст с pdf, определенные поля и их значения. У него скрипт можно создать свой? Давно не пользовался
Что есть спарсить - не догадываются, но ведь для начала можно сделать complete, а потом уже работать со страницами конкретно? Хотя это все не для свободного общения.
Да, я тоже склоняюсь к варианту "сначала перегнать в Excel полностью, а уж дальше выдирать нужные ячейки/значения средствами Excel". И здесь подойдет любой из (офлайн) конвертеров PDF-Excel, поддерживающий пакетную обработку pdf-файлов. Например, Total PDF Converter или PDF to Excel Converter - но в последнем вроде проблемы с кириллицей (сам я аналогичные задачи не решал, поэтому подсказать, какой из конвертеров не захлебнется на объеме 25 000 файлов - не могу, sorry).