Как из PDF выдрать текст.

and-guzij

Есть PDF. Нужно получиться текстовый файл. Какой программой это можно сделать?

SergZ

Ну если документ не защищен, то там сверху должна быть кнопка "Выделить текст". В ином случае - Finereader.

and-guzij

Хм, а как понять защищен он или нет?
Кнопка выделить сверху есть, но от результата от нее не видно. Finereader - это радикальное средство, т.к. потеряются картинки. Да и формулы, она не очень корректно распознает....

yolki

File->Document properties->Security:
вот пример защищённого документа.

Защита в большинстве случаев не ломается.

viktor954

А можно если защищён и без ФайнРидера - Advanced PDF Password Recovery...

SergZ

От elcomsoft? =)

viktor954

Угу.. Именно тот, за который Склярова чуть не посадили...

VitMix

Защищён, не защищён, в любом случае лучше FineReaderом.

Corrector

Тоже интересовался этим вопросом, но универсального решения не нашел.
Распознавание текста прокатит в любом случае, но это бывает геморно..
Собрал коллекцию программ, может они тебе помогут?
Если надо выдрать текст в автоматическом режиме, посмотри первую прогу:
(с исходниками

(с сожалению, они иногда глючат с русским языком)

Corrector

Да, если кто-нибудь знает: можно ли заюзать FineReader через OLE (или на худой конец DDe?)
Тогда можно было бы выдирать текст автоматически.

and-guzij

А как именно выдирать файн-ридером? Лучше по шагам, вопрос актуальный и я думаю еще много кому потребуется

shemy83

Очень просто
1. запускаешь Reader
2. Жмешь кнопку "Открыть"
3. Выбираешь *.pdf
4. далее стандартно - распознать и сохранить.

and-guzij

не так все просто. 7.0 версия говорит - неправильный pdf

Artas

Можно из Acrobat'a (если он не ридер) pdf экспортировать в tiff, например, а потом его файнридером.

yolki

GSView умеет PDF->Tiff
да и под юниксами ghostscript тоже умеет

Casha07

дай попробовать выдрать текст
Оставить комментарий
Имя или ник:
Комментарий: