Как из PDF выдрать текст.
Ну если документ не защищен, то там сверху должна быть кнопка "Выделить текст". В ином случае - Finereader.

Кнопка выделить сверху есть, но от результата от нее не видно. Finereader - это радикальное средство, т.к. потеряются картинки. Да и формулы, она не очень корректно распознает....
вот пример защищённого документа.

Защита в большинстве случаев не ломается.
А можно если защищён и без ФайнРидера - Advanced PDF Password Recovery...
От elcomsoft? =)

Защищён, не защищён, в любом случае лучше FineReaderом.
Распознавание текста прокатит в любом случае, но это бывает геморно..
Собрал коллекцию программ, может они тебе помогут?
Если надо выдрать текст в автоматическом режиме, посмотри первую прогу:
(с исходниками

(с сожалению, они иногда глючат с русским языком)
Тогда можно было бы выдирать текст автоматически.

1. запускаешь Reader
2. Жмешь кнопку "Открыть"
3. Выбираешь *.pdf
4. далее стандартно - распознать и сохранить.


Можно из Acrobat'a (если он не ридер) pdf экспортировать в tiff, например, а потом его файнридером.
да и под юниксами ghostscript тоже умеет
дай попробовать выдрать текст
Оставить комментарий
and-guzij
Есть PDF. Нужно получиться текстовый файл. Какой программой это можно сделать?