Re: PS & PDF management

yolki

В общем случае нет. только в виде картинок.
Начать с того, что PDF могут быть запаролены, а можно сделать такие PDF/PS что там текста как такового не будет - будут только контуры букв.

ole4ka-ia

задачка:
хочется из ПС и ПДФ файлов повытаскивать некоторую информацию - содержание, предметный указатель и т.п.
можно ли это сделать, если можно, то как?

ole4ka-ia

хорошо, да не очень...
а чтот же делает ps2ascii?

evgen5555

OCR API

ole4ka-ia

как я понял, это просто распознавалка образов? "FineReader"...
а ps2ascii все-таки каким образом текст достает? или он только те буквы, которые именно как буквы прописаны?

ole4ka-ia

и непохоже чтоб OCR API поддерживал и русский язык тоже...

Ivan8209

psselect?
---
...Я работаю антинаучным аферистом...

ole4ka-ia

вроде нет, хотелось получить содержание именно как текст, а не ПС файл.
чтоб по нему поиск потом делать...
т.е. я знаю, что:
ps2ascii как-то выделяет текст из ПС файла и его выдает в stdout.
оно только про себя не пишет как оно это делает (тут раньше писали что такого вообще не бывает и выделяет ли оно содержание и предметный указатель отдельно...
содержание, насколько я понимаю, в ПС и ПДФ документах никаким хитрым словом не обозначается?
тогда как же оно бывает со ссылками? и предметный указатель генерится часто автоматически и содержание (из ТЕХа)...

Ivan8209

Прочитай, что такое PostScript, и делай всё руками.
---
...Я работаю антинаучным аферистом...

pilot

можно конечно и руками...
но его учить тогда надо.
и наверняка есть способ сделать это без написания кода на чем-либо...
а еще и ПДФ есть... про него совсем не представляю на чего он похож...

Ivan8209

ps2ascii так и делает.
Скорее всего, нет такого способа.
Потому что он почти никогда не нужен.
---
...Я работаю антинаучным аферистом...
Оставить комментарий
Имя или ник:
Комментарий: