Re: PS & PDF management
хочется из ПС и ПДФ файлов повытаскивать некоторую информацию - содержание, предметный указатель и т.п.
можно ли это сделать, если можно, то как?
а чтот же делает ps2ascii?
OCR API
а ps2ascii все-таки каким образом текст достает? или он только те буквы, которые именно как буквы прописаны?
и непохоже чтоб OCR API поддерживал и русский язык тоже...
---
...Я работаю антинаучным аферистом...
чтоб по нему поиск потом делать...
т.е. я знаю, что:
ps2ascii как-то выделяет текст из ПС файла и его выдает в stdout.
оно только про себя не пишет как оно это делает (тут раньше писали что такого вообще не бывает и выделяет ли оно содержание и предметный указатель отдельно...
содержание, насколько я понимаю, в ПС и ПДФ документах никаким хитрым словом не обозначается?
тогда как же оно бывает со ссылками? и предметный указатель генерится часто автоматически и содержание (из ТЕХа)...
---
...Я работаю антинаучным аферистом...
но его учить тогда надо.
и наверняка есть способ сделать это без написания кода на чем-либо...
а еще и ПДФ есть... про него совсем не представляю на чего он похож...
Скорее всего, нет такого способа.
Потому что он почти никогда не нужен.
---
...Я работаю антинаучным аферистом...
Оставить комментарий
yolki
В общем случае нет. только в виде картинок.Начать с того, что PDF могут быть запаролены, а можно сделать такие PDF/PS что там текста как такового не будет - будут только контуры букв.