Re: PS & PDF management
задачка:
хочется из ПС и ПДФ файлов повытаскивать некоторую информацию - содержание, предметный указатель и т.п.
можно ли это сделать, если можно, то как?
хочется из ПС и ПДФ файлов повытаскивать некоторую информацию - содержание, предметный указатель и т.п.
можно ли это сделать, если можно, то как?
хорошо, да не очень... 
а чтот же делает ps2ascii?

а чтот же делает ps2ascii?
OCR API
как я понял, это просто распознавалка образов? "FineReader"...
а ps2ascii все-таки каким образом текст достает? или он только те буквы, которые именно как буквы прописаны?
а ps2ascii все-таки каким образом текст достает? или он только те буквы, которые именно как буквы прописаны?
и непохоже чтоб OCR API поддерживал и русский язык тоже...
psselect?
---
...Я работаю антинаучным аферистом...
---
...Я работаю антинаучным аферистом...
вроде нет, хотелось получить содержание именно как текст, а не ПС файл.
чтоб по нему поиск потом делать...
т.е. я знаю, что:
ps2ascii как-то выделяет текст из ПС файла и его выдает в stdout.
оно только про себя не пишет как оно это делает (тут раньше писали что такого вообще не бывает и выделяет ли оно содержание и предметный указатель отдельно...
содержание, насколько я понимаю, в ПС и ПДФ документах никаким хитрым словом не обозначается?
тогда как же оно бывает со ссылками? и предметный указатель генерится часто автоматически и содержание (из ТЕХа)...
чтоб по нему поиск потом делать...
т.е. я знаю, что:
ps2ascii как-то выделяет текст из ПС файла и его выдает в stdout.
оно только про себя не пишет как оно это делает (тут раньше писали что такого вообще не бывает и выделяет ли оно содержание и предметный указатель отдельно...
содержание, насколько я понимаю, в ПС и ПДФ документах никаким хитрым словом не обозначается?
тогда как же оно бывает со ссылками? и предметный указатель генерится часто автоматически и содержание (из ТЕХа)...
Прочитай, что такое PostScript, и делай всё руками.
---
...Я работаю антинаучным аферистом...
---
...Я работаю антинаучным аферистом...
можно конечно и руками...
но его учить тогда надо.
и наверняка есть способ сделать это без написания кода на чем-либо...
а еще и ПДФ есть... про него совсем не представляю на чего он похож...
но его учить тогда надо.
и наверняка есть способ сделать это без написания кода на чем-либо...
а еще и ПДФ есть... про него совсем не представляю на чего он похож...
ps2ascii так и делает.
Скорее всего, нет такого способа.
Потому что он почти никогда не нужен.
---
...Я работаю антинаучным аферистом...
Скорее всего, нет такого способа.
Потому что он почти никогда не нужен.
---
...Я работаю антинаучным аферистом...
Оставить комментарий
yolki
В общем случае нет. только в виде картинок.Начать с того, что PDF могут быть запаролены, а можно сделать такие PDF/PS что там текста как такового не будет - будут только контуры букв.