подскажите, как ужать пдф

onyxis

Ситуация такая - отсканировал книжку (>300 стр) в пдф. Отсканировал с помарками. Чтобы их устранить, я сохранил этот пдф в картинки jpg и отредактировал их. Если теперь собрать все назад, то получится хорошее качество (без лишней грязи, как в первоначальном варианте но размер файла увеличится с 15 мб до 150, что нежелательно. Понимаю, что дело в том, что в изначальном пдфнике была не чистая графика, а графика с текстом - сканер автоматически распознает часть текста, тем самым уменьшая размер файла. Во втором же пдфнике голые картинки.
Хочу сделать пдф из картинок с текстом, но чтобы он занимал не так много места. Подошло бы , если бы нашелся виртуальный сканер, работающий как реальный (и соответственно распознающий часть теста, уменьшая объем только получающий файл с компьютера. Однако гугл ничего толкового не нашел. Можно распечатать отредактированный пдф и отсканировать реальным сканером его, но это дорого и хлопотно (300 страниц текста). Распознать картинки в doc тоже не вариант - распознается коряво, много исправлять. Хотелось бы если и распознавать, то в пдф, что и делает реальный сканер.
В общем, посоветуйте что-нибудь, что позволяет хорошо уменьшить объем пдф.

PavelSov

Чем файнридер не устроит? Распознает текст и все.

AlexV769

djvu и не надо ничего распознавать - оно само умеет.

onyxis

файнридер ПЛОХО распознает данный текст. И не может сохранить это в пдф.
Мне подойдет ПЛОХО распознающее приложение, если она сможет сохранить результат в пдф так, чтобы это выглядело идентично тому, что есть на картинках, но форма, в которой оно сохранено в пдф, была бы такой, чтобы объем был бы маленький. Ну то есть большую часть распознал как текст (соответсвенно размер сильно уменьшился остальное распознал как рисунки в векторе.
Если же делать jpg->doc->pdf, то ворд испоганит все формулы и по-своему все отформатирует. И пдф не будет соответствовать картинкам.

onyxis

спасибо, а как перевести картинки в этот формат?
из прог, работающих с djvu, знаю только djvureader, вряд ли она подойдет.

jgimi

тут

onyxis

спасибо!

dimi61

300 страниц - это мало. Если твои 300 страниц занимают 150 мегабайт, то дело отнюдь не в распознанности текста. Используй фичу Optimize в акробате: задай формат картинок (jpeg2000 вместо jpg их разрешение и так далее.
Можно и в djvu, конечно. Обычно это быстрее и удобнее, но не всегда.

durka82

Можно попробовать пересохранить в png (а лучше было jpg не использовать вообще, так как он с потерей информации, что может сказаться на том же распознавании) - если это чб-картинки, то порядка 2 раз выигрыш получишь чиста за счёт оптимизации палитры у png (но не уверен, что это скажется на размере конечного пдф-а).
А вообще пдф уже давно и сам умеет неплохо сжимать, так что даже не сильно от djvu отличается.
Оставить комментарий
Имя или ник:
Комментарий: