[linux] pdf -> djvu

a10063

есть набор книг в pdf, которые состоят из отсканеных изображений
возникает естественное желание перевести их в созданный специально для этого формат - djvu, уменьшив тем самым объем и увеличив скорость рендеринга
рассматриваются только локальные решения (т.е. веб сервис any2djvu не предлагать)
повидимому, проблема распадается на две:
1. pdf -> tiff с максимальным качеством
2. tiff -> djvu с оптимальным соотношением качества/объема
для п.2 есть неплохое решение использовать под wine коммерческий кодер (djvusolo идет, пробовал; может, подскажете что-то лучше, что работает под wine?
к сожалению, не пакетная обработка, но есть ли альтернативы?
для п.1, я думаю, должно быть хорошее решение, поскольку задача отрендерить хорошо картинки (не текст!) встает перед подачей на принтер
я нашел такое решение на данный момент: pdftoppm | ppm2tiff
Но я не знаю, насколько будет хорошим качество при pdftoppm и как это определить; кроме того, хотя эта утилита базируется на xpdf, у меня есть насчет нее сомнения.
+ хотелось бы найти какой-то общий метод без угадывания вручную dpi вложенных в pdf картинок
кто-нибудь занимался смежными вопросами? можете написать что-то путное - милости прошу!

AlexV769

делал такое под виндой.
Acrobat Pro + Lizardtech Document Flow Ent

Ivan8209

Я гнал djvu -> ps в пакетном режиме.
Кажется, видел и кодирование в djvu, однако не поручусь.
Глянь в FBSD /usr/ports, на всякий случай.
---
...Я работаю антинаучным аферистом...

a10063

Acrobat Pro

оно, наверное, вообще умеет вытаскивать картинки из пдф как они есть? это было бы хорошо
с другой стороны, раз пдф - открытый стандарт (по Википедии что мешает открытым утилитам уметь то же самое...
найти бы только прогу с такими возможностями

a10063

Кажется, видел и кодирование в djvu, однако не поручусь.

оно есть, предоставляется пакетом djvulibre, только вот у меня не получилось закодировать лучше, чем на 2 порядка хуже бесплатного, но закрытого djvusolo

AlexV769

умеет.

Lenchans

Не буду углубляться с обсуждение софта под линуксом. Просто оставлю положительный отзыв о djvusolo - жмет неплохо. Качество вполне нормальное несмотря на возраст проги.
А почему использование djvusolo это не пакетный режим? Или для каждой книги страницы открывать - это не оптово? Если ты хочешь, чтобы все считалось долго и нудно, а ты бы в это время спал/был на работе, то попробуй запихнуть в соло картинки из разных книг, а потом сохранить в Indirect формате (точно названия не помню, чтобы все страницы отдельно были потом все равно придется собрать книгу из отдельных файлов, но процесс будет намного быстрее, т.к. в djvu все уже перекодировалось.
ЗЫ Я так понимаю, что вопрос обработки изображений, составляющих книгу (чистка шумов, поворот сраниц и пр.) не стоит?

Ivan8209

> А почему использование djvusolo это не пакетный режим?
Потому что вот это:
> Или для каждой книги страницы открывать
не пакетный режим, а вот это:
> попробуй запихнуть в соло картинки из разных книг, а потом сохранить в Indirect формате
мелкие ухищрения тех людей, которые умеют работать на компьютере,
но всё равно не пакетный режим, а диалоговый, потому что:
> потом все равно придется собрать книгу из отдельных файлов,
несмотря на то, что
> процесс будет намного быстрее
---
Пользователи делятся на две группы:
тех, кто хочет работать на компьютере,
и тех, кто хочет, чтобы компьютер работал за них.

a10063

А почему использование djvusolo это не пакетный режим? Или для каждой книги страницы открывать - это не оптово?

нельзя получить функциональность через командную строку, а следовательно нельзя написать скрипт для конвертирования pdf -> djvu
тут скорее не проблема машинного времени, которая может быть решена nice-ом или твоим предложением, а минимизации ручной работы
но за неимением лучшего, придется пользоваться djvusolo вручную
(вернее, это что касается бесплатного решения; у lizardtech вроде есть какая-то утилита через консоль, только я не пробовал, идет ли она под wine)

Я так понимаю, что вопрос обработки изображений, составляющих книгу (чистка шумов, поворот сраниц и пр.) не стоит?

пока не стоИт, но может возникнуть...
но если есть опыт, особенно по чистке шумов - буду рад, если им поделишься

ppplva

Как насчет xautomation ? Я понимаю, что в приличном обществе такие слова не произносят, но если других вариантов нет, можно попытаться.

a10063

не знал о существовании такой программы

надо будет поиграться на досуге...
но неужели ее возможности так широки, что я смогу выбирать произвольный набор файлов с ней?
я с трудом могу представить себе, как это можно было бы реализовать...
или другое имелось в виду?

Lenchans

Кохтпа как обычно выебнулся, не сказав при этом ничего конкретного. Молодец, возьми на полке пирожок под названием Windows 2.0.
Для всех остальных: если нужена функциональность из коммандной строки, то ботать в сторону SoloX_Tasker - выложил на фтп. Софтина для винды, но если не нравится мышка...

Если вкратце про нее, то цитата из ридми:

Программа SoloX.EXE является разширением Djvu Solo 3.1 commercial.
Она позволяет автоматизирование процесса создания книг и запуска DjVu Solo
с командной строки и задание project-файл с описание задания для Solo.
Ето BETA-версия, возможны ошибки в управление DjVu Solo 3.1

Сам не использовал, или, скорее, что-то среднее между неосилил и забил. ИМХО использование оправдано только в случае большого количества мелких книг, что у меня редко бывает.
Что касается обработки картинок, то я использовал (опять же под виндой) ScanKromsator. Подробнее - где-то тут пытался наваять faq по djvu, там же описал работу с ней.

ppplva

Наверное, сможешь. Почему бы и нет.
В этой проге нужно каждый раз открывать диалог, и выбирать новый файл ?
Тыкаешь мышой в окно со списком файлов, N раз нажимаешь вниз, enter. Тыкаешь в кнопку конвертнуть.
Главное, чтобы никто мышу не трогал в это время

a10063

спасибо вам всем за советы

Оставить комментарий