Распознать djvu

bbb45

чем можно сделать сабж?

psilocybe

для начала из djvu сделать pdf? а потом из пдфа фотошопом вытащить по отдельности картинки.
только я не могу точно представить как сделать последнюю операцию.

maxim1990

ocr можно и в джвю сделать,
из пдф картинки тоже легко импортируются

psilocybe

о! djvu сам может из своих файлов делать картинки на автомате.
однако я не пойму как из 20-ти страничного pdf'a сделать 20 картинок в фотошопе автоматически?

sergssk

однако я не пойму как из 20-ти страничного pdf'a сделать 20 картинок в фотошопе автоматически?

acrobat

psilocybe

точняк!

всё гениальное просто

adgi65

однако я не пойму как из 20-ти страничного pdf'a сделать 20 картинок в фотошопе автоматически?

Что-то не пойму зачем картинки делать?
Грузите pdf в Finereader и все.

psilocybe

ах даже так?

блин, видимо давно я с файнридером не работал.. года два

Lenchans

чем можно сделать сабж?

Я делаю примерно по такой схеме.
В наборе DJVU OCR есть утилитка для перевода djvu в набор графических файлов, которые можно распознать файнридером, получить текстовик и добавить текст в исходный файл, т.е. сделать поиск по тексту в нужной тебе книге, а при желании можно еще и поиграться с пикчами ScanKromsator-ом, чтобы было по одной странице книги на странице файла и чтобы почистить изображение.
Про ScanKromsator: немного нетривиальная схема работы: сначала открываешь графические файлы, потом ищешь пункт Draft Cromsate - он появится либо при клике правой кнопкой мыши на списке файлов, или для него есть отдельная кнопка на панели с кнопками - в зависимости от версии. Там выбираешь - обработать все (если нужно делить страницы, то есть галочка split pages) - после этого будут расставлены границы страниц, потом их можно подвигать, но чтобы изменения сохранились, нужно снять и снова поставить галочку около файла в списке слева.
Потом нужно задать данные для выходных файлов: папку, формат, разрешение, может еще с галочками поиграться Despekle - чистка шумов, Deskew - автоповорот картинок. Потом Process и идти пить чай.
Чтобы получить распознаный текст, нужно скормить сканы в Fine Reader. Распознать и после этого желательно вообще ничего с ним не делать, т.е. не исправлять ошибок, не менять размеры блоков и пр. После этого сохранить проект. Я пользовался 6 и 7-м, 8-й, который самый новый, еще не опробовал. Номер версии критичен, т.к. потом нужно юзать набор прог, который в сетке есть под названием DJVU OCR. Он позволяет много чего, но главное - может выдирать из проекта файнридера данные о положении букв на страницах. (Набор прог не новый, так что совместимости с Фанридером 8 может не быть). Как пользоваться DJVU OCR - описано в текстовых файлах в комплекте. Там же есть утилита, чтобы объединить файл с текстом и djvu файл.
В итоге выходит файл с OCR - текстовым слоем, который позволяет выделять текст (возможны ошибки на стадии распознавания в FR) и делать поиск. Все, что надо для счастья.
За деталями - в описалово к софту.
ЗЫ Ну, блин, любители пдфов, вы и придумали схему получения картинок из djvu...

psilocybe

и не впадлу было столько набирать?

Lenchans

См. титул. Копипаст решил, хотя немного подправить пришлось.

maxim1990

что то слишком сложно в document express editore есть ocr

Lenchans

Ну и что?
ИМХО файнридер - лучший по качеству распознавания, да и роднее как-то. И хотя это мнение сформировалось давно, менять привычки не собираюсь.
А вот стадию обработки сканов (многие на это кладут всякие части тела) никуда не деть. И именно она занимает большую часть человеческого времени, затрачиваемую на обработку.

maxim1990

да это тож гон - чтоб отрезать четыре чорных поля от страницы надо менее 10 сек, сканирование минимум в 5 раз дольше.

Lenchans

да это тож гон - чтоб отрезать четыре чорных поля от страницы надо менее 10 сек, сканирование минимум в 5 раз дольше.

Говоря про сканы, я имел ввиду, что разбив дежавюшку на картинки мы получаем... пркатически те же сканы, потерявшие в качестве, конечно, но те же.
По поводу времени на обработку: стоит учесть, что файлов станет 2, и количество манипуляций выростает, так что пусть будет 20 сек на разворот. Вариант с простой уборкой темных пятен меня не прет. Если делать - то по одной странице книги на одну страницу файла для возможности нормально ориентироваться и переходить сразу на нужную страницу. Теперь самая страшная операция - умножение на количество разворотов. Книженция на 200 страниц - это далеко не предел, что приводит к 20*(200/2)=2000 секунд, или около получаса тупого дергания мыши в фотошопе и аналогах.
Описанная мною прога - ScanKromsator, позволяет резать страницы на две (только что посчитали поворачивать (в фотошопе подбирать угол поворота для КАЖДОЙ страницы очень утомительно, не так ли? чистить фон (причем не простым заигрыванием с яркостью и контрастом, а поиском блоков - зависит от качества исходных сканов, может вообще не понадобиться). Причем все манипуляции на автомате и очень прилично. Но вот с ее настройкой придется повозиться, но это того стоит.
По сравнению с запуском файнридера или разбивалки djvu на отдельные картинки, ScanKromsator - самый нетривиальный этап.

maxim1990

ну я имел ввиду чистку тифов именно в кромсаторе

kantboris

Попробуй поставить последний плагин. Кажется, 6-ой.
Просто недавно обнаружил, что в некоторых djvu-файлах (отсканированные книжки) можно делать не только поиск по слову, но и выделять и копировать текст. При этом он распознает его! Правда качество распознавания не проверял...
Я не утверждаю, что это везде сработает. Но можно попробовать. От чего это зависит, я не знаю

Lenchans

Ну хз, у меня именно на кромсатор время уходило - посмотреть, нормально ли все режет, и после него странички посмотреть - не обрезал ли где номера.

Lenchans

Просто недавно обнаружил, что в некоторых djvu-файлах (отсканированные книжки) можно делать не только поиск по слову, но и выделять и копировать текст. При этом он распознает его! Правда качество распознавания не проверял...
Я не утверждаю, что это везде сработает. Но можно попробовать. От чего это зависит, я не зна

ЛОЛ, чувак - это уже распознанные файлы. Кто-то до тебя потрудился над ними. Обычно еще в название добавляют символы OCR.

kantboris

В змызле?
Ты хочешь сказать, что кто-то взял, например, Энциклопедию математической физики (там можно делать все, что я сказал) размером примерно 1000 страниц и распознал? Произвел правку всего распознанного текста. А потом это засунул в djvu?
Интересно, и кому же это понадобилось стольно мучатся?

maxim1990

действительно нах кому это надо, я заголовок и содержание распознаю чтоб google desktop его проиндексировал.

AlexV769

можно ничего и не править. можно сразу djvu распознавать и пересохранять, одной программой.

kantboris

Верно, но тебе никто не гарантировал, что распознавание пройдет без ошибок.

А я сравнивал djvu-книжку и оригинал в руках. Они идентичны.
И вообще, видно, что текст именно просто просканированный - он нечеткий. Если бы он был предварительно еще распознан, то текст был бы четким, как, например, если сделать из ворд-файла пдф.

AlexV769

Ты бред какой-то несёшь.
векторные шрифты из ворда - это одно, а скан книжки - это другое.
При распознавании, конечно, возможны ошибки. Тем не менее, набирать ты этот тектс будешь значительно дольше.

kantboris

Блин, в общем, найди в сетке, например, книжку
Perelomov. Obobshchyonnye kogerentnye sostojanija (ruT273s).djvu
Пролистни, скажем, на страничку 6. Там явно видно, что это скан. Выдели текст и скопируй его, например в блокнот. И ты увидишь, что распознавание средствами плагина можно добиться. Однако не во всех книжках.

AlexV769

маза это не плагин распознал, а djvu с распознанным текстом.
плагин его прочто прочитал, выделил и скопировал в буфер обмена

kantboris

Не знаю, первые пять страниц выглядят именно что рапознанными, по остальные видно, что просто сканированные. Даже буквы не полностью видны.

AlexV769

Perelomov. Obobshchyonnye kogerentnye sostojanija (ruT273s).djvu

нет такой книжки в сети

AlexV769

ты путаешь понятия "распознать" и "напечатать"

sergssk

Не знаю

вот ты несгибаемый =)
если можно копипастить текст, значит он распознан, и никаких чудо-плагинов с распознаванием на лету

Jackill

http://any2djvu.djvuzone.org - конвертирует в djvu и распознаёт (правда с русские буквы не разбирает)

kantboris

А такая?
Hartshorne R. Algebraic geometry (Springer, 1997600dpiT514s).djvu

kantboris

если можно копипастить текст, значит он распознан, и никаких чудо-плагинов с распознаванием на лету

Блин, я просто константировал факт, что текст выглядит просто сканированным (непропечатаны буквы а копировать можно...

adgi65

текст выглядит просто сканированным (непропечатаны буквы а копировать можно

Ну так он картинку и показывает. Просто в невидимом слое есть распознанный текст, который и копируется.

kantboris

Собственно, я тоже так думал и ждал, когда кто-нибудь это озвучит

Оставить комментарий