Распознать djvu
для начала из djvu сделать pdf? а потом из пдфа фотошопом вытащить по отдельности картинки.
только я не могу точно представить как сделать последнюю операцию.
только я не могу точно представить как сделать последнюю операцию.
ocr можно и в джвю сделать,
из пдф картинки тоже легко импортируются
из пдф картинки тоже легко импортируются
о! djvu сам может из своих файлов делать картинки на автомате.
однако я не пойму как из 20-ти страничного pdf'a сделать 20 картинок в фотошопе автоматически?
однако я не пойму как из 20-ти страничного pdf'a сделать 20 картинок в фотошопе автоматически?
однако я не пойму как из 20-ти страничного pdf'a сделать 20 картинок в фотошопе автоматически?acrobat
точняк!
всё гениальное просто 
всё гениальное просто 
однако я не пойму как из 20-ти страничного pdf'a сделать 20 картинок в фотошопе автоматически?Что-то не пойму зачем картинки делать?
Грузите pdf в Finereader и все.
ах даже так?
блин, видимо давно я с файнридером не работал.. года два
блин, видимо давно я с файнридером не работал.. года два

чем можно сделать сабж?
Я делаю примерно по такой схеме.
В наборе DJVU OCR есть утилитка для перевода djvu в набор графических файлов, которые можно распознать файнридером, получить текстовик и добавить текст в исходный файл, т.е. сделать поиск по тексту в нужной тебе книге, а при желании можно еще и поиграться с пикчами ScanKromsator-ом, чтобы было по одной странице книги на странице файла и чтобы почистить изображение.
Про ScanKromsator: немного нетривиальная схема работы: сначала открываешь графические файлы, потом ищешь пункт Draft Cromsate - он появится либо при клике правой кнопкой мыши на списке файлов, или для него есть отдельная кнопка на панели с кнопками - в зависимости от версии. Там выбираешь - обработать все (если нужно делить страницы, то есть галочка split pages) - после этого будут расставлены границы страниц, потом их можно подвигать, но чтобы изменения сохранились, нужно снять и снова поставить галочку около файла в списке слева.
Потом нужно задать данные для выходных файлов: папку, формат, разрешение, может еще с галочками поиграться Despekle - чистка шумов, Deskew - автоповорот картинок. Потом Process и идти пить чай.
Чтобы получить распознаный текст, нужно скормить сканы в Fine Reader. Распознать и после этого желательно вообще ничего с ним не делать, т.е. не исправлять ошибок, не менять размеры блоков и пр. После этого сохранить проект. Я пользовался 6 и 7-м, 8-й, который самый новый, еще не опробовал. Номер версии критичен, т.к. потом нужно юзать набор прог, который в сетке есть под названием DJVU OCR. Он позволяет много чего, но главное - может выдирать из проекта файнридера данные о положении букв на страницах. (Набор прог не новый, так что совместимости с Фанридером 8 может не быть). Как пользоваться DJVU OCR - описано в текстовых файлах в комплекте. Там же есть утилита, чтобы объединить файл с текстом и djvu файл.
В итоге выходит файл с OCR - текстовым слоем, который позволяет выделять текст (возможны ошибки на стадии распознавания в FR) и делать поиск. Все, что надо для счастья.
За деталями - в описалово к софту.
ЗЫ Ну, блин, любители пдфов, вы и придумали схему получения картинок из djvu...

и не впадлу было столько набирать? 

См. титул. Копипаст решил, хотя немного подправить пришлось.
что то слишком сложно в document express editore есть ocr
Ну и что?
ИМХО файнридер - лучший по качеству распознавания, да и роднее как-то. И хотя это мнение сформировалось давно, менять привычки не собираюсь.
А вот стадию обработки сканов (многие на это кладут всякие части тела) никуда не деть. И именно она занимает большую часть человеческого времени, затрачиваемую на обработку.
ИМХО файнридер - лучший по качеству распознавания, да и роднее как-то. И хотя это мнение сформировалось давно, менять привычки не собираюсь.
А вот стадию обработки сканов (многие на это кладут всякие части тела) никуда не деть. И именно она занимает большую часть человеческого времени, затрачиваемую на обработку.
да это тож гон - чтоб отрезать четыре чорных поля от страницы надо менее 10 сек, сканирование минимум в 5 раз дольше.
да это тож гон - чтоб отрезать четыре чорных поля от страницы надо менее 10 сек, сканирование минимум в 5 раз дольше.
Говоря про сканы, я имел ввиду, что разбив дежавюшку на картинки мы получаем... пркатически те же сканы, потерявшие в качестве, конечно, но те же.
По поводу времени на обработку: стоит учесть, что файлов станет 2, и количество манипуляций выростает, так что пусть будет 20 сек на разворот. Вариант с простой уборкой темных пятен меня не прет. Если делать - то по одной странице книги на одну страницу файла для возможности нормально ориентироваться и переходить сразу на нужную страницу. Теперь самая страшная операция - умножение на количество разворотов. Книженция на 200 страниц - это далеко не предел, что приводит к 20*(200/2)=2000 секунд, или около получаса тупого дергания мыши в фотошопе и аналогах.
Описанная мною прога - ScanKromsator, позволяет резать страницы на две (только что посчитали поворачивать (в фотошопе подбирать угол поворота для КАЖДОЙ страницы очень утомительно, не так ли? чистить фон (причем не простым заигрыванием с яркостью и контрастом, а поиском блоков - зависит от качества исходных сканов, может вообще не понадобиться). Причем все манипуляции на автомате и очень прилично. Но вот с ее настройкой придется повозиться, но это того стоит.
По сравнению с запуском файнридера или разбивалки djvu на отдельные картинки, ScanKromsator - самый нетривиальный этап.
ну я имел ввиду чистку тифов именно в кромсаторе
Попробуй поставить последний плагин. Кажется, 6-ой.
Просто недавно обнаружил, что в некоторых djvu-файлах (отсканированные книжки) можно делать не только поиск по слову, но и выделять и копировать текст. При этом он распознает его! Правда качество распознавания не проверял...
Я не утверждаю, что это везде сработает. Но можно попробовать. От чего это зависит, я не знаю
Просто недавно обнаружил, что в некоторых djvu-файлах (отсканированные книжки) можно делать не только поиск по слову, но и выделять и копировать текст. При этом он распознает его! Правда качество распознавания не проверял...
Я не утверждаю, что это везде сработает. Но можно попробовать. От чего это зависит, я не знаю

Ну хз, у меня именно на кромсатор время уходило - посмотреть, нормально ли все режет, и после него странички посмотреть - не обрезал ли где номера.
Просто недавно обнаружил, что в некоторых djvu-файлах (отсканированные книжки) можно делать не только поиск по слову, но и выделять и копировать текст. При этом он распознает его! Правда качество распознавания не проверял...
Я не утверждаю, что это везде сработает. Но можно попробовать. От чего это зависит, я не зна
ЛОЛ, чувак - это уже распознанные файлы. Кто-то до тебя потрудился над ними. Обычно еще в название добавляют символы OCR.
В змызле?
Ты хочешь сказать, что кто-то взял, например, Энциклопедию математической физики (там можно делать все, что я сказал) размером примерно 1000 страниц и распознал? Произвел правку всего распознанного текста. А потом это засунул в djvu?
Интересно, и кому же это понадобилось стольно мучатся?
Ты хочешь сказать, что кто-то взял, например, Энциклопедию математической физики (там можно делать все, что я сказал) размером примерно 1000 страниц и распознал? Произвел правку всего распознанного текста. А потом это засунул в djvu?
Интересно, и кому же это понадобилось стольно мучатся?
действительно нах кому это надо, я заголовок и содержание распознаю чтоб google desktop его проиндексировал.
можно ничего и не править. можно сразу djvu распознавать и пересохранять, одной программой.
Верно, но тебе никто не гарантировал, что распознавание пройдет без ошибок.
А я сравнивал djvu-книжку и оригинал в руках. Они идентичны.
И вообще, видно, что текст именно просто просканированный - он нечеткий. Если бы он был предварительно еще распознан, то текст был бы четким, как, например, если сделать из ворд-файла пдф.
А я сравнивал djvu-книжку и оригинал в руках. Они идентичны.
И вообще, видно, что текст именно просто просканированный - он нечеткий. Если бы он был предварительно еще распознан, то текст был бы четким, как, например, если сделать из ворд-файла пдф.
Ты бред какой-то несёшь.
векторные шрифты из ворда - это одно, а скан книжки - это другое.
При распознавании, конечно, возможны ошибки. Тем не менее, набирать ты этот тектс будешь значительно дольше.
векторные шрифты из ворда - это одно, а скан книжки - это другое.
При распознавании, конечно, возможны ошибки. Тем не менее, набирать ты этот тектс будешь значительно дольше.
Блин, в общем, найди в сетке, например, книжку
Perelomov. Obobshchyonnye kogerentnye sostojanija (ruT273s).djvu
Пролистни, скажем, на страничку 6. Там явно видно, что это скан. Выдели текст и скопируй его, например в блокнот. И ты увидишь, что распознавание средствами плагина можно добиться. Однако не во всех книжках.
Perelomov. Obobshchyonnye kogerentnye sostojanija (ruT273s).djvu
Пролистни, скажем, на страничку 6. Там явно видно, что это скан. Выдели текст и скопируй его, например в блокнот. И ты увидишь, что распознавание средствами плагина можно добиться. Однако не во всех книжках.

маза это не плагин распознал, а djvu с распознанным текстом.
плагин его прочто прочитал, выделил и скопировал в буфер обмена
плагин его прочто прочитал, выделил и скопировал в буфер обмена
Не знаю, первые пять страниц выглядят именно что рапознанными, по остальные видно, что просто сканированные. Даже буквы не полностью видны.
Perelomov. Obobshchyonnye kogerentnye sostojanija (ruT273s).djvuнет такой книжки в сети
ты путаешь понятия "распознать" и "напечатать"
Не знаювот ты несгибаемый =)
если можно копипастить текст, значит он распознан, и никаких чудо-плагинов с распознаванием на лету
http://any2djvu.djvuzone.org - конвертирует в djvu и распознаёт (правда с русские буквы не разбирает)
А такая?
Hartshorne R. Algebraic geometry (Springer, 1997600dpiT514s).djvu
Hartshorne R. Algebraic geometry (Springer, 1997600dpiT514s).djvu
если можно копипастить текст, значит он распознан, и никаких чудо-плагинов с распознаванием на лету
Блин, я просто константировал факт, что текст выглядит просто сканированным (непропечатаны буквы а копировать можно...
текст выглядит просто сканированным (непропечатаны буквы а копировать можноНу так он картинку и показывает. Просто в невидимом слое есть распознанный текст, который и копируется.
Собственно, я тоже так думал и ждал, когда кто-нибудь это озвучит 

Оставить комментарий
bbb45
чем можно сделать сабж?