Распознать djvu
только я не могу точно представить как сделать последнюю операцию.
из пдф картинки тоже легко импортируются
однако я не пойму как из 20-ти страничного pdf'a сделать 20 картинок в фотошопе автоматически?
однако я не пойму как из 20-ти страничного pdf'a сделать 20 картинок в фотошопе автоматически?acrobat
![](/images/graemlins/laugh.gif)
![](/images/graemlins/grin.gif)
однако я не пойму как из 20-ти страничного pdf'a сделать 20 картинок в фотошопе автоматически?Что-то не пойму зачем картинки делать?
Грузите pdf в Finereader и все.
![](/images/graemlins/grin.gif)
блин, видимо давно я с файнридером не работал.. года два
![](/images/graemlins/grin.gif)
чем можно сделать сабж?
Я делаю примерно по такой схеме.
В наборе DJVU OCR есть утилитка для перевода djvu в набор графических файлов, которые можно распознать файнридером, получить текстовик и добавить текст в исходный файл, т.е. сделать поиск по тексту в нужной тебе книге, а при желании можно еще и поиграться с пикчами ScanKromsator-ом, чтобы было по одной странице книги на странице файла и чтобы почистить изображение.
Про ScanKromsator: немного нетривиальная схема работы: сначала открываешь графические файлы, потом ищешь пункт Draft Cromsate - он появится либо при клике правой кнопкой мыши на списке файлов, или для него есть отдельная кнопка на панели с кнопками - в зависимости от версии. Там выбираешь - обработать все (если нужно делить страницы, то есть галочка split pages) - после этого будут расставлены границы страниц, потом их можно подвигать, но чтобы изменения сохранились, нужно снять и снова поставить галочку около файла в списке слева.
Потом нужно задать данные для выходных файлов: папку, формат, разрешение, может еще с галочками поиграться Despekle - чистка шумов, Deskew - автоповорот картинок. Потом Process и идти пить чай.
Чтобы получить распознаный текст, нужно скормить сканы в Fine Reader. Распознать и после этого желательно вообще ничего с ним не делать, т.е. не исправлять ошибок, не менять размеры блоков и пр. После этого сохранить проект. Я пользовался 6 и 7-м, 8-й, который самый новый, еще не опробовал. Номер версии критичен, т.к. потом нужно юзать набор прог, который в сетке есть под названием DJVU OCR. Он позволяет много чего, но главное - может выдирать из проекта файнридера данные о положении букв на страницах. (Набор прог не новый, так что совместимости с Фанридером 8 может не быть). Как пользоваться DJVU OCR - описано в текстовых файлах в комплекте. Там же есть утилита, чтобы объединить файл с текстом и djvu файл.
В итоге выходит файл с OCR - текстовым слоем, который позволяет выделять текст (возможны ошибки на стадии распознавания в FR) и делать поиск. Все, что надо для счастья.
За деталями - в описалово к софту.
ЗЫ Ну, блин, любители пдфов, вы и придумали схему получения картинок из djvu...
![](/images/graemlins/grin.gif)
![](/images/graemlins/grin.gif)
См. титул. Копипаст решил, хотя немного подправить пришлось.
что то слишком сложно в document express editore есть ocr
ИМХО файнридер - лучший по качеству распознавания, да и роднее как-то. И хотя это мнение сформировалось давно, менять привычки не собираюсь.
А вот стадию обработки сканов (многие на это кладут всякие части тела) никуда не деть. И именно она занимает большую часть человеческого времени, затрачиваемую на обработку.
да это тож гон - чтоб отрезать четыре чорных поля от страницы надо менее 10 сек, сканирование минимум в 5 раз дольше.
да это тож гон - чтоб отрезать четыре чорных поля от страницы надо менее 10 сек, сканирование минимум в 5 раз дольше.
Говоря про сканы, я имел ввиду, что разбив дежавюшку на картинки мы получаем... пркатически те же сканы, потерявшие в качестве, конечно, но те же.
По поводу времени на обработку: стоит учесть, что файлов станет 2, и количество манипуляций выростает, так что пусть будет 20 сек на разворот. Вариант с простой уборкой темных пятен меня не прет. Если делать - то по одной странице книги на одну страницу файла для возможности нормально ориентироваться и переходить сразу на нужную страницу. Теперь самая страшная операция - умножение на количество разворотов. Книженция на 200 страниц - это далеко не предел, что приводит к 20*(200/2)=2000 секунд, или около получаса тупого дергания мыши в фотошопе и аналогах.
Описанная мною прога - ScanKromsator, позволяет резать страницы на две (только что посчитали поворачивать (в фотошопе подбирать угол поворота для КАЖДОЙ страницы очень утомительно, не так ли? чистить фон (причем не простым заигрыванием с яркостью и контрастом, а поиском блоков - зависит от качества исходных сканов, может вообще не понадобиться). Причем все манипуляции на автомате и очень прилично. Но вот с ее настройкой придется повозиться, но это того стоит.
По сравнению с запуском файнридера или разбивалки djvu на отдельные картинки, ScanKromsator - самый нетривиальный этап.
ну я имел ввиду чистку тифов именно в кромсаторе
Просто недавно обнаружил, что в некоторых djvu-файлах (отсканированные книжки) можно делать не только поиск по слову, но и выделять и копировать текст. При этом он распознает его! Правда качество распознавания не проверял...
Я не утверждаю, что это везде сработает. Но можно попробовать. От чего это зависит, я не знаю
![](/images/graemlins/crazy.gif)
Ну хз, у меня именно на кромсатор время уходило - посмотреть, нормально ли все режет, и после него странички посмотреть - не обрезал ли где номера.
Просто недавно обнаружил, что в некоторых djvu-файлах (отсканированные книжки) можно делать не только поиск по слову, но и выделять и копировать текст. При этом он распознает его! Правда качество распознавания не проверял...
Я не утверждаю, что это везде сработает. Но можно попробовать. От чего это зависит, я не зна
ЛОЛ, чувак - это уже распознанные файлы. Кто-то до тебя потрудился над ними. Обычно еще в название добавляют символы OCR.
Ты хочешь сказать, что кто-то взял, например, Энциклопедию математической физики (там можно делать все, что я сказал) размером примерно 1000 страниц и распознал? Произвел правку всего распознанного текста. А потом это засунул в djvu?
Интересно, и кому же это понадобилось стольно мучатся?
действительно нах кому это надо, я заголовок и содержание распознаю чтоб google desktop его проиндексировал.
можно ничего и не править. можно сразу djvu распознавать и пересохранять, одной программой.
![](/images/graemlins/smirk.gif)
А я сравнивал djvu-книжку и оригинал в руках. Они идентичны.
И вообще, видно, что текст именно просто просканированный - он нечеткий. Если бы он был предварительно еще распознан, то текст был бы четким, как, например, если сделать из ворд-файла пдф.
векторные шрифты из ворда - это одно, а скан книжки - это другое.
При распознавании, конечно, возможны ошибки. Тем не менее, набирать ты этот тектс будешь значительно дольше.
Perelomov. Obobshchyonnye kogerentnye sostojanija (ruT273s).djvu
Пролистни, скажем, на страничку 6. Там явно видно, что это скан. Выдели текст и скопируй его, например в блокнот. И ты увидишь, что распознавание средствами плагина можно добиться. Однако не во всех книжках.
![](/images/graemlins/frown.gif)
плагин его прочто прочитал, выделил и скопировал в буфер обмена
Не знаю, первые пять страниц выглядят именно что рапознанными, по остальные видно, что просто сканированные. Даже буквы не полностью видны.
Perelomov. Obobshchyonnye kogerentnye sostojanija (ruT273s).djvuнет такой книжки в сети
ты путаешь понятия "распознать" и "напечатать"
Не знаювот ты несгибаемый =)
если можно копипастить текст, значит он распознан, и никаких чудо-плагинов с распознаванием на лету
http://any2djvu.djvuzone.org - конвертирует в djvu и распознаёт (правда с русские буквы не разбирает)
Hartshorne R. Algebraic geometry (Springer, 1997600dpiT514s).djvu
если можно копипастить текст, значит он распознан, и никаких чудо-плагинов с распознаванием на лету
Блин, я просто константировал факт, что текст выглядит просто сканированным (непропечатаны буквы а копировать можно...
текст выглядит просто сканированным (непропечатаны буквы а копировать можноНу так он картинку и показывает. Просто в невидимом слое есть распознанный текст, который и копируется.
![](/images/graemlins/smile.gif)
Оставить комментарий
bbb45
чем можно сделать сабж?