Re: сканирование книг
Книги в pdf делаются при помощи AdobeAcrobat.
Спецализированная система сканирования книг - "студент-стажер" Sorry за флуд
Так в акробате они могут быть как распознанные так и просто сканированные.
а как обстоят дела с дежавю. однажды я видел очень интересную книгу по физике - явно сканированная, но тем не менее наличествовал поиск по тексту
Спроси у него.
DjVu для сканенных книг - хорошая штука.
так как его делать-то?
Djvu Document Express Enterprise 5.1.0
я так понял что надо каждую страницу отсканить и сохранить в отдельный файл (даже звутчит неудобно) с помощью DjVu Solo а потом это все собирать и делать OCR (это я так понимаю это своеобразное распознавание такое) с помощью workflow manager? или я не прав?
на вход workflow manager можно подавать tif, а на выходе будет 1 собранный в книгу и распознанный DjVu
что я ожидал увидеть это максимальную автоматизацию процесса сканирования - перевернул страницу, нажал на кнопку и все добавляется к уже отсканированным страницам- а не перевернул страницу, нажал, потом выбрал сохранить, ввел имя, сохранил, начал заново. вот это через жопу. еще бы желательно сканирьвание разворота с автоматическим разделением на страницы. но это похоже вообще мечты
Пиши прогу...
далее все полученные страницы подать на вход утилиты и всё.
в любом случае картинки придётся обрабатывать.
резать разворот можно. СканКромсатор вроде это умеет.
у это проблемы программы от твоего сканера
а чем и с какими парамтерами вы мне посоветуете сканить? неужели фотожопом?
DjVu Solo тут вообще не при делах. сканить надо тулзой от производителя сканера.
а FR не подходит для этих целей?
хотя если б этот workflow manager улем с помощью FR текст распознавать - было б мазёва.
Сканирование и оцифровка книг .
Перед тем, как начать
NB! прежде чем сканировать книгу, проверьте, не сделано ли это до вас (см. "Поиск, обмен и распространение книг"). Если книга нашлась в списке сканированных, не поленитесь в неё заглянуть. "Отсканировано" не всегда означает "отсканировано с приемлемым качеством". Весьма вероятно, что вы предпочтёте сделать хороший скан, а не маяться с плохим.
Создание электронной книги состоит из трёх этапов:
постраничное (или "по-разворотное") сканирование физической книги, промежуточный результат — набор tiff-файлов с изображениями страниц;
обработка изображений страниц (подчистка, разрезание разворотов на отдельные страницы, поворот, преобразование цвета);
подготовка конечного продукта — компактных файлов в формате PDF и/или Djvu; возможно — оцифровка.
Обратите внимание, что даже без второго этапа (подчистки, разрезания и т.д.) часто удаётся получить вполне приемлемое качество и размер конечного файла.
Оборудование и программное обеспечение
Потребуются сканер и компьютер с нормальной производительностью (сканирование — ресурсоёмкое и достаточно долгое мероприятие). Даже дешевый сканер должен давать скорость ~45-60 сек. на разворот (две страницы). Удачная модель (в пределах 200$) может быть в полтора-два раза быстрее.
Особое замечание о фотографировании, как альтернативе сканирования. Несомненные преимущества — фотоаппарат работает быстрее, чем сканер; страницы удобнее переворачивать сверху. Недостаток — при "непрофессиональном подходе" результаты гораздо хуже, чем при сканировании. Несколько моментов, на которые необходимо обратить внимание:
если кадрировать полем фотоаппарата, то (i) останутся поля; (ii) по краям снимка прямые превратятся в кривые. Чистка полей сведёт на нет преимущество в скорости фотографирования. Если не чистить, размер файлов будет большим. Чтобы кадрировать внутри поля съёмки, нужно использовать фотоаппарат, подсоединённый к компьютеру (управление с компьютера);
чтобы кадр не плавал, фотоаппарат должен быть закреплён в штативе, поверхность, на которой лежит книга, должна иметь уголок-упор;
освещение должно быть равномерным и без бликов (при глянцевой бумаге перед съёмкой каждой новой книги необходимо выставить в фотоаппарате "белый цвет" на пустой странице книги;
книжку при съёмке лучше придерживать в раскрытом состоянии, так как иначе листы выгнутся;
важно, чтобы фотоаппарат выдавал "сырые" снимки, а не переводил их в формат jpeg (устанавливается в опциях фотоаппарата). JPEG совершенно не приспособлен для хранения графики. Он всё превращает в "переходы" цвета. В свою очередь, djvu воспринимает "переходы" как фон и не справляется со сжатием файлов. Итог: "сканирование книг" и "формат JPEG" АБСОЛЮТНО несовместимы.
--------------------------------------------------------------------------------
Все это знают, но на всякий случай... ниже упоминаются некоторые коммерческие программы. Некоторые из них недёшевы (FineReader7 — 130$; Adobe Photoshop — 650$). Если вы находитесь в России, поспрашивайте вокруг, в любом городе есть магазины или киоски, где эти же программы можно купить по цене 3-10$.
--------------------------------------------------------------------------------
Любители экстремальных задач могут справится со сканированием, имея на компьютере только софт сканера и доступ к интернету (tiff файлы со сканера переводятся в djvu на any2djvu.djvuzone.org).
"Достаточно удобный" набор для сканирования включает в себя ещё FineReader; совсем удобно, если есть программы для редактирования pdf и djvu: Adobe Acrobat (не Reader) и DjVuSolo.
Список программного обеспечения "от души":
собственно сканирование
софт сканера
"FineReader" от ABBYY (сейчас — 7я версия)
чистка полученных картинок
"ScanKromsator", автор: Bolega
FineReader или какая-либо программа для работы с растровыми изображениями: "Photoshop", "PhotoStudio", и т.п.
переброс в "нормальный формат" и редактирование
"FineReader"
"Acrobat" от Adobe для работы с pdf-документами
"DjVuSolo", а лучше "Document Express" от AT&T Labs Technology для работы с djvu-документами
оцифровка
"FineReader"
"FRFGrab" от gencho
оформление страниц книги
UniDream
автоматизация повторяющихся операций
"Macro Magic" от Iolo Technologies
Кроме того, в папке "How to scan" приводятся описания ещё нескольких полезных утилит (для пакетных преобразований, для контроля длины имён файлов перед записью CD и т.п.).
Последовательность работы
Сканирование
занятие это долгое, лучше иметь под рукой хорошую музыку или фильм;
оптимально использовать программу FineReader, она позволяет организовать автоматическое сканирование — не нужно будет нажимать на кнопки (только переворачивать страницы). Кроме того, она автоматически выровняет наклон и разрежет развороты на отдельные страницы.;
обычно используется разрешение 300dpi (если ниже - заметно падает качество; если выше - растёт время сканирования и размер файлов);
перед сканированием проверьте, что стекло сканера чистое;
чтобы не просвечивало изображение с обратной стороны листа, лучше прокладывать чёрную картонку;
Выбор режима сканирования сильно зависит от того, как выглядит исходный текст. Общее правило — надо использовать "минимальный формат", соответствующей странице. Это не только значительно уменьшает размер файлов, но и делает текст более читабельным.
только текст (даже если он цветной) или текст со схемами без полутонов:
"чёрно-белый" режим сканирования, 300 dpi;
после очистки (см. ниже) — перевод в djvu в режиме "bitonal".
текст с небольшим количеством серых (15-20%) рисунков или черно-белых фотовставок:
"чёрно-белый" режим сканирования, 300 dpi;
страницы с серыми рисунками и черно-белыми фотографиями дополнительно сканируются 300 dpi в gray-scale режиме (в отдельные файлы);
все gray-scale страницы доводятся в Photoshop: выделяете рисунок, переводите режим в ч-б и подбираете яркость, контраст, если нужно, перегоняете через фильтр увеличения резкости или какой-либо другой, позволяющий наиболее реалистично представить картинку. Готовый рисунок переносится (Copy/Paste) на соответствующую ч-б страницу;
если по технологии, описанной в предыдущем пункте, ничего хорошего не получается, тогда превратите страницы с полутоновыми изображениями в отдельные djvu-файлы в режиме "clean". Готовые djvu-страницы собираются вместе в djvu-редакторе.
текст с большим количеством полутоновых рисунков или фотографий:
"gray-scale" режим сканирования, 300 dpi (настраиваются яркость и контраст);
после очистки (см. ниже) — перевод в djvu в режиме "clean".
книга с цветными вклейками:
сканирование основного текста - "чёрно-белый" режим сканирования, 300 dpi. Цветные вклейки сканируются отдельно в цветном режиме и, учитывая, что цветовая гамма в научной полиграфии, как правило, небогатая, можно подобрать режим сканирования в цвете с небольшим количеством цветов (Web-палитра или 256 цветов);
вклейки конвертируются в отдельные цветные djvu-файлы. Готовые
Перед тем, как начать
NB! прежде чем сканировать книгу, проверьте, не сделано ли это до вас (см. "Поиск, обмен и распространение книг"). Если книга нашлась в списке сканированных, не поленитесь в неё заглянуть. "Отсканировано" не всегда означает "отсканировано с приемлемым качеством". Весьма вероятно, что вы предпочтёте сделать хороший скан, а не маяться с плохим.
Создание электронной книги состоит из трёх этапов:
постраничное (или "по-разворотное") сканирование физической книги, промежуточный результат — набор tiff-файлов с изображениями страниц;
обработка изображений страниц (подчистка, разрезание разворотов на отдельные страницы, поворот, преобразование цвета);
подготовка конечного продукта — компактных файлов в формате PDF и/или Djvu; возможно — оцифровка.
Обратите внимание, что даже без второго этапа (подчистки, разрезания и т.д.) часто удаётся получить вполне приемлемое качество и размер конечного файла.
Оборудование и программное обеспечение
Потребуются сканер и компьютер с нормальной производительностью (сканирование — ресурсоёмкое и достаточно долгое мероприятие). Даже дешевый сканер должен давать скорость ~45-60 сек. на разворот (две страницы). Удачная модель (в пределах 200$) может быть в полтора-два раза быстрее.
Особое замечание о фотографировании, как альтернативе сканирования. Несомненные преимущества — фотоаппарат работает быстрее, чем сканер; страницы удобнее переворачивать сверху. Недостаток — при "непрофессиональном подходе" результаты гораздо хуже, чем при сканировании. Несколько моментов, на которые необходимо обратить внимание:
если кадрировать полем фотоаппарата, то (i) останутся поля; (ii) по краям снимка прямые превратятся в кривые. Чистка полей сведёт на нет преимущество в скорости фотографирования. Если не чистить, размер файлов будет большим. Чтобы кадрировать внутри поля съёмки, нужно использовать фотоаппарат, подсоединённый к компьютеру (управление с компьютера);
чтобы кадр не плавал, фотоаппарат должен быть закреплён в штативе, поверхность, на которой лежит книга, должна иметь уголок-упор;
освещение должно быть равномерным и без бликов (при глянцевой бумаге перед съёмкой каждой новой книги необходимо выставить в фотоаппарате "белый цвет" на пустой странице книги;
книжку при съёмке лучше придерживать в раскрытом состоянии, так как иначе листы выгнутся;
важно, чтобы фотоаппарат выдавал "сырые" снимки, а не переводил их в формат jpeg (устанавливается в опциях фотоаппарата). JPEG совершенно не приспособлен для хранения графики. Он всё превращает в "переходы" цвета. В свою очередь, djvu воспринимает "переходы" как фон и не справляется со сжатием файлов. Итог: "сканирование книг" и "формат JPEG" АБСОЛЮТНО несовместимы.
--------------------------------------------------------------------------------
Все это знают, но на всякий случай... ниже упоминаются некоторые коммерческие программы. Некоторые из них недёшевы (FineReader7 — 130$; Adobe Photoshop — 650$). Если вы находитесь в России, поспрашивайте вокруг, в любом городе есть магазины или киоски, где эти же программы можно купить по цене 3-10$.
--------------------------------------------------------------------------------
Любители экстремальных задач могут справится со сканированием, имея на компьютере только софт сканера и доступ к интернету (tiff файлы со сканера переводятся в djvu на any2djvu.djvuzone.org).
"Достаточно удобный" набор для сканирования включает в себя ещё FineReader; совсем удобно, если есть программы для редактирования pdf и djvu: Adobe Acrobat (не Reader) и DjVuSolo.
Список программного обеспечения "от души":
собственно сканирование
софт сканера
"FineReader" от ABBYY (сейчас — 7я версия)
чистка полученных картинок
"ScanKromsator", автор: Bolega
FineReader или какая-либо программа для работы с растровыми изображениями: "Photoshop", "PhotoStudio", и т.п.
переброс в "нормальный формат" и редактирование
"FineReader"
"Acrobat" от Adobe для работы с pdf-документами
"DjVuSolo", а лучше "Document Express" от AT&T Labs Technology для работы с djvu-документами
оцифровка
"FineReader"
"FRFGrab" от gencho
оформление страниц книги
UniDream
автоматизация повторяющихся операций
"Macro Magic" от Iolo Technologies
Кроме того, в папке "How to scan" приводятся описания ещё нескольких полезных утилит (для пакетных преобразований, для контроля длины имён файлов перед записью CD и т.п.).
Последовательность работы
Сканирование
занятие это долгое, лучше иметь под рукой хорошую музыку или фильм;
оптимально использовать программу FineReader, она позволяет организовать автоматическое сканирование — не нужно будет нажимать на кнопки (только переворачивать страницы). Кроме того, она автоматически выровняет наклон и разрежет развороты на отдельные страницы.;
обычно используется разрешение 300dpi (если ниже - заметно падает качество; если выше - растёт время сканирования и размер файлов);
перед сканированием проверьте, что стекло сканера чистое;
чтобы не просвечивало изображение с обратной стороны листа, лучше прокладывать чёрную картонку;
Выбор режима сканирования сильно зависит от того, как выглядит исходный текст. Общее правило — надо использовать "минимальный формат", соответствующей странице. Это не только значительно уменьшает размер файлов, но и делает текст более читабельным.
только текст (даже если он цветной) или текст со схемами без полутонов:
"чёрно-белый" режим сканирования, 300 dpi;
после очистки (см. ниже) — перевод в djvu в режиме "bitonal".
текст с небольшим количеством серых (15-20%) рисунков или черно-белых фотовставок:
"чёрно-белый" режим сканирования, 300 dpi;
страницы с серыми рисунками и черно-белыми фотографиями дополнительно сканируются 300 dpi в gray-scale режиме (в отдельные файлы);
все gray-scale страницы доводятся в Photoshop: выделяете рисунок, переводите режим в ч-б и подбираете яркость, контраст, если нужно, перегоняете через фильтр увеличения резкости или какой-либо другой, позволяющий наиболее реалистично представить картинку. Готовый рисунок переносится (Copy/Paste) на соответствующую ч-б страницу;
если по технологии, описанной в предыдущем пункте, ничего хорошего не получается, тогда превратите страницы с полутоновыми изображениями в отдельные djvu-файлы в режиме "clean". Готовые djvu-страницы собираются вместе в djvu-редакторе.
текст с большим количеством полутоновых рисунков или фотографий:
"gray-scale" режим сканирования, 300 dpi (настраиваются яркость и контраст);
после очистки (см. ниже) — перевод в djvu в режиме "clean".
книга с цветными вклейками:
сканирование основного текста - "чёрно-белый" режим сканирования, 300 dpi. Цветные вклейки сканируются отдельно в цветном режиме и, учитывая, что цветовая гамма в научной полиграфии, как правило, небогатая, можно подобрать режим сканирования в цвете с небольшим количеством цветов (Web-палитра или 256 цветов);
вклейки конвертируются в отдельные цветные djvu-файлы. Готовые
Ну ХЗ, я сканирую в тифы, потом сканкромсатором - и повернуть, и почистить. Потом сканы в DJVUSolo - дежавюшный файл на выходе, и в файнридер, из проекта которого выдирается текст. Потом объединить - и получите счастье. Конечно нифига не автоматизировано, зато на каждом шаге полный контроль. Иногда пригождается.
ниасилил )
Оставить комментарий
Ray17
пожалуйста подскажите есть ли какие-нибудь специализированные системы для автоматизации процесса сканирования книг - с распознавание или без, и вообще как они делаются - дежавю, пдф и тд