[finereader8] Можно ли включить распознавание курсива без обучения

durka82

Курсив он по умолчанию плохо распознает.
В хелпе написано, что можно включить режим обучения и обучить.
А нельзя ли как-то без обучения обойтись?
И еще, у меня стоит и Acrobat, и Reader, причем второй по умолчанию (ну не смотреть же все пдф-ы в редакторе).
Но из-за этого файнридер тоже передает распознанный документ в ридер.
Мб можно настроить, чтобы открывалось именно в акробате?

durka82

И еще, если часть из страниц я распознавать не хочу (просто в конечном пдф-е графика вся сохранится - только добавится текст поверх как сделать, чтобы к конечную книгу они вошли?
Или если их просто удалить, они все равно войдут в том варианте пдф-а, который я создаю?

durka82

Хотя бы как заставить его распознать все поновой?
А то я настройки изменил, а он на распознавать все не хочет - говорит, что нет нераспознанных страниц
Мб как-то можно сбросить у всех страниц свойство, что она распознана?
А то заново все загружать долго

LenaBor

Хотя бы как заставить его распознать все поновой?
А то я настройки изменил, а он на распознавать все не хочет - говорит, что нет нераспознанных страниц
Один извариантов:
1.Либо Ctrl+Shift+Del (Меню » Изображение » Удалить текст либо Ctrl+Del (Меню » Изображение » Удалить все блоки и текст). В зависимости от того, что ты сам хочешь.
2.Попробуй выделить все страницы (Ctrl+A) в окне "Пакет" » ctrl+R » Ок.
А пост действительно немного сумбурен (я тоже ничего не понял).

durka82

Так получилось, как-то это сложно
В исходном пдф-е есть сканы страниц. Я хочу распознать только текст и сделать пдф с исходными сканами и распознанным текстом.
В исходном скане есть страницы, где такста нет - только картинка.
Как сделать, чтобы файнридер не пытался их распознавать, но включал соотв страницы в конечный документ?
Достаточно ли их удалить из списка распознавания или тогда в конечный документ они тоже не попадут?
Так яснее?

LenaBor

Выдели эту страницу всю (ну, или некоторый текст, который ты не хочешь распознавать и сохранить его только как картинку) в блок Картинка (Изображение » Выбрать инструмент » Выделить блок Картинка. Хотя по Ктрл+Шифт+Е он сам расставляет блоки, хотя иногда и косячно). Тогда ФР распознавать ее не будет, но запомнит. Вроде, так, если я тебя правильно понял.
ЗЫ: Иногда блоки распознаются на странице не в том порядке, какой должен быть. Посему: Меню » Изображение » Выбрать инструмент » Перенумеровать блоки.

durka82

Спасибо, попробую.

durka82

А как добавить блок сразу на вся страницу?
А то каждый раз его руками растаскивать замучаешься

durka82

И не получится ли тогда, что эта картинка в итоговом пдф-е будет 2 раза храниться: и в исходном скане, и как картинка?

wildsoul

Да, так и будет. Я бы тебе не советовал вообще что-то выделять, как картинку. Если мне нужно сделать файл с OCR (текст под картинкой я везде аккуратно ручками выделяю текстовые блоки. Не забывая подписи к рисункам выделять, как отдельный блок, чтобы ФР правильно разбил все на предложения. На тех страницах, на которых я не хочу ничего распознавать, я выделяю маленький текстовый блок на белом участке страницы - это гарантирует, что текста он там не найдет, и не будет его искать в других местах.
Почему все ручками? Просто тогда ФР будет выделять не только текстовые блоки, но и картинки и добавлять их на новый слой. А зачем тебе две картинки? (ведь ты хочешь исходный графический файл сохранить в pdf-ке?)

durka82

Я бы тебе не советовал вообще что-то выделять, как картинку
Так тогда она автоматом выделяется и, зачастую, криво.
я выделяю маленький текстовый блок на белом участке страницы
А если нет белой части на странице?
Почему все ручками?
Просто тогда ФР будет выделять не только текстовые блоки, но и картинки и добавлять их на новый слой
Имхо, это противоречие.
Разве можно совмещать ручное выделение и автомат на 1-й странице?
А зачем тебе две картинки?
Я как раз и спрашиваю, как этого избежать.

durka82

Еще попробовал распознавать с обучением - натолкнулся на 2 проблемы:
1. в окне обучения нельзя выбрать произвольную часть текста и обучить на нее - файнридер может предложить этот вариант, а может и нет. Или как-то можно этим управлять?
2. зачастую внесение даже одного образца может очень серьезно изменить результат распознавания (причем не в лучшую сторону). Можно конечно не использовать стандартные шаблоны вообще, но тогда приходится долго обучать (и еще не факт, что в конце аналогичные проблемы не выползут)
Кто-нибудь знает, какие алгоритмы использует файнридер для распознавания?

durka82

Странно, почему нельзя указывать шрифт, которым напечатан распознаваемый документ - по идее это должно способствовать качеству.
Или я не нашел?

wildsoul

Я как раз и спрашиваю, как этого избежать.

Я тебе объяснил. Если на странице выделить хоть один блок вручную, то распознаваться будет только он. Если будешь выделять только текстовые блоки, будет тебе только текст.
А если нет белой части на странице?
Ты что, серые страницы пихаешь на внешний растровый слой? Это же одуреть как раздует итоговый файл! Переводи в ЧБ. И уж тогда хотя бы между строчками будет белый участок.

durka82

Ты что, серые страницы пихаешь на внешний растровый слой?
Оригинал цветной и я не хочу его портить.
Я тебе объяснил.
Я попробовал - получается - спасибо.

durka82

Что-то у меня так и не получается нормально пользоваться распознавалкой.
При попытке хоть как-то обучать ее, результат очень быстро начинает плыть - такое впечатление, что ее не очень усттойчиво обучили.
Или я не понимаю, как ее правильно обучать.
Словарь тоже не получается нормально использовать - у меня сложилось впечатление, что он нужен скорее для корректировки грамотности оригинала, чем для исправления ошибок распознавания.
Правда я пока не пробовал возможность обучения без использования встроенных эталонов и не пробовал задавать пользовательский словарь, но не проще ли тогда руками вычитать получившийся вариант?..
По крайней мере недостатки интерфейса обоих компонент говорят в пользу этого варианта.
Мб все таки дело в настройках/руках/тп - посоветуйте грамотный мануал на эту тему, плиз...
Оставить комментарий
Имя или ник:
Комментарий: