Finereader 6.0 & формулы(интегралы, дроби и тп)

CapitanJack

как его заставить нормально распозновать формулы ?

CapitanJack

неужели никому не приходилось сканить и распознавать математические тексты ?

HockeyCoach

Ни разу так и не получилось. А он вообще такое может?

fox84

Во-первых можно обозвать их картинками. Во-вторых, можно придумать собственный шрифт :-
А в третьих если у нас этого нету - на $@# оно Вам надо! (С) Microsoft

navi002

Finereader отродясь такого не умел. И никто путем этого не умеет. Как-то обсуждали с друзьями и пришли к выводу, что например какое-нибудь Американкое Математическое Общество за такую прогу лям баксов бы отвалило.

CapitanJack

чего то я не вижу принципиальной разницы между текстом и формулами.

alexakool

Ты не видишь, а Finereader видит - в этом то и проблема.
зы формулы слишком многоуровневые объекты

Demka

Фактически нереально, помечай эти участки как картинки
Меня начальнимк в свое время перенабивать заставлял:( Мол, это не его проблемы, что не распознает, мы из яблок должны выжать 200% сока.
Потом эту красоту можно через тот же Fine Reader в .pdf сохранить, он с картинками будет много весить, но читать его будет удобно

aab404

Разница очевидна:
1) почти все распознавалки обучаются для распознавания текста идущего одной строкой. Не идущй в одну линию текст во много раз усложняет работу, так как число вариантов резко возрастает.
2) По сути многие буквы похожи. Добавление такого небольшого по сравнению с основной фигурой объекта, как индекс, может быть расценено как часть этой самой фигуры (например Q и O_i и уж тем более трудно понять, что там в самом индексе.
3)Обычно программы распознают только небольшое число символов, например, латинские+русские буквы+цифры. На греческие, готические буквы и математические символы обычно забивают.

CapitanJack

так, по пунктам.
1) было отсканено криво -- то есть пловина текста было с наклоном градусов в 10 - распознал отлично.
2) при увеличении разрешения сканирования это не проблема.
3) я распознавал латинские+русские буквы+цифры+греческие+матсимволы.
принципиальные то где ?

aab404

10 градусов наклона - нормально, можно даже 20. Так или иначе если текст идет одной линией - проблем нет.
Дело в том, что перед распознаванием программа должна нарезать текст кусочками в предположении, что каждый кусочек - 1 буква. Для них можно определить направление - слева направо. Если напралений несколько, то возможных вариантов становится гораздо больше и легче вообще забить, чем всех их предусмотреть.
Если в формуле есть одновременно и верхний и нижний индекс, такого напрвления определить нельзя. Тоже самое - для сумм, произведений и тп.
Вообще FineReader приспособлен как раз для распознавания отсканенного напечатанного текста, что, конечно есть сущая халява по сравнению с другими видами текста. И напечатанный(=сделанный в техе) текст он распознает хорошо, но стоит ему подсунуть написанный от руки более менне нормальными печатными буквами текст - загнется.
Ну и чем больше числа языков, тем хуже качество. Разница между а, a и \alpha совсем небольшая, значит велика вероятность ошибки. Есть и более существенные случаи.

Оставить комментарий