Нечёткий поиск повторов

Kira

Вот есть у меня какой-то текст. Требуется найти в нём повторяющиеся фразы длины >N, но с процентом K возможных различий (хрен с ним, порядок слов не меняется, но что-то может быть пропущено / заменено). Соответственно вопрос: в какую сторону вообще гуглить это?

SergeRRRRRR

okis

n-gram approximate matching
shingle algorithms

kill-still

натрави на него какую - нибудь софтину из раздела antiCutAndPaste если слова целиком повторяются (окончания) - они хорошо такое анализируют из коробки.
иначе Lucene + поисковый запрос fuzzy match спасут тебя.

yroslavasako

Вот есть у меня какой-то текст. Требуется найти в нём повторяющиеся фразы длины >N, но с процентом K возможных различий (хрен с ним, порядок слов не меняется, но что-то может быть пропущено / заменено). Соответственно вопрос: в какую сторону вообще гуглить это?

http://homepage.usask.ca/~ctl271/810/approximate_matching.sh...
гуглить по словам approximate и suffix tree

bleyman

Ещё: http://en.wikipedia.org/wiki/Levenstein_distance
Ещё, http://www.quora.com/Algorithms/Which-is-the-best-programmin... — как сильно ускорить процесс чтобы не считать похожесть честно для каждой пары строк.

Оставить комментарий