Нечёткий поиск повторов
shingle algorithms
иначе Lucene + поисковый запрос fuzzy match спасут тебя.
Вот есть у меня какой-то текст. Требуется найти в нём повторяющиеся фразы длины >N, но с процентом K возможных различий (хрен с ним, порядок слов не меняется, но что-то может быть пропущено / заменено). Соответственно вопрос: в какую сторону вообще гуглить это?http://homepage.usask.ca/~ctl271/810/approximate_matching.sh...
гуглить по словам approximate и suffix tree
http://en.wikipedia.org/wiki/Levenstein_distance
Ещё, http://www.quora.com/Algorithms/Which-is-the-best-programmin... — как сильно ускорить процесс чтобы не считать похожесть честно для каждой пары строк.
Ещё: Ещё, http://www.quora.com/Algorithms/Which-is-the-best-programmin... — как сильно ускорить процесс чтобы не считать похожесть честно для каждой пары строк.
Оставить комментарий
Kira
Вот есть у меня какой-то текст. Требуется найти в нём повторяющиеся фразы длины >N, но с процентом K возможных различий (хрен с ним, порядок слов не меняется, но что-то может быть пропущено / заменено). Соответственно вопрос: в какую сторону вообще гуглить это?