Как найти дубликаты текстовых файлов?

elena-kotenok75

Имеется - куча файлов на диске - txt, doc, html и т.п. Среди них есть почти одинаковые, но, возможно, в разных форматах, разных кодировках (в т.ч. "фидошной").
Есть ли что-нибудь, находящее такие подобные файлы? Т.е. выдающее результат - группы файлов, похожие с заданой степенью подобия (или точнее). Желательно, чтобы поддерживался и поиск в архивах.
Утилиты для локального поиска (типа Google Desktop Search) и сравнения двух/нескольких файлов между собой - не подходят.
Да, уточнение. Похожие - значит почти идентичный текст, без учета оформления.

leonard45

не уверен, но в ТоталКомаандере что-то похожее вроде было
попробуй глянуть

durka82

Там совсем не то (по крайней мере в версии без плагинов)

durka82

Столкнулся с такой проблемой - нормального решения не нашел

Есть need4space, но она уже несколько лет не обновляется и такие вещи делать не позволяет.
Более того, подобная прога должна быть сделана у нас, так как иначе она точно не будет поддерживать половину наших кодировок

elena-kotenok75

Спасибо ответившим.
Больше ни у кого никаких идей не возникло?

bleyman

1) Научиться автодекодировать штирлицем много файлов сразу.
2) Написать или найти хешилку текстовых файлов (которая бы ещё и фидошные ориджины убивала).
3) захешировать все файлы
4) посмотреть во все файлы с одинаковым хешем.

elena-kotenok75

Да, алгоритм я тоже прикидывал. Ты еще забыл выкидывание оформления - тегов и т.п.
И смотреть, пожалуй, достаточно только подобие хэшей - число косяков будет близкое к нулю..
Но неужели этого еще никто не делал?

Dasar

Расчет хорошего хэша для данной задачи - это целое искусство. При очень хорошем хэше - может и на нобелевку тянуть.

durka82

Можно попробовать привязаться к сервису индексирования винды.
Только вот как там с разными кодировками - точно не знаю...

Оставить комментарий