Как найти дубликаты текстовых файлов?
попробуй глянуть
Там совсем не то (по крайней мере в версии без плагинов)
Есть need4space, но она уже несколько лет не обновляется и такие вещи делать не позволяет.
Более того, подобная прога должна быть сделана у нас, так как иначе она точно не будет поддерживать половину наших кодировок
Больше ни у кого никаких идей не возникло?
2) Написать или найти хешилку текстовых файлов (которая бы ещё и фидошные ориджины убивала).
3) захешировать все файлы
4) посмотреть во все файлы с одинаковым хешем.
И смотреть, пожалуй, достаточно только подобие хэшей - число косяков будет близкое к нулю..
Но неужели этого еще никто не делал?
Расчет хорошего хэша для данной задачи - это целое искусство. При очень хорошем хэше - может и на нобелевку тянуть.
Только вот как там с разными кодировками - точно не знаю...
Оставить комментарий
elena-kotenok75
Имеется - куча файлов на диске - txt, doc, html и т.п. Среди них есть почти одинаковые, но, возможно, в разных форматах, разных кодировках (в т.ч. "фидошной").Есть ли что-нибудь, находящее такие подобные файлы? Т.е. выдающее результат - группы файлов, похожие с заданой степенью подобия (или точнее). Желательно, чтобы поддерживался и поиск в архивах.
Утилиты для локального поиска (типа Google Desktop Search) и сравнения двух/нескольких файлов между собой - не подходят.
Да, уточнение. Похожие - значит почти идентичный текст, без учета оформления.