2 вопроса: умный поиск дубликатов и систематизация информации

olsh

вопрос номер раз.
присоветуйте прогу, или несколько для решения следующих задач:
есть куча файлов одного или похожего типа (наример, музыкальные файлы или картинки раскиданных по нескольким дискам, притом, что файлы могут по разному называться, иметь разные метаданные (или не иметь вовсе быть разного размера, но при этом дублировать друг друга.
нужно:
1. найти просто одинаковые файлы (с возможностью удобного управления - удаления, переноса в каталоги и пр, а также с полной инфой по файлам /в данном случае, не только название и расширение, но и размер, степень сжатия и др. полезные при отборе данные/)
2. более интересно - умный поиск дублей, т.е. анализ содержимого. требования - как и в пункте 1, и плюс малая ресурсоемкость и затраты времени.
3. умная каталогизация, т.е. я подразумеваю стандартизованное распределение по каталогам, с оформлением имен файлов по определенному образцу (скажем, номер трека - Автор - Название в каталоге год - Автор - Альбом [Лейбл]) всех файлов скопом. (до этого пользовал Tag&Rename и Total Commander, но они только с отдельными папками работают, как я понял, а я бы хотел загнать сразу кучу)
вопрос номер два.
присоветуйте, как организовать библиотеку файлов (скажем, опять музыка) с индексацией, а то приходится запускать поиск по всему компу, чтобы что-то найти.
в свое время unexpired занимался решением подобной задачи (

для чего использовал связку MySQL и движок под IE. Хочу сделать нечто подобное, однако ни в SQL, ни в Perl/PHP не рублю, и хотелось бы использовать готовый вариант, думаю, задача уже решалась и неоднократно.
Спасибо! Думаю, что не только мне интересно будет.
ps Пост длинный получился, надеюсь, осилите

gsharov

мечта. Не реально. Невозможно на текущий момент (имеется ввиду сравнение содержимого итп).
Ну а индексацию то можно - есть в винде служба такая. Indexing Services. Имена то уж всяко проиндексирует.

olsh

реально, года два назад читал про такое в хакере чтоле
насчет индексации - немного не то. я имел в виду поиск типа лориена у нас в сети (только на локальной машине) или поиска на всяких муз. сайтах - по автору, имени и пр.

Andbar

для картинок есть прога, ищущая похожие.
ftp://mahoro-san/Programs/ImgCmp

apl13

имеется ввиду сравнение содержимого итп

"Deep Purple - 1972. Machine Head - Smoke on the Water.mp3", smoke.ogg и 5.smoke_on_the_water.flac, по идее, должны содержать аппроксимации одних и тех же аудиоданных.
Иными словами, задача сводится к: посчитать L2-норму разности, и если она не больше эпсилон...
Сравнивать надо файлы одинаковой длительности. По идее, файлов продолжительностью 5 мин 41+/-2 сек гораздо меньше, чем всего аудиофайлов есть на компьютере.
Можно, наверное, написать такую программулину. Вопрос, правда, насколько грубо она будет работать...

agaaaa

просто одинаковые - total commander, поиск дубликатов
второе не знаю
ну если ты рипаешь, можно использовать WMP, иначе не знаю
орагинзовать библиотеку - winamp и wmp её и так умеют

gsharov

Ага. Ты вот прикинь сколько всего у чуве на компе, раз необходимость разгребать помойку возникла. И теперь прикинь как оно будет сравниваться. Если просто md5 суммы для всех файлов посчитать или считать значение длительности из id3 это уже долго комп винтом скрипеть будет... + ограничение по длительности неправомерно (во первых есть глюки с ее точностью, а во вторых можно привести кучу примеров одинаковых композиций с разной длительностью). Короче - будет долго и не точно. Это не удовлетворяет условию задачи

durka82

Начнем с главного:

думаю, задача уже решалась и неоднократно

- я тоже так думал, но теперь у меня сложилось мнение, что эта задача нафиг никому не нужна - поскольку нормальных решений я не видел

Теперь по пунктам:
1. На текущий момент лучшая прога из тех, что я видел (а видел я не так уж и мало) - Need4Space. К сожалению она уже несколько лет не развивается + имеет некоторые баги + не настолько удобна и функциональна, как хотелось бы

2. Здесь решения есть только для некоторых типов файлов: картинки и мб музыка - я частными решениями особо не интересовался.
3. Это опять же есть только для некоторых типов - с той же музыкой тот же винамп и виндовый медиаплеер вроде бы справляются.
Для ускорения поиска можно включить службу индексирования, как здесь уже писали.
Нормальных каталогов, с которыми можно было бы работать без серьезной настройки, я не встречал

Первым делом я смотрю, чтобы была множественная категоризация - по этому критерию отсеивается более 90% каталогизаторов.
Для той же музыки про тот же винамп и виндовый медиаплеер слышал положительные отзывы, но сам не пробовал.
Так что боюсь, что решить эту задачу без программирования пока малореально.
Кстати, интересно было бы ознакомиться с тем, что получилось у unexpired-а.
В принципе, есть наработки в этом направлении, но они пока далеки от готовых решений

Но если это действительно многим интересно - можно попробовать поднять проект...

apl13

Ты вот прикинь сколько всего у чуве на компе, раз необходимость разгребать помойку возникла. И теперь прикинь как оно будет сравниваться.

Ты хочешь сказать, что есть решения более быстрые, чем мое?

во первых есть глюки с ее точностью

Отдельно взятые тяжелые случаи... Их может и не быть много.

во вторых можно привести кучу примеров одинаковых композиций с разной длительностью

Ну да, тогда это будут разные композы...
Даже можно более бархатистый пример придумать:
у тебя есть невероятной красоты композиция в mp3 96 kbps и ровно половина ее в Monkey's Audio. Какую их двух ты оставишь?

Оставить комментарий