Нужна помощь по алгоритму Шинглов
Взял текст, разбил на слова, берешь подряд по 10 слов (итого N-9 десятков для каждого десятка считаешь хеш.
Тебе что, определять дубль как "да-нет" или ещё надо говорить дубль чего?
ну мне надо определить вообще говоря число : мол на сколько совпадает текст, но это число дает другой алгоритм с почти похожими текстами, то есть я вычисляю шинглами является ли он почти похожим, или супершинглами сначала, а потом вычисляю степень похожести.
весь вопрос у меня в сигнатуре и выборе кол-ва супершинглов,шинглов, и какие шинглы выбирать (вроде выбираются делящиеся на 25) - вот я хз что значит сигнатура делится на 25, каково его представление?
ну просто crc32 считай например да и всё, какая разница.
Оставить комментарий
ChaseTM
Алгоритм Шинглов (для сравнения тескстов)его описание, если есть то приложите код
вопрос: как считаются контрольные суммы.
хелп!