Посоветуйте ключевых слов
То что ты описываешь называется подготовка matching values. Это стандартный функционалом MDM систем.Или начинать самому рожать?убирание спец символов и левенштайн алгоритм определение дистанции между двумя строками, но наверное надо будет еще че-нить подкрутить
спасибо вам
левенштайн алгоритм определение дистанции между двумя строками, но наверное надо будет еще че-нить подкрутитьСразу уж автомат Левенштейна, нет?
тебя исмольник покусал ?
Не мог бы ты разъяснить свой вопрос?
а что такого он сказал? вроде в тему всё
левенштайн алгоритмКоторый алгоритм-то?
Триграммы
Оставить комментарий
nik93
Может уже есть наработки по моей проблеме и я просто не знаю ключевых слов.Есть каталог приборов с колонкой уникальных названий типа таких.
...
В1-9
АКИП 2203Е
АИР3-2
...
Есть куча запросов вида
...
В1 9
АКИП2203Е (тут Е в другой раскладке)
АИР 3 2
...
Т.е. каждый его пишет как хочет, через черточки/пробелы, латинскими и русскими одновременно и т.п.
Стоит проблема автоматического сопоставления инфы из запроса с каталогом.
В идеале хотелось бы алгоритм, получающий на входе две строки, преобразующий их во что-то однозначное (пробелы/черточки убирает, если есть русские буквы то все латинские меняет на аналогичные русские и прочие подобные вариации) и сравнивает.
Не подскажете?
Или начинать самому рожать?