Посоветуйте ключевых слов

nik93

Может уже есть наработки по моей проблеме и я просто не знаю ключевых слов.
Есть каталог приборов с колонкой уникальных названий типа таких.
...
В1-9
АКИП 2203Е
АИР3-2
...
Есть куча запросов вида
...
В1 9
АКИП2203Е (тут Е в другой раскладке)
АИР 3 2
...
Т.е. каждый его пишет как хочет, через черточки/пробелы, латинскими и русскими одновременно и т.п.
Стоит проблема автоматического сопоставления инфы из запроса с каталогом.
В идеале хотелось бы алгоритм, получающий на входе две строки, преобразующий их во что-то однозначное (пробелы/черточки убирает, если есть русские буквы то все латинские меняет на аналогичные русские и прочие подобные вариации) и сравнивает.
Не подскажете?
Или начинать самому рожать? :)

mbolik1

То что ты описываешь называется подготовка matching values. Это стандартный функционалом MDM систем.
Вопрос в том на чём ты хочешь решать задачу?
Из бесплатного могу посоветовать Talend
На яве — Mural

bav46

Или начинать самому рожать?
убирание спец символов и левенштайн алгоритм определение дистанции между двумя строками, но наверное надо будет еще че-нить подкрутить

nik93

спасибо вам :D

apl13

левенштайн алгоритм определение дистанции между двумя строками, но наверное надо будет еще че-нить подкрутить
Сразу уж автомат Левенштейна, нет?

bav46

тебя исмольник покусал ?

apl13

Не мог бы ты разъяснить свой вопрос?

psm-home

а что такого он сказал? вроде в тему всё web page

apl13

левенштайн алгоритм
Который алгоритм-то?

luna89

Триграммы
Оставить комментарий
Имя или ник:
Комментарий: