Собрать по интернету список синонимов

Inflict84

Задача такая. Есть две тысячи вузов, в каждом свои факультеты, школы, центры и прочие подразделения.
Помимо официальных названий, у них есть синонимы, прозвища, аббревиатуры, бывшие названия.
Есть ли какие-нибудь удобные методы прошерстить интернет и собрать список таких синонимов автоматически? Возможно, с ручным отсевом. То есть если на две тысячи вузов найдётся двадцать тысяч потенциальных синонимов, из которых половина - ложные срабатывания алгоритма, то ничего страшного, а вот если на каждый правильный синоним найдётся пять ошибочных (или если синонимов будет слишком мало) - то не пойдёт.
Я пока придумал только пройти по википедии и посмотреть в what links here, какие редиректы ведут на страницу вуза.
Буду рад другим идеям. Спасибо.

lika87

Я пока придумал только пройти по википедии и посмотреть в what links here, какие редиректы ведут на страницу вуза.
Можно еще извлечь все термины, которые ссылаются на данную концепцию. Конечно, там порядочно мусора будет, но банальный проход named entity теггером может помочь.
Дальше, после очистки от мусора, гуглить новые документы. Из этих документов можно извлечь новые варианты написания концепции. Это задачи Name Matching и Coreference Resolution. Есть библиотеки, которые такое умеют (но хз как там с русским языком)
Навскидку, такой алгоритм.

dangerr

У википедии можно скачать их БД. Мне кажется, это лучше, чем парсить html, выдаваемый движком. Ну и наверняка больше возможностей по анализу будет.
Оставить комментарий
Имя или ник:
Комментарий: