вопрос про алгоритм для определения начальной формы слова

redzor

кто-нибудь про такой слышал? т.е. ему на входе дается существительное (может еще прилагательное) и алгоритм выдает начальную форму слова (т.е. в именительном падеже).

pitrik2

ну есть же алгоритмы по вычленению корня слова
а потом можно будет просто найти в списке всех слов в именит. падеже слово с таким же корнем
по вычленению корня один из самых известных алгоритм Портера
тут про это почитай: http://en.wikipedia.org/wiki/Stemming

redzor

о. огромнейшее спасибо.

redzor

это кажется больше подходит, потому что интересен именно русский язык.

ermsoft

Для некоммерческого использования можно еще попробовать mystem.
Он заточен под кириллицу, использует, кажется, те же словари, которые используются яндексом в продакшне, и достаточно неплохо умеет угадывать формы неизвестных ему слов.

Werdna

Для некоммерческого использования можно еще попробовать mystem.
lemmatizer.org быстрее работает, и проще использовать. ;)
К тому же — свободный.

rosali

> быстрее работает
2000 символов в минуту набираю, но такая фигня получается (С)
да нет, я ничего плохого про этот lemmatizer не хочу сказать, ничего про него не знаю. просто аргумент "быстрее работает" для леммера, это как-то несерьезно. насчет "проще использовать" кстати вполне может быть, mystem это просто консольная программа, бинды в тот же перл почему то в опен сорс зажали :)

Werdna

да, для перла надо тоже сделать лемматизатору интерфейс.
для ПХП есть, может выложу...

mkrec

> просто аргумент "быстрее работает" для леммера, это как-то несерьезн
почему? ты имеешь в виду, что его задачи не надо выполнять на скорость? Или что они столь плохие, что лучше уделить внимание качеству, чем скорости? Или еще что-то?

kill-still

Могу пособить с покупкой длл, разбивающую слово на составные части.

rosali

ну не знаю, мне как то интуитивно кажется, что качество тут важнее скорости. да собственно mystem очень быстро работает, миллионы слов в секунду насколько я помню, куда уж быстрее...
Оставить комментарий
Имя или ник:
Комментарий: