вопрос про алгоритм для определения начальной формы слова
а потом можно будет просто найти в списке всех слов в именит. падеже слово с таким же корнем
по вычленению корня один из самых известных алгоритм Портера
тут про это почитай: http://en.wikipedia.org/wiki/Stemming
о. огромнейшее спасибо.
это кажется больше подходит, потому что интересен именно русский язык.
mystem.
Он заточен под кириллицу, использует, кажется, те же словари, которые используются яндексом в продакшне, и достаточно неплохо умеет угадывать формы неизвестных ему слов.
Для некоммерческого использования можно еще попробовать Он заточен под кириллицу, использует, кажется, те же словари, которые используются яндексом в продакшне, и достаточно неплохо умеет угадывать формы неизвестных ему слов.
Для некоммерческого использования можно еще попробовать mystem.lemmatizer.org быстрее работает, и проще использовать.
К тому же — свободный.
2000 символов в минуту набираю, но такая фигня получается (С)
да нет, я ничего плохого про этот lemmatizer не хочу сказать, ничего про него не знаю. просто аргумент "быстрее работает" для леммера, это как-то несерьезно. насчет "проще использовать" кстати вполне может быть, mystem это просто консольная программа, бинды в тот же перл почему то в опен сорс зажали
для ПХП есть, может выложу...
почему? ты имеешь в виду, что его задачи не надо выполнять на скорость? Или что они столь плохие, что лучше уделить внимание качеству, чем скорости? Или еще что-то?
Могу пособить с покупкой длл, разбивающую слово на составные части.
ну не знаю, мне как то интуитивно кажется, что качество тут важнее скорости. да собственно mystem очень быстро работает, миллионы слов в секунду насколько я помню, куда уж быстрее...
Оставить комментарий
redzor
кто-нибудь про такой слышал? т.е. ему на входе дается существительное (может еще прилагательное) и алгоритм выдает начальную форму слова (т.е. в именительном падеже).