вопрос про алгоритм для определения начальной формы слова
ну есть же алгоритмы по вычленению корня слова
а потом можно будет просто найти в списке всех слов в именит. падеже слово с таким же корнем
по вычленению корня один из самых известных алгоритм Портера
тут про это почитай: http://en.wikipedia.org/wiki/Stemming
а потом можно будет просто найти в списке всех слов в именит. падеже слово с таким же корнем
по вычленению корня один из самых известных алгоритм Портера
тут про это почитай: http://en.wikipedia.org/wiki/Stemming
о. огромнейшее спасибо.
это кажется больше подходит, потому что интересен именно русский язык.
Для некоммерческого использования можно еще попробовать mystem.
Он заточен под кириллицу, использует, кажется, те же словари, которые используются яндексом в продакшне, и достаточно неплохо умеет угадывать формы неизвестных ему слов.
Он заточен под кириллицу, использует, кажется, те же словари, которые используются яндексом в продакшне, и достаточно неплохо умеет угадывать формы неизвестных ему слов.
Для некоммерческого использования можно еще попробовать mystem.lemmatizer.org быстрее работает, и проще использовать.

К тому же — свободный.
> быстрее работает
2000 символов в минуту набираю, но такая фигня получается (С)
да нет, я ничего плохого про этот lemmatizer не хочу сказать, ничего про него не знаю. просто аргумент "быстрее работает" для леммера, это как-то несерьезно. насчет "проще использовать" кстати вполне может быть, mystem это просто консольная программа, бинды в тот же перл почему то в опен сорс зажали
2000 символов в минуту набираю, но такая фигня получается (С)
да нет, я ничего плохого про этот lemmatizer не хочу сказать, ничего про него не знаю. просто аргумент "быстрее работает" для леммера, это как-то несерьезно. насчет "проще использовать" кстати вполне может быть, mystem это просто консольная программа, бинды в тот же перл почему то в опен сорс зажали

да, для перла надо тоже сделать лемматизатору интерфейс.
для ПХП есть, может выложу...
для ПХП есть, может выложу...
> просто аргумент "быстрее работает" для леммера, это как-то несерьезн
почему? ты имеешь в виду, что его задачи не надо выполнять на скорость? Или что они столь плохие, что лучше уделить внимание качеству, чем скорости? Или еще что-то?
почему? ты имеешь в виду, что его задачи не надо выполнять на скорость? Или что они столь плохие, что лучше уделить внимание качеству, чем скорости? Или еще что-то?
Могу пособить с покупкой длл, разбивающую слово на составные части.
ну не знаю, мне как то интуитивно кажется, что качество тут важнее скорости. да собственно mystem очень быстро работает, миллионы слов в секунду насколько я помню, куда уж быстрее...
Оставить комментарий
redzor
кто-нибудь про такой слышал? т.е. ему на входе дается существительное (может еще прилагательное) и алгоритм выдает начальную форму слова (т.е. в именительном падеже).