Исправление опечаток
Почему Яндекс использует Soundex, а Google — n-gram?По кочану. Все равно фонетический алгоритм - зло, он тебе "мопед" склеит с "небуду".
Все равно фонетический алгоритм - зло, он тебе "мопед" склеит с "небуду".Вот и я так представляю. И не понимаю их выбора.
И не понимаю их выбора.Хуле там понимать, взяли да выбрали. Ткнули первую строчку в гугле...

Потому что "Яндекс" не с опечатками борется, а пытается
исправлять ошибки, вводимые громатеими.
---
...Я работаю антинаучным аферистом...
Грамматические алго даже и на ашипках неплохо так рулят, как мне представляется.
Точно. Но с опечатками он все-таки тоже борется?
> асфальтовым катком пытаться подравнять кусты на лужайке.
Возможно, только русский язык достаточно ровно придерживается
фонетики, что даёт какое-никакое, всё же приличное обоснование
использованию саундекса. Если у тебя есть готовое сравнение,
думаю, тебе стоит пойти в "Яндекс" и предложить им переделать
свою систему.
---
"Юношеству занятий масса.
Грамматикам учим..."
---
"Не надо читать много книг."
откуда дровишки?

Оставить комментарий
pilot
Очень не хочется изобретать велосипед, поэтому вот какой вопрос:Есть ли опенсорсная библиотека, с поддержкой русского, желательно с python api, производящая коррекцию опечаток?
Чем не устраивает ispell: расстояние Дамерау-Левенштейна все-таки слишком простой способ, не учитывающий раскладку клавиатуры и морфологию.
МБ посоветуете если не библиотеку, то классический алгоритм?
Почему Яндекс использует Soundex, а Google — n-gram?