Исправление опечаток

pilot

Очень не хочется изобретать велосипед, поэтому вот какой вопрос:
Есть ли опенсорсная библиотека, с поддержкой русского, желательно с python api, производящая коррекцию опечаток?
Чем не устраивает ispell: расстояние Дамерау-Левенштейна все-таки слишком простой способ, не учитывающий раскладку клавиатуры и морфологию.
МБ посоветуете если не библиотеку, то классический алгоритм?
Почему Яндекс использует Soundex, а Google — n-gram?

apl13

Почему Яндекс использует Soundex, а Google — n-gram?
По кочану. Все равно фонетический алгоритм - зло, он тебе "мопед" склеит с "небуду".

pilot

Все равно фонетический алгоритм - зло, он тебе "мопед" склеит с "небуду".
Вот и я так представляю. И не понимаю их выбора.

apl13

И не понимаю их выбора.
Хуле там понимать, взяли да выбрали. Ткнули первую строчку в гугле... :)

Ivan8209

> Почему Яндекс использует Soundex
Потому что "Яндекс" не с опечатками борется, а пытается
исправлять ошибки, вводимые громатеими.
---
...Я работаю антинаучным аферистом...

apl13

Только пользоваться саундексом для этого - все равно что асфальтовым катком пытаться подравнять кусты на лужайке. Результат, несомненно, будет достигнут...
Грамматические алго даже и на ашипках неплохо так рулят, как мне представляется.

pilot

Точно. Но с опечатками он все-таки тоже борется?

Ivan8209

> Только пользоваться саундексом для этого - все равно что
> асфальтовым катком пытаться подравнять кусты на лужайке.
Возможно, только русский язык достаточно ровно придерживается
фонетики, что даёт какое-никакое, всё же приличное обоснование
использованию саундекса. Если у тебя есть готовое сравнение,
думаю, тебе стоит пойти в "Яндекс" и предложить им переделать
свою систему.
---
"Юношеству занятий масса.
Грамматикам учим..."

Ivan8209

Не обращал внимания, надо поставить опыт.
---
"Не надо читать много книг."

rosali

> Яндекс использует Soundex
откуда дровишки? :smirk:
Оставить комментарий
Имя или ник:
Комментарий: