Расшарены библиотеки по распознаванию речи

Nestor

Следующие библиотеки можно найти на :
IPP 4.0 (не бета

) - Integrated Performance Primitives
SPL - Signal Processing Library
RPL - Recognition Primitives Library
Библиотеки ориентированы в основном на распознавание (речи, изображений плюс куча примитивов по signal procesing.
Также мега-рульная штука:
HTK (+Docs) - тулза для работы, формирования, обучения и т.п. HMM (Скрытых Марковских Моделей - СММ прежде всего для распознавания речи.
Плюс куча всяких доков и обзоров по распознаванию, в т.ч. слитной речи.
Да, и еще неплохая книжка "Рабинер Гоулд - Теория и применение цифровой обработки сигналов", не знаю, мб она уже и есть в сетке.

feliks28

А в инет ссылки есть?

Nestor

На что конкретно? На библиотеки?

feliks28

Хотелось бы на как можно больше из перечисленного, но больше доки интересуют...

Nestor

Все библиотеки (IPP, RPL, SPL) интеловские => где-то на интеловском сайте валяются, по идее

Про НТК не знаю совсем, все библиотеки были где-то год назад (кроме последней IPP, эту взял в этом году) любезно предоставлены научруком

Что же касается доков на них, то на каждую библиотека есть МЕГА-подробный хелп с таким названием "название библиотекиman.pdf", все лежат в соответствующих директориях. Помощи на русском, как я понимаю, не существует в принципе.

feliks28

Спасибо, пошукаю.

maggi14

http://search.dmoz.org/cgi-bin/search?search=Speech+recognition&cat=Computers%2FArtificial_Intelligence%2FNatural_Language6
И нажать кнопку Search.

maggi14

Еще есть ScanSoft SpeechPearl. Документацию по нему дать могу, а вот рабочую версию - приличия (

) не позволяют.

apl13

А нормальных библиотек по синтезу речи, случаем, нет?

maggi14

И по синтезу есть:
http://dmoz.org/Computers/Speech_Technology/Speech_Synthesis/

Nestor

Выдержка из статьи "Распознавание речи в телефонии: семинар Intel и CompTek"
за 22 апреля 2003 г.

Особенно показательными были демонстрации ScanSoft SpeechPearl — основанной на русских фонемах системы распознавания речи для телефонии.
В течение дня каждый желающий мог попробовать их в действии. При этом сценарии построения телефонных приложений показали вполне приемлемый уровень распознавания речевых команд (ошибок практически не было, что, собственно, давно уже стало нормой работы подобных систем на Западе) и адекватный отклик на них.

По-моему, распознавать речевые команды умеют с 70-х (Алгоритм DTW, Винцюк причем на "вполне приемлемом уровне". Для этого вообще знать семантику языка не обязательно, так что говорить, что вот интел совершила переворот для русского - значить не знать специфики.
Не знаю, не пробовал эту ScanSoft SpeechPearl, но не думаю, что она может предложить что-то приемлемое для распознавания непрерывной русской (!) речи, что-то для словарей большого объема.
В России сейчас ведущие разработчики по распознаванию слитной непрерывной русской речи находятся в Сарове

, но и у них распознавание "на приемлемом уровне" только в объеме журнала, на котором они эту систему обучали (сам присутствовал при тестировании

)

Nestor

По-моему, ссылки немного не по теме.
Цель-то какая: библиотеки для облегчения собственной (!) работы, создания своих прог. А при большом желании можно любую систему научить понимать или говорить, даже того же Горыныча

Большой плюс библиотек на \\ в том, что они реально проверены (хотя бы мной) и работают, причем очень и очень быстро (многие - если не все - рутинные команды реализованы на асме что для распознавания в реальном времени есть огромное достоинство

maggi14

Как сотрудник вышеупомянутотго тобой КомпТека, занимающийся в т.ч. органиизацией IVR с распознованием речи с помощью SpeechPearl'a (я только начал, так что если что - ногами не бейте могу сказать, что:
а) никаких бесплатных нормально работающих систем ASR для русского нет;
б) нормальных платных очень мало. СпичПерл считается [во всяком случае, у нас] лучшим. Собсна, его лет 10-20 разрабатывала Филипс (СканСофт просто купил права на продукт) с привлечением прорвы лингвистических институтов;
в) в статье неточность: СпичПерл основан не на русских фонемах, а на почти полном МФА (IPA). И имеет хорошие русскоязычные акустические модели;
г) говорят, он сносно выдерживает и непрерывную речь. Но вообще-то он заточен на открытые или закрытые грамматики. Ботайте VoiceXML;
е) Интел ваще к этому продукту не имеет отношения. Просто почти все телефонные платы делаются Интелом;
ж) не знаю, что там с Винцюком, но СпичПерл умеет, напр, следующее:
звонишь в фирму Форте-АйТи и говоришь: "Эээ, мне, пожалуйста, Лешу, как его там, Петровского", а IVR тебя спрашивает: "Петровский Алексей. Соединить?". [Фамилия выдуманная, название фирмы настоящее].
И ваще, не интересен СпичПерл - не используй. Я же не заставляю.

Nestor

Респект коллеге

а) никаких бесплатных нормально работающих систем ASR для русского нет;

Не было, нет и (скорее всего) не будет.

г) говорят, он сносно выдерживает и непрерывную речь.

Бабушка надвое сказала. Максимум - в своей телефонной специфике. Глубоко сомневаюсь, что если даже тот же самый журнал ему почитать - хорошо распознает.

ж) не знаю, что там с Винцюком, но СпичПерл умеет, напр, следующее:
звонишь в фирму Форте-АйТи и говоришь: "Эээ, мне, пожалуйста, Лешу, как его там, Петровского", а IVR тебя спрашивает: "Петровский Алексей. Соединить?". [Фамилия выдуманная, название фирмы настоящее].

Эх, не знаешь, блин, откуда есть пошла русская земля!

Первая система распознавания речевых команд (надежность - где-то 75%) создана украинским парубком Винцюком из КГУ.
Что же касается умений СпичПерла, не спорю, что для телефонного разговора, специфика - соединение с абонентом (вроде как в инете читал, в основном на это ориентируется) это мб и лучшая система.
Группу компаний Ай-ти тоже, кстати, знаю. Что-то в начале года их дочерние компании немного того.. обанкротились что-ли

И ваще, не интересен СпичПерл - не используй. Я же не заставляю.

Блин, ты не понял. Занимался бы телефонами - обязательно, наверное, бы использовал. Просто цель расшаривания библиотек - помощь в самостоятельной работе по распознаванию образов. А эта система сама за тебя все делает, как я понимаю, да и как вообще любая коммерческая система. А вот чтобы человек написал собственный распознаватель хотя бы одной команды, не считая вручную коэффициенты фурье, спектр, кепстральные коэффициенты (или какого нибудь линейного предсказания не парился с реализацией СММ (знал бы ты, какая это морока

а занялся чисто алгоритмами распознавания - вот в этом я и хотел помочь.

maggi14

Оставить комментарий