VoxForge
Здравствуйте.
Имеется задача: создать систему распознования улиц и номеров домов, причём она должна быть интегрирована с asterisk.
Вопрос , что использовать - pocketsphinx или sphinx3, я так понимаю, не принципиален - интегрировать можно и то и то.
Самый насущный вопрос - надо ли сразу браться за создание собственной LM и AM, или можно использовать то, что уже выложено здесь на voxforge.
Я попробовал использовать местные наработки (http://www.repository.voxforge1.org/downloads/Russian/Trunk/), но с ними совершенно ничего вменяемого не получилось. Я пробовал записывать голос с помощью audacity и подсовывать sphinx3 и pocketsphinx, результат дал только первый, да и то совершенно неправильный. Из всех попыток не было ни одного правильно распознанного слова :( Может быть я что-то не так делаю?
Для sphinx3 использовал вот такой скрипт:
#!/bin/sh
S2CONTINUOUS=/usr/bin/sphinx3_decode
HMM=AcousticModels/model_parameters/msu_ru_nsh.cd_cont_1000_8gau_8000
LMFILE=./AcousticModels/etc/msu_ru_nsh.lm.dmp
DICT=AcousticModels/etc/msu_ru_nsh.dic
$S2CONTINUOUS \
-dict ${DICT} \
-hmm ${HMM} \
-lm $LMFILE \
-adcin yes -cepext .raw -ctl test.ctl -cepdir . -hyp out $@
При сохранении файла в audacity был выставлен режим wav 8kHZ.