VoxForge
Помогите подключить Русский язык в Sphinx4
1. Sphinx4 скачал собрал работает
2. Акустическую модель скачал для Sphinx4 скомпилил
3. В акустической модели не находит папку dict
4. Архив со скриптами на Вашем сайте пустой
P.S. что можете порекомендовать по TTS русском и Java
Заранее спасибо.
Прочитать любой текст 20 минут. Разрезать на предложения, выложить их вместе с текстом. Записать в wav 16 kHz 16 bit. Пример записи
http://www.repository.voxforge1.org/downloads/Russian/Trunk/Audio/Original/16kHz_16bit/mat.tgz
Пример использования sphinx4 с русским можно скачать тут:
http://www.mediafire.com/download.php?lwyecgmclys
Скачал при запуске выдает ошибку, хотя RU_8gau_16000Hz.jar в lib положил. Пробовал перекомпилить WavFile.java компилится общим билдом без проблем.
Класс Model нигде дополнительно конфигурить не надо?
Вот ошибка
java -jar ./WavFile.jar
Loading Recognizer...
Problem configuring WavFile: Property Exception component:'lexTreeLinguist' property:'acousticModel' - Can't instantiate: wsj Not configurable class edu.cmu.sphinx.model.acoustic.RU_8gau_16000Hz.Model object:wsj
Property Exception component:'lexTreeLinguist' property:'acousticModel' - Can't instantiate: wsj Not configurable class edu.cmu.sphinx.model.acoustic.RU_8gau_16000Hz.Model object:wsj
at edu.cmu.sphinx.util.props.ValidatingPropertySheet.getComponent(ValidatingPropertySheet.java:414)
at edu.cmu.sphinx.linguist.lextree.LexTreeLinguist.newProperties(LexTreeLinguist.java:341)
at edu.cmu.sphinx.util.props.ConfigurationManager.lookup(ConfigurationManager.java:214)
at edu.cmu.sphinx.util.props.ValidatingPropertySheet.getComponent(ValidatingPropertySheet.java:403)
at edu.cmu.sphinx.decoder.search.WordPruningBreadthFirstSearchManager.newProperties(WordPruningBreadthFirstSearchManager.java:267)
at edu.cmu.sphinx.util.props.ConfigurationManager.lookup(ConfigurationManager.java:214)
at edu.cmu.sphinx.util.props.ValidatingPropertySheet.getComponent(ValidatingPropertySheet.java:403)
at edu.cmu.sphinx.decoder.Decoder.newProperties(Decoder.java:71)
at edu.cmu.sphinx.util.props.ConfigurationManager.lookup(ConfigurationManager.java:214)
at edu.cmu.sphinx.util.props.ValidatingPropertySheet.getComponent(ValidatingPropertySheet.java:403)
at edu.cmu.sphinx.recognizer.Recognizer.newProperties(Recognizer.java:93)
at edu.cmu.sphinx.util.props.ConfigurationManager.lookup(ConfigurationManager.java:214)
at demo.sphinx.wavfile.WavFile.main(WavFile.java:54)
I've uploaded a new version including sphinx4.jar. Start it with java -jar bin/WavFile.jar
http://www.mediafire.com/?j7iym240wew
About 4-beta, I suggest you to use svn trunk or a nightly snapshot, they are not compatible with that beta release.
Помогло все собралось, заработало. Спасибо.
Но распознает с ошибкой.
"он сел в такси лед дверцу которого открыл шофер"
Слова "лед" в оригинале нет.
Еще вопрос. Я правильно понимаю. должно быть 200 любых не повторяющихся предложений по 3 секунды каждая?
> Еще вопрос. Я правильно понимаю. должно быть 200 любых не повторяющихся предложений по 3 секунды каждая?
Нет, неправильно. Как я выше написал, нужно 20 минут чтения связанного текста.
> Можете что нибуть подсказать на тему Русского языка желательно мой голос в FreeTTS как запустить? или другое но на Java.
На данный момент проще всего использовать Festival с голосом msu_ru_nsh_clunits в качестве сервера и клиентом на Java. Работа по поддержке русского в openmary будет закончена не ранее, чем через полгода.
> Очень желательно единая база голосов Sphinx и FreeTTS если конечно такое возможно?
База и в настоящий момент единая. В msu_ru_nsh_clunits используется urp часть базы voxforge. Хотя смысла в этом особого нет, так как организация базы и её структура различны для синтеза и для распознавания.