VoxForge
Пытаюсь подключить к CMUSphinx AcousticModel, скачал сегодня с этого ресурса. Пользуюсь IDEA community edition. В лог падает куча ошибок вида
The dictionary is missing a phonetic transcription for the word '���-��'
Файл с моделью изначально в кодировке ANSI. Если я пытаюсь перевести в UTF-8 (или UTF-8 без BOM, используя notepad++), то все время получаю ошибку:
java.lang.Error: Bad binary LM file magic number: 538976273, not an LM dumpfile?
Не понимаю, как поступать дальше. Какую-то старую версию voxforge запустить удалось, там тоже были несоответсвия в словаре/модели, но даже ошибки выводились в лог корректно, и что-то распознавалось
> Файл с моделью изначально в кодировке ANSI. Если я пытаюсь перевести в UTF-8 (или UTF-8 без BOM, используя notepad++), то все время получаю ошибку:
> Не понимаю, как поступать дальше. Какую-то старую версию voxforge запустить удалось, там тоже были несоответсвия в словаре/модели, но даже ошибки выводились в лог корректно, и что-то распознавалось
Так, поменял кодировку у всех файлов на utf-8. Теперь -
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at edu.cmu.sphinx.linguist.acoustic.tiedstate.Sphinx3Loader.loadDensityFile(Sphinx3Loader.java:457)
at edu.cmu.sphinx.linguist.acoustic.tiedstate.Sphinx3Loader.loadModelFiles(Sphinx3Loader.java:333)
at edu.cmu.sphinx.linguist.acoustic.tiedstate.Sphinx3Loader.load(Sphinx3Loader.java:280)
at edu.cmu.sphinx.frontend.AutoCepstrum.newProperties(AutoCepstrum.java:120)
Увеличение max heap до 2gb, 4 gb не помогает
Использую:
sphinx4-5prealpha
http://www.repository.voxforge1.org/downloads/Russian/Trunk/AcousticModels/AcousticModels.tgz
IntelliJIDEA 13.1.5
> Увеличение max heap до 2gb, 4 gb не помогает
Да, спасибо, помогло увеличение памяти для приложения.
Теперь другая ошибка:
Exception in thread "main" Property exception component:'null' property:'null' - java.io.EOFException
edu.cmu.sphinx.util.props.PropertyException: java.io.EOFException
at edu.cmu.sphinx.frontend.AutoCepstrum.newProperties(AutoCepstrum.java:122)
at edu.cmu.sphinx.util.props.PropertySheet.getOwner(PropertySheet.java:508)
at edu.cmu.sphinx.util.props.ConfigurationManager.lookup(ConfigurationManager.java:161)
Вообщем попробовал на другом компьютере - проблема ушла, когда словарь перевел в ANSI. Теперь вот куча таких ошибок:
02:50:58.736 SEVERE lexTreeLinguist Bad HMM Unit: ae
ноя 23, 2014 2:50:58 AM edu.cmu.sphinx.linguist.lextree.HMMTree addPronunciation
SEVERE: Missing HMM for unit ll with lc=uu rc=ae
02:50:58.755 SEVERE lexTreeLinguist Bad HMM Unit: ae
ноя 23, 2014 2:50:58 AM edu.cmu.sphinx.linguist.lextree.HMMTree addPronunciation
SEVERE: Missing HMM for unit ae with lc=ll rc=b
02:50:58.758 SEVERE lexTreeLinguist Bad HMM Unit: ae
ноя 23, 2014 2:50:58 AM edu.cmu.sphinx.linguist.lextree.HMMTree addPronunciation
SEVERE: Missing HMM for unit b with lc=ae rc=a
> Вообщем попробовал на другом компьютере
Иногда помогает подумать, почитать документацию, а не пробовать всё подряд.
> проблема ушла, когда словарь перевел в ANSI.
Никаких перекодировок делать не нужно, последние модели доступны на сайте http://cmusphinx.sourceforge.net, кодировка всего - UTF-8. Слово "ANSI" вообще нужно забыть.
> Теперь вот куча таких ошибок:
02:50:58.736 SEVERE lexTreeLinguist Bad HMM Unit: ae
ноя 23, 2014 2:50:58 AM edu.cmu.sphinx.linguist.lextree.HMMTree addPronunciation
Эти ошибки возникают, когда не загружена русская акустическая модель.