Russian

Flat
Bad binary LM file magic number: -17
User: Egor
Date: 11/21/2014 5:33 pm
Views: 9354
Rating: 3

Пытаюсь подключить к CMUSphinx AcousticModel, скачал сегодня с этого ресурса. Пользуюсь IDEA community edition. В лог падает куча ошибок вида 

The dictionary is missing a phonetic transcription for the word '���-��'

Файл с моделью изначально в кодировке ANSI. Если я пытаюсь перевести в UTF-8 (или UTF-8 без BOM, используя notepad++), то все время получаю ошибку:

java.lang.Error: Bad binary LM file magic number: 538976273, not an LM dumpfile?

Не понимаю, как поступать дальше. Какую-то старую версию voxforge запустить удалось, там тоже были несоответсвия в словаре/модели, но даже ошибки выводились в лог корректно, и что-то распознавалось

Re: Bad binary LM file magic number: -17
User: nsh
Date: 11/21/2014 5:47 pm
Views: 118
Rating: 3

> Файл с моделью изначально в кодировке ANSI. Если я пытаюсь перевести в UTF-8 (или UTF-8 без BOM, используя notepad++), то все время получаю ошибку:

Какой файл с какой моделью?

> Не понимаю, как поступать дальше. Какую-то старую версию voxforge запустить удалось, там тоже были несоответсвия в словаре/модели, но даже ошибки выводились в лог корректно, и что-то распознавалось

Для начала нужно предоставить информацию - версию CMUSphinx, информацию об операционной системе, версию IDEA. Информацию о скачанных файлах (имена файлов и версии), информацию об изменениях, в каких файлах были изменения. Вложить приложение в архиве на dropbox, дать ссылку.
Re: Bad binary LM file magic number: -17
User: Egor
Date: 11/21/2014 6:19 pm
Views: 106
Rating: 3

Так, поменял кодировку у всех файлов на utf-8. Теперь - 

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space

at edu.cmu.sphinx.linguist.acoustic.tiedstate.Sphinx3Loader.loadDensityFile(Sphinx3Loader.java:457)

at edu.cmu.sphinx.linguist.acoustic.tiedstate.Sphinx3Loader.loadModelFiles(Sphinx3Loader.java:333)

at edu.cmu.sphinx.linguist.acoustic.tiedstate.Sphinx3Loader.load(Sphinx3Loader.java:280)

at edu.cmu.sphinx.frontend.AutoCepstrum.newProperties(AutoCepstrum.java:120)

 

Увеличение max heap до 2gb, 4 gb не помогает

Использую: 

sphinx4-5prealpha

http://www.repository.voxforge1.org/downloads/Russian/Trunk/AcousticModels/AcousticModels.tgz

IntelliJIDEA 13.1.5

 

Re: Bad binary LM file magic number: -17
User: nsh
Date: 11/22/2014 4:56 am
Views: 171
Rating: 2

> Увеличение max heap до 2gb, 4 gb не помогает

Частая ошибка - увеличивать отведённую память для среды разработки, а не для приложения.  Нужно убедиться в параметрах запуска, что именно приложению отводится память.
Re: Bad binary LM file magic number: -17
User: Egor
Date: 11/22/2014 10:35 am
Views: 139
Rating: 3

Да, спасибо, помогло увеличение памяти для приложения.

Теперь другая ошибка:

Exception in thread "main" Property exception component:'null' property:'null' - java.io.EOFException

edu.cmu.sphinx.util.props.PropertyException: java.io.EOFException

at edu.cmu.sphinx.frontend.AutoCepstrum.newProperties(AutoCepstrum.java:122)

at edu.cmu.sphinx.util.props.PropertySheet.getOwner(PropertySheet.java:508)

at edu.cmu.sphinx.util.props.ConfigurationManager.lookup(ConfigurationManager.java:161)

......
Caused by: java.io.EOFException
at java.io.DataInputStream.readUnsignedByte(DataInputStream.java:273)
at edu.cmu.sphinx.util.Utilities.readLittleEndianInt(Utilities.java:245)
at edu.cmu.sphinx.linguist.acoustic.tiedstate.Sphinx3Loader.readInt
Здесь ошибка потому что файл не найден или он не может прочитать(опять из-за кодировки) ?
Re: Bad binary LM file magic number: -17
User: nsh
Date: 11/22/2014 4:44 pm
Views: 98
Rating: 3
> Здесь ошибка потому что файл не найден или он не может прочитать(опять из-за кодировки) ?
EOF исключение возникает, если файл повреждён. У бинарных файлов моделей нет кодировки.
Re: Bad binary LM file magic number: -17
User: Egor
Date: 11/22/2014 4:59 pm
Views: 108
Rating: 2

Вообщем попробовал на другом компьютере - проблема ушла, когда словарь перевел в ANSI. Теперь вот куча таких ошибок:

02:50:58.736 SEVERE lexTreeLinguist    Bad HMM Unit: ae

ноя 23, 2014 2:50:58 AM edu.cmu.sphinx.linguist.lextree.HMMTree addPronunciation

SEVERE: Missing HMM for unit ll with lc=uu rc=ae

02:50:58.755 SEVERE lexTreeLinguist    Bad HMM Unit: ae

ноя 23, 2014 2:50:58 AM edu.cmu.sphinx.linguist.lextree.HMMTree addPronunciation

SEVERE: Missing HMM for unit ae with lc=ll rc=b

02:50:58.758 SEVERE lexTreeLinguist    Bad HMM Unit: ae

ноя 23, 2014 2:50:58 AM edu.cmu.sphinx.linguist.lextree.HMMTree addPronunciation

SEVERE: Missing HMM for unit b with lc=ae rc=a

Ну и NullPointer в конце
Re: Bad binary LM file magic number: -17
User: nsh
Date: 11/22/2014 5:08 pm
Views: 3859
Rating: 2

> Вообщем попробовал на другом компьютере

 

Иногда помогает подумать, почитать документацию, а не пробовать всё подряд.

 

> проблема ушла, когда словарь перевел в ANSI.

 

Никаких перекодировок делать не нужно, последние модели доступны на сайте http://cmusphinx.sourceforge.net, кодировка всего - UTF-8. Слово "ANSI" вообще нужно забыть.

 

> Теперь вот куча таких ошибок:

02:50:58.736 SEVERE lexTreeLinguist    Bad HMM Unit: ae

ноя 23, 2014 2:50:58 AM edu.cmu.sphinx.linguist.lextree.HMMTree addPronunciation

 

Эти ошибки возникают, когда не загружена русская акустическая модель.

 

PreviousNext