VoxForge
после того как начитывается текст.
Там же должна быть пофонемная разметка.
Автоматически делается или в ручную?
Какое разделение фонем используется? (всмысле какой набор фонем) .
Подходят ли аудио книги для этого?
Почему нет проекта не S2T а Phonetic Search ?
Много вопросов ? :)
> после того как начитывается текст.
Никак не делаются
> Там же должна быть пофонемная разметка.
Не должна
> Автоматически делается или вручную?
Если такая разметка нужна, её можно сделать автоматически.
> Какое разделение фонем используется? (всмысле какой набор фонем) .
Используемый набор аллофонов (это не фонемы) находится в файле в etc/msu_ru_nsh.phone.
> Подходят ли аудио книги для этого?
Для чего этого?
> Почему нет проекта не S2T а Phonetic Search ?
Почему люди не летают?
> Автоматически делается или вручную?
Если такая разметка нужна, её можно сделать автоматически.
================
разве разметка не нужна для обучения ??
> Какое разделение фонем используется? (всмысле какой набор фонем) .
Используемый набор аллофонов (это не фонемы) находится в файле в etc/msu_ru_nsh.phone.
====
круто
как имея текст получить последовательность аллофонов ?
> Подходят ли аудио книги для этого?
Для чего этого?
=======
у аудио книги есть текст + аудио
подходят ли они как моделии обучения? почему ?
> Почему нет проекта не S2T а Phonetic Search ?
Почему люди не летают?
====
те его нет почему ?
потому что никто не делает .... или потому что большая разница между Phonetic Search и S2T
мне казалось там разница не очень большая ....
> разве разметка не нужна для обучения?
Разметка на аллофоны не нужна, только транскрипция уровня слов.
> Как имея текст получить последовательность аллофонов?
Поставить аллофоны для каждого слова из словаря или использовать специализированную программу.
> подходят ли они как модели обучения? почему?
Для обучения модели аудиокниги используются. В данной
базе они больше 70% составляют.
> потому что никто не делает .... или потому что большая разница между Phonetic Search и S2T. мне казалось там разница не очень большая ....
Разницы между распознаванием и поиском нет. Тем не менее, доступного ПО по индексации и поиску нет. На вопрос "почему" я затрудняюсь ответить.
> разве разметка не нужна для обучения?
Разметка на аллофоны не нужна, только транскрипция уровня слов.
====
где можно посмотреть какие алгоритмы используются для получения разметки уровня слов ? Или нужно копаться в исходниках программ? Каких программ ?
> Как имея текст получить последовательность аллофонов?
Поставить аллофоны для каждого слова из словаря или использовать специализированную программу.
===========
где можно помотреть алгоритмы ? Или нужно копаться в исходниках программ? Каких программ ? Для русского языка.
> подходят ли они как модели обучения? почему?
Для обучения модели аудиокниги используются. В данной
базе они больше 70% составляют.
========
Разметка уровня слов была сделана автоматически?
> потому что никто не делает .... или потому что большая разница между Phonetic Search и S2T. мне казалось там разница не очень большая ....
Разницы между распознаванием и поиском нет. Тем не менее, доступного ПО по индексации и поиску нет. На вопрос "почему" я затрудняюсь ответить.
=====================
А вообще есть ли надобность в аудиозаписях размеченным по аллофонам/фонемам для s2t ? для Phonetic Search как я представляю без них никак. Вообще я такие записи кроме загадочной RuSpeech не знаю и тем более лежащие в свободном доступе.
> где можно посмотреть какие алгоритмы используются для получения разметки уровня слов ? Или нужно копаться в исходниках программ? Каких программ ?
Хм, алгоритмы для получения разметки уровня слов это алгоритмы распознавания речи. Посмотреть информацию о них можно в книжке. Spoken Language Processing например:
http://dsp-book.narod.ru/SLP1.djvu
http://dsp-book.narod.ru/SLP2.djvu
> Как имея текст получить последовательность аллофонов?
Поставить аллофоны для каждого слова из словаря или использовать специализированную программу.
Алгоритмы преобразования текста в аллофоны описаны в литературе. Например, вот такая статься описывает детали http://www.philol.msu.ru/~otipl/SpeechGroup/publications/2001/stat_kaz.doc
Реализацию этих алгоритмов можно найти в синтезаторе русской речи.
> Разметка уровня слов была сделана автоматически?
Для тренировки базы разметка делается вручную.
> А вообще есть ли надобность в аудиозаписях размеченным по аллофонам/фонемам для s2t? для Phonetic Search как я представляю без них никак. Вообще я такие записи кроме загадочной RuSpeech не знаю и тем более лежащие в свободном доступе.
Большой надобности нет.
> Как имея текст получить последовательность аллофонов?
Поставить аллофоны для каждого слова из словаря или использовать специализированную программу.
Алгоритмы преобразования текста в аллофоны описаны в литературе. Например, вот такая статься описывает детали http://www.philol.msu.ru/~otipl/SpeechGroup/publications/2001/stat_kaz.doc
Реализацию этих алгоритмов можно найти в синтезаторе русской речи.
========
Спасибо за doc.
Можно название или сылку на синтезатор.
> Разметка уровня слов была сделана автоматически?
Для тренировки базы разметка делается вручную.
=============
МММ. Какая то путаница.
Я правильно понимаю что для тренировки базы , необходима разметка по словам (начало-конец) . И это операция сейчас не делается автоматически.Те это ручная операция и если она будет автоматизированна то распознование может быть улучшенно, за счёт большей базы?
Это верно как для русского так и для английского языков ?
Тогда я не понял про то что вы говорили про автоматическую разметку. И почему она не годится для тренировки.
С какой точностью нужна разметка по словам ? сотые секунд , тысячные?
Нужны ли ещё базы для улучшения качества ?
Нужны ли допустим размеченные аудио книги. Или для улучшения базы нужны другие источники аудио данных(телевидение , радио ....).
Те те записи которые люди записывают через зайт (java аплет ) он потом вручную размечается ?
> Можно название или сылку на синтезатор.
Festival/msu_ru_nsh_clunits
http://festlang.berlios.de/docu/doku.php?id=russianru
> Я правильно понимаю что для тренировки базы , необходима разметка по словам (начало-конец) .
Нет. То, как выглядит база можно посмотреть, скачав её на этом сайте. База состоит из большого числа коротких записей (5-10с) и текста к каждой из записей.
> Нужны ли ещё базы для улучшения качества ?
Единственная цель этого ресурса - собрать дополнительные базы для улучшения качества.
> где можно поÑмоÑÑеÑÑ ÐºÐ°ÐºÐ¸Ðµ алгоÑиÑÐ¼Ñ Ð¸ÑполÑзÑÑÑÑÑ Ð´Ð»Ñ Ð¿Ð¾Ð»ÑÑÐµÐ½Ð¸Ñ ÑазмеÑки ÑÑÐ¾Ð²Ð½Ñ Ñлов ? Ðли нÑжно копаÑÑÑÑ Ð² иÑÑ Ð¾Ð´Ð½Ð¸ÐºÐ°Ñ Ð¿ÑогÑамм? ÐÐ°ÐºÐ¸Ñ Ð¿ÑогÑамм ?
Хм, алгоÑиÑÐ¼Ñ Ð´Ð»Ñ Ð¿Ð¾Ð»ÑÑÐµÐ½Ð¸Ñ ÑазмеÑки ÑÑÐ¾Ð²Ð½Ñ Ñлов ÑÑо алгоÑиÑÐ¼Ñ ÑаÑÐ¿Ð¾Ð·Ð½Ð°Ð²Ð°Ð½Ð¸Ñ ÑеÑи. ÐоÑмоÑÑеÑÑ Ð¸Ð½ÑоÑмаÑÐ¸Ñ Ð¾ Ð½Ð¸Ñ Ð¼Ð¾Ð¶Ð½Ð¾ в книжке. Spoken Language Processing напÑимеÑ:
http://dsp-book.narod.ru/SLP1.djvu
http://dsp-book.narod.ru/SLP2.djvu
> Ðак Ð¸Ð¼ÐµÑ ÑекÑÑ Ð¿Ð¾Ð»ÑÑиÑÑ Ð¿Ð¾ÑледоваÑелÑноÑÑÑ Ð°Ð»Ð»Ð¾Ñонов?
ÐоÑÑавиÑÑ Ð°Ð»Ð»Ð¾ÑÐ¾Ð½Ñ Ð´Ð»Ñ ÐºÐ°Ð¶Ð´Ð¾Ð³Ð¾ Ñлова из ÑловаÑÑ Ð¸Ð»Ð¸ иÑполÑзоваÑÑ ÑпеÑиализиÑованнÑÑ Ð¿ÑогÑаммÑ.ÐлгоÑиÑÐ¼Ñ Ð¿ÑеобÑÐ°Ð·Ð¾Ð²Ð°Ð½Ð¸Ñ ÑекÑÑа в аллоÑÐ¾Ð½Ñ Ð¾Ð¿Ð¸ÑÐ°Ð½Ñ Ð² лиÑеÑаÑÑÑе. ÐапÑимеÑ, Ð²Ð¾Ñ ÑÐ°ÐºÐ°Ñ ÑÑаÑÑÑÑ Ð¾Ð¿Ð¸ÑÑÐ²Ð°ÐµÑ Ð´ÐµÑали http://www.philol.msu.ru/~otipl/SpeechGroup/publications/2001/stat_kaz.doc
РеализаÑÐ¸Ñ ÑÑÐ¸Ñ Ð°Ð»Ð³Ð¾ÑиÑмов можно найÑи в ÑинÑезаÑоÑе ÑÑÑÑкой ÑеÑи.
> РазмеÑка ÑÑÐ¾Ð²Ð½Ñ Ñлов бÑла Ñделана авÑомаÑиÑеÑки?
ÐÐ»Ñ ÑÑениÑовки Ð±Ð°Ð·Ñ ÑазмеÑка делаеÑÑÑ Ð²ÑÑÑнÑÑ.
> РвообÑе еÑÑÑ Ð»Ð¸ надобноÑÑÑ Ð² аÑдиозапиÑÑÑ ÑазмеÑеннÑм по аллоÑонам/Ñонемам Ð´Ð»Ñ s2t? Ð´Ð»Ñ Phonetic Search как Ñ Ð¿ÑедÑÑавлÑÑ Ð±ÐµÐ· Ð½Ð¸Ñ Ð½Ð¸ÐºÐ°Ðº. ÐообÑе Ñ Ñакие запиÑи кÑоме загадоÑной RuSpeech не Ð·Ð½Ð°Ñ Ð¸ Ñем более лежаÑие в Ñвободном доÑÑÑпе.
ÐолÑÑой надобноÑÑи неÑ.