VoxForge
Hello everybody,
I am working on a project for the application of the augmented reality to the manufacturing environment. We use speech recognition for the man-machine interface and this is why I am very interested in the development of a free Italian acoustic model. I have done my best to involve colleagues, friends and family in this mission (even “forcing” them in some cases) and I have managed to submit some speech from a lot of different people. I have asked to use a common name for the submission –AR4CAD- (which is the name of the project) to quantify our contribution to the project. I am waiting for the speech to be processed by the VoxForge administrator (I don’t know exactly how and who does that but I suppose the speech submissions to be controlled before being published) and I was wondering how long could it take to have the speech available for downloading. Looking at http://www.voxforge.org/it/downloads now there are 8 hrs of speech, with our contribution I expect (hope) to reach 10 hrs which may be a good start for a first Italian acoustic model. As soon as all the speech will be available I’ll start making an Italian acoustic model with sphinxtrain.
If you are interested in our project (or simply curious) visit our website: http://www.t3lab.it/en/progetti/ar4cad/
Francesca
Ciao Francesca,
bello il progetto a cui stai lavorando! Io mi occupo di riconoscimento vocale puro, ma non utilizzo sphinx. Ho optato per Julius, è molto più veloce (sebbene debba girare su ambienti unix). Devo realizzare un tool di riconoscimento vocale per scopi didattici, da utilizzare in ambito universitario.
In pratica, si vuole semplificare la vita agli studenti audiolesi, ai professori (dispense ecc ecc) e agli studenti normalmente abili..
Di certo l'amministratore appena leggerà il tuo post ti creerà il modello acustico che ti serve!
Se tu avessi utilizzato Julius, avrei potuto creartelo io al volo ;-)
Da quello che ho potuto capire, il progetto ar4cad sfrutta il riconoscimento vocale per dare comandi al PC, senza utilizzare nè mause nè tastiera.
Qualcosa di simile la fa anche il tool che sto sviluppando io..
Nel mio ultimo prototipo utilizzo 5 parole chiave per comandare azioni, tipo:
- Slide precedente/successiva;
- Controlla testo della slide (per comunicare al professore che parla, eventuali parole non appartenenti al modello acustico); ecc ecc
Non so se tu hai già effettuato qualche prova con sphinx.. Per Julius, in due anni di lavoro, ho potuto costatare che la qualità del modello acustico, non dipende tanto dal numero di ore di "parlato", ma dal numero di volte che ogni singola parola del modello acustico viene ripetuta nel training.
Se ti va dai uno sguardo qui:
Sicuramente la discussione ti sarà utile e ti farà accendere qualche lampadina XD
Ti quoto quello che ho scritto a p!Zz@b0y
"Senti ma perchè non ci facciamo un sitariello, o meglio un forum?
Qualcosa che tratti solo di riconoscimento vocale per la lingua italiana.. Tanto i 2 maggiori engine free, sono Julius e Sphinx...
Tu ne capisci di Sphinx e io di Julius... Secondo me sarebbe una bella cosa.."
E ti incollo il link di quello che per ora ho fatto:
http://itaspeechrecstudies.freeforumzone.leonardo.it/forum.aspx?c=187164&f=187164
Il tempo è tiranno e per fare quel che vorrei.. Mi servirebbero giornate di 48 ore..
Buona giornata C.
Hi Francesca,
> I have done my best to involve colleagues, friends and family in this mission
Thank you very much!
>how long does it take to have the speech available for download?
depends on my time and how much bandwidth I have left for a given month. I will run them through the validation scripts tonight.
>I am waiting for the speech to be processed by the VoxForge administrator
>(I don’t know exactly how and who does that
that would be me - I just run the speech through some scripts to perform some rudimentary checking on the audio, and then manually review any submissions where there might be some recording problems...
>with our contribution I expect (hope) to reach 10 hrs
I noticed that about 10 of your submissions only recorded silence... please make sure that your users perform a recording test to make sure they can see the waveform in the window on the voxforge submission applet when they record.
>As soon as all the speech will be available I’ll start making an Italian
>acoustic model with sphinxtrain.
please provide us with a link (or we can host it here...)
thanks,
Ken
Hi Ken,
it seems I have found some time to work on the ialian acoustic model but unfortunately I got stucked in the task of making the file.dic. I have tried to use the g2p module of sphinxtrain but I ran into a lot of errors. How did you realized the .dic which is in \it\Trunk\AcousticModels\AcousticModels\AcousticModels\voxforge_it_sphinx\etc ?
Any help will be apreciated
thanx
francesca
Hi francesca,
>How did you realized the .dic which is in \it\Trunk\AcousticModels\AcousticModels\AcousticModels\voxforge_it_sphinx\etc ?
Nick from CMU Sphinx created this - you can ask him on the CMU Sphinx forums.
Ken