German

Nested
adapt the german model
User: shasirl
Date: 10/16/2013 3:53 am
Views: 15780
Rating: 1

Hi there,

I´m a trainee at the Daimler AG and my job is to convert an audiofile into a text. The language is german.I´ve installed pocketsphinx on windows. My problem is to add a new word to the actual voxfoge model "voxforge-de-0.1". For an english model i tested lmtool and it works great. But for the german language it doesn´t work. It recognize not one word.

How can I add a new word and train it for the German Voxforge model?

Please help me Frown

Re: adapt the german model
User: Binh
Date: 10/16/2013 7:10 am
Views: 95
Rating: 1
toll zu lange getipt und mein ganzer Text ist weg. Hier also
nochmal reinediert:
Da du eine deutsche Spracherkennung schreibst antworte ich mal auf
Deutsch. Es ist leider nicht ganz so einfach. Eine Spracherkennung
setzt sich aus drei Teilen zusammen:
1. Akkustische Modell
Audio Repräsentation
2. Aussprachewörterbuch
Enthält zu jedem Wort , aus welchen Phonemen es sich
zusammensetzt
3. Language Modell / Grammatik
Siehe wiki.
 
LM tools erweitert nur Punkt 2. Der einzige Grund warum es bei dem
englischen Modell funktioniert, ist weil ständig neue Daten in das
Modell reinkompiliert werden. Das deutsche Modell ist jedoch seit
2010 nicht erweitert worden. Was dazu kommt, ist wir auch nur ca 30
Stunden an Sprache haben.
Um ein neues Wort hinzuzufügen brauchst du zuerst ein Audiofile,
welches einen Satz mit dem Wort enthält. Am besten von mehreren
Sprechern. Theoretische würde ein Audiofile mit nur dem Wort reichen
um dir eine Chance auf eine Erkennung zu geben. Ist allerdings nicht
sehr robust.
Dann must du den gesamten Audiokorpus inklusive des neuen Files
kompilieren ( mit Sphinxtrain zum Beispiel )
Davor must du auch das Ausprachewörterbuch erweitern. Englisch
hat einen anderen Phonemsatz als deutsch. Daher kannst du hier nnicht
lmtools verwenden. Es sei noch erwähnt das man für das Training und
für die Erkennung zwei verschieden Wörterbücher benutzen kann.
Wörterbücher enthalten Einträge der Form
BEISPIEL b ai ss p i: l
b, ai , ss , p etc stehen hier für Phoneme also
Laute im Deutschen. Dabei ist es fast egal welche Buchstaben du
benutzt sie müssen nur konsistent mit dem restlichen Wörterbuch
sein.
THEORIE: Da da akkustische Modell die Phoneme lernt,
würde es theoretisch gesehen während des TRaining nur das
Wörterbuch zu erweitern, wenn die Phoneme in dem neuen Wort schon in
ausreichender Menge von den anderen Audiofiles abgedeckt wurden.
 
Ich hoffe ich konnte helfen
Binh
Re: adapt the german model
User: nsh
Date: 10/16/2013 11:38 am
Views: 60
Rating: 1

> Um ein neues Wort hinzuzufügen brauchst du zuerst ein Audiofile, welches einen Satz mit dem Wort enthält. Am besten von mehreren Sprechern. Theoretische würde ein Audiofile mit nur dem Wort reichen um dir eine Chance auf eine Erkennung zu geben. Ist allerdings nicht sehr robust. 

Das ist Falsch.

 

Re: adapt the german modelnsh
User: Visitor
Date: 10/17/2013 2:23 am
Views: 62
Rating: 1

Erstmal vielen Dank für die schnelle Antwort.

Ist es nicht möglich die .lm-Datei von lmtool zu verwenden da diese ja nur von den Sätzen abhängig ist die ich mitliefere. Also ist es ja sprachenunabhängig.

Und wenn ich bei der .dic-Datei die Phoneme mit den deutschen Phonem ersetze die ich von Sequitur G2P bekomme müsste doch auch diese Lösung zielführend sein.

Liege ich hier falsch?

Benutzer nsh hat kommentiert das deine Aussage zwischen Zeile 5 und 10 falsch ist?

Könntest du mir vielleicht die wichtigsten Schritte von Sphinxtrain näher erläutern. (bitte)

Ist es besser ich trainiere das model (http://cmusphinx.sourceforge.net/wiki/tutorialam) oder ich erweitere es (http://cmusphinx.sourceforge.net/wiki/tutorialadapt).
Sind diese Lösungen mit dem model von Voxforge kompatibel?
Vielen dank nochmal für deine Hilfe.
Re: adapt the german model
User: Visitor
Date: 10/17/2013 2:32 am
Views: 58
Rating: 1
Juhu. Jemand redet mit mir. Ganz  wie ma es nimmt. Meinst du den ersten oder zweiten Teil des Satzes?Beim ersten Teil muss ich dich auf den Satz hinter dem Wort Theorie verweisen. Allerdings halte ich es für besser, wenn man das Wort tasächlich eintrainiert. Bei zweiten Teil verweise ich auf die Arbeit von Ralf und seine Arbeit mti Simon. Warst du nicht Ralf? *grübel*Was genau ist denn falsch? Da ich selber an so etwas ähnlichem arbeite, würde ich natürlich gerne wiessen ,wenn ich etwas falsches von mir gebe.
Re: adapt the german modelnsh
User: Binh
Date: 10/17/2013 2:57 am
Views: 44
Rating: 1

Da kann ich dich eigentlich nur auf die Checkliste verweisen, die auf derselben Seite steht.

http://cmusphinx.sourceforge.net/wiki/tutorialam

Wenn man nur die Genauigkeit erhöhen will, oder zu wenig Trainingsdaten hat, oder nicht genug Zeit oder Erfahrung sollte man eine Adaption ausführen.

Das mit dem LM Tool wäre möglich. Allerdings habe ich das CMU Cambridge Tool v2 verwendet. Daher kann dazu momentan nicht wirklich etwas sagen. Die Schritte für einen Trainingslauf mit Sphinxtrain stehen eigentlich auch genau auf der Seite. (tutorialam) Da bist du also schon goldrichtig.Bevor ich aber näheres dazu sage , warten wir mal ab, was nsh dazu sagt, was "falsch" ist. Schließlich würde ich hier ungern Unsinn verbreiten.

Wegen den Phonemen könntest du auch diese Webseite verwenden

http://korpling.german.hu-berlin.de/~amir/phon.php

Ist ungefähr dasselbe nur für deutsch.

Re: adapt the german model
User: Binh
Date: 10/17/2013 3:12 am
Views: 50
Rating: 1

My apologies. I remember, you are Nickolay.

If you mark something as "wrong" maybe you shouldn't mark two points.

Binh

Re: adapt the german model
User: nsh
Date: 10/17/2013 1:36 pm
Views: 124
Rating: 1

I marked two points as wrong because they both are wrong. You definitely do not need to have a word in training set in order to recognize it.

 

Re: adapt the german model
User: Visitor
Date: 10/18/2013 2:14 am
Views: 84
Rating: 1

Yes. As I mentioned further down in my thread in theorie it is enough, if the necessary phonem of the new word are covered by words already present but we talking about the german acoustic model here which is very small. So it is always better to add the word to the training set if you want it to be recognized. 

The other point refers to the work of Ralf I found on spirit blue. He tried to build a speech recognition by adding flacs with only 1 word to the training set. And with some sucess I may add. Given. He uses Simon but since Simon uses HTK or Sphinxtrain in the background I think it may be possible.

So if you have any more facts or arguments to contradict this two points your welcome to share. Otherwise I just assume you didn't read the whole thread.( I admit many spelling and sentence errors)

So let's continue

Re: adapt the german modelnsh
User: Binh
Date: 10/18/2013 2:25 am
Views: 126
Rating: 1

Nun gut. Wenn Nickolay nicht etwas anderes meinte, nehme ich jetzt mal an, das er einfach nicht alles gelesen hat. Falls er etwas anderes meinte, kann er sich gerne hier einmischen. Ich lerne gerne etwas dazu.

Zurück zu deinem Fall. Vielleicht sollten wir noch einmal zurück treten und uns überlegen ob Sphinx wirklich das richtige an dieser Stelle ist.

Zunächst must du dir überlegen wieviel Zeit du hast um den Transcriber zu schreiben. Wenn es unter 1 Monat ist und du nicht auf Sphinx( Als Aufgabenstellung) angewiesen bist, dann würde ich dir vielleicht Google Voice Api nahe legen. Man zerlegt die Audio Datei dabei und schickt sie an Google, welche dann eine Erkennung zurückschickt. Es ist deutlich einfacher, auch wenn man hier allerdings nicht die Möglichkeit hat irgendetwas zu tunen.

Als nächstes must du die überlegen was auf der Audiodatei genau drauf ist. Wie du vermutlich bereites gelesen hast, ist es deutlich einfach eine beschränkte Reihe von Befehlen zu erkennen wie: "Gehe rechts, Gehe links, Wähle 662" als fließenden gesprochenen Text.

PreviousNext