German Speech Files

Flat
guenter-20131126-afn
User: speechsubmission
Date: 2/5/2014 8:03 am
Views: 1058
Rating: 0
User Name:guenter

Speaker Characteristics:

Gender: Männlich
Age Range: Erwachsener
Language: DE
Pronunciation dialect: Südwestdeutschland

Recording Information:

Microphone make: n/a
Microphone type: Headset-Mikro (am Kopfhörer)
Audio card make: unknown
Audio card type: unknown
Audio Recording Software: VoxForge Speech Submission Application
O/S:

File Info:

File type: wav
Sampling Rate: 48000
Sample rate format: 16
Number of channels: 1

Prompts:


de5-001 Im weiteren Verlauf spielen Hidden Markov Modelle eine wichtige Rolle.
de5-002 Diese ermöglichen es, die Phoneme zu finden, die am besten zu den Eingangssignalen passen.
de5-003 Dazu wird das akustische Modell eines Phonems in verschiedene Teile zerlegt
de5-004 Den Anfang, je nach Länge unterschiedlich viele Mittelstücke und das Ende.
de5-005 Die Eingangssignale werden mit diesen gespeicherten Teilstücken verglichen
de5-006 mit Hilfe des Viterbi-Algorithmus mögliche Kombinationen gesucht.
de5-007 Für die Erkennung von unterbrochener diskreter Sprache
de5-008 bei der nach jedem Wort eine Pause gemacht wird
de5-009 reichte es aus, jeweils ein Wort zusammen mit einem Pausenmodell zu berechnen.
de5-010 Da die Rechenkapazität moderner PCs aber deutlich gestiegen ist
de5-011 kann mittlerweile auch fließende kontinuierliche Sprache erkannt werden
de5-012 indem größere Hidden Markov Modelle gebildet werden
de5-013 die aus mehreren Wörtern und den Übergängen zwischen ihnen bestehen.
de5-014 Neuronale Netze
de5-015 Alternativ wurden auch schon Versuche unternommen
de5-016 neuronale Netze für das akustische Modell zu verwenden.
de5-017 Mit Time Delay Neural Networks sollten dabei insbesondere die Veränderungen im Frequenzspektrum
de5-018 über den Zeitablauf hinweg zur Erkennung verwendet werden.
de5-019 Die Entwicklung hat durchaus positive Ergebnisse gebracht
de5-020 wurde letztlich aber zugunsten der Modelle wieder aufgegeben.
de5-021 Es gibt aber auch einen hybriden Ansatz
de5-022 bei dem die aus der Vorverarbeitung gewonnenen Daten
de5-023 durch ein neuronales Netzwerk vor-klassifiziert werden
de5-024 und die Ausgabe des Netzes als Parameter für die Hidden Markov Modelle genutzt werden.
de5-025 Dies hat den Vorteil, dass man ohne die Komplexität der HMMs zu erhöhen
de5-026 auch Daten von kurz vor und kurz nach dem gerade bearbeiteten Zeitraum nutzen kann.
de5-027 Außerdem kann man so die Klassifizierung der Daten und die kontextsensitive Zusammensetzung
de5-028 Bildung von sinnvollen Wörtern oder Sätzen
de5-029 voneinander trennen
de5-030 Sprachmodell
de5-031 Das Sprachmodell versucht anschließend
de5-032 die Wahrscheinlichkeit bestimmter Wortkombinationen zu bestimmen
de5-033 und dadurch falsche oder unwahrscheinliche Hypothesen auszuschließen.
de5-034 Dazu kann entweder ein Grammatikmodell unter Verwendung Formaler Grammatiken
de5-035 oder ein statistisches Modell mit Hilfe von N-Grammen eingesetzt werden.
de5-036 Eine Bi- oder Trigrammstatistik speichert die Auftrittswahrscheinlichkeit von Wortkombinationen
de5-037 aus zwei oder drei Wörtern
de5-038 Diese Statistiken werden aus großen Textkorpora Beispieltexten gewonnen.
de5-039 Jede von der Spracherkennung ermittelte Hypothese wird anschließend geprüft und ggf. verworfen,
de5-040 falls ihre Wahrscheinlichkeit zu gering ist.
de5-041 Dadurch können auch Homophone, also unterschiedliche Wörter mit identischer Aussprache unterschieden werden. i
de5-042 Vielen Dank wäre also wahrscheinlicher als Fielen Dank, obwohl beides gleich ausgesprochen wird.
de5-043 Mit Trigrammen sind im Vergleich zu Bigrammen theoretisch zutreffendere Schätzungen
de5-044 der Auftrittswahrscheinlichkeiten der Wortkombinationen möglich.
de5-045 Allerdings müssen die Beispieltext-Datenbanken, aus denen die Trigramme extrahiert werden wesentlich größer sein als für Bigramme,
de5-046 denn es müssen sämtliche zulässigen Wortkombinationen aus drei Wörtern in statistisch signifikanter Anzahl darin vorkommen
de5-047 Kombinationen von vier oder mehr Wörtern wurden lange nicht verwendet,
de5-048 weil sich im Allgemeinen keine Beispieltext-Datenbanken mehr finden lassen,
de5-049 die sämtliche Wortkombinationen in genügender Anzahl beinhalten.
de5-050 Wenn Grammatiken verwendet werden, handelt es sich meist um kontextfreie Grammatiken.
de5-051 Dabei muss allerdings jedem Wort seine Funktion innerhalb der Grammatik zugewiesen werden.
de5-052 Deshalb werden solche Systeme meist nur für einen begrenzten Wortschatz und Spezialanwendungen verwendet,
de5-053 nicht aber in der gängigen Spracherkennungssoftware für PCs.
de5-054 Die Güte eines Spracherkennungssystems lässt sich mit verschiedenen Zahlen angeben.
de5-055 Neben Erkennungsgeschwindigkeit meist als Echtzeitfaktor angegeben
de5-056 lässt sich die Erkennungsgüte als Wortakkuratheit oder Worterkennungsrate messen.
de5-057 Spracherkennung für das Gesundheitswesen
de5-058 Gerade in der Medizin werden zunehmend Spracherkennungssysteme bei der Erstellung von Befunden und Arztbriefen eingesetzt.
de5-059 Ärzte müssen einen enormen Dokumentationsaufwand bewältigen
de5-060 die erhöhte Berichtspflicht für Praxisärzte hat den Aufwand noch verstärkt.
de5-061 Daneben gibt es noch einige kleinere Unternehmen
de5-062 die sich speziell auf den medizinischen Sektor konzentrieren und individuelle
de5-063 auf den jeweiligen Benutzer zugeschnittene Vokabulare anbieten.
de5-064 Weiterhin gibt es auch erste Anwendungen von Spracherkennungsystemen
de5-065 zur Bewertung der Verständlichkeit von pathologischer Sprache.
de5-066 Für die Integration von Spracherkennungssystemen gibt es bereits vordefinierte Vokabulare
de5-067 die die Arbeit mit der Spracherkennung erleichtern sollen.
de5-068 Je besser das Vokabular auf den vom Sprecher verwendeten Wortschatz und Diktierstil angepasst ist,
de5-069 desto höher ist die Erkennungsgenauigkeit.
de5-070 Ein Vokabular beinhaltet neben dem sprecherunabhängigen Lexikon auch ein individuelles Wortfolgemodell
de5-071 Im Vokabular sind alle der Software bekannten Wörter in der Phonetik und Orthografie hinterlegt.
de5-072 Auf diese Weise wird ein gesprochenes Wort an seinem Klang durch das System erkannt.
de5-073 Wenn sich Wörter in Bedeutung und Schreibweise unterscheiden, aber gleich klingen,
de5-074 greift die Software auf das Wortfolgemodell zurück.
de5-075 In ihm ist die Wahrscheinlichkeit definiert,
de5-076 mit der bei einem bestimmten Benutzer ein Wort auf ein anderes folgt.

License:


Copyright 2011 Free Software Foundation

These files are free software: you can redistribute them and/or modify
them under the terms of the GNU General Public License as published by
the Free Software Foundation, either version 3 of the License, or
(at your option) any later version.

These files are distributed in the hope that they will be useful,
but WITHOUT ANY WARRANTY; without even the implied warranty of
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
GNU General Public License for more details.

You should have received a copy of the GNU General Public License
along with these files. If not, see http://www.gnu.org/licenses/.


guenter-20131126-afn.tgz
PreviousNext