Neuronale Fusionsarchitekturen in der audio-visuellen Sprachverarbeitung
Dissertation
Faculties
Fakultät für InformatikAbstract
Spracherkennungssysteme finden immer weitere Verbreitung. Allerdings zeigen sie noch immer eine mangelnde Robustheit in unterschiedlichen Geräuschumgebungen. Ein neuer Ansatz, die Leistung dieser Systeme zu steigern bzw. robust zu machen, besteht in einer multimodalen Erkennung. Dabei werden Informationen über die Lippenbewegungen des Sprechers in den Spracherkennungsprozess einbezogen.
Die dabei noch ungelöste Problematik der bestmöglichen Sensorfusion wird in dieser Arbeit anhand eines neuartigen audio-visuellen Worterkennungssystems untersucht.
Bei der Entwicklung des Worterkennungssystems werden die Realisierung und die systematische Untersuchung aller möglichen Fusionsarchitekturen zum Ziel genommen. Das System ist modular und vollständig neuronal aufgebaut und erlaubt im Gegensatz zu herkömmlichen Verfahren (z.B. Hidden-Markov-Modellen) die Untersuchung von Fusionsarchitekturen auf allen Stufen der Informationsverarbeitung. Auch die Realisierung und Bewertung einer Fusion auf einer Zwischenebene des Systems ist leicht möglich. Zudem kann eine Architektur mit automatischer Gewichtung der Einzelkanäle ohne Kenntnis des Signal-Rausch-Abstandes realisiert werden. Eine aufwendige Segmentlabelung der Daten ist aufgrund des gewählten Aufbaus nicht notwendig.
Das Worterkennungssystem wird anhand der Klassifikation von Buchstabenwörtern getestet, welche hochgradig verwechselbar sind und ein schwieriges Klassifikationsproblem darstellen. Die visuellen Daten bestehen dabei in Grauwertbildern der Lippenregion. Es werden zudem gestörte und ungestörte akustische Daten verwendet. Eine Dimensionsreduktion dieser hochdimensionalen Eingangsdaten wird durch Verwendung einer linearen Diskriminanzanalyse erreicht. Um statistische Aussagen über die Performanzen einzelner Fusionsstrategien zu gewinnen, werden Crossvalidierungs-Experimente durchgeführt.
Die Strategie einer möglichst späten Fusion vor einer Klassifikation erreicht dabei die besten Ergebnisse.
Date created
2002
Subject headings
[GND]: Assoziativspeicher | Diskriminanzanalyse | Lippenlesen | Mehrschichten-Perzeptron | Neuronales Netz[LCSH]: Sensor fusion
[Free subject headings]: Audio-visuelle Sprachverarbeitung | Buchstabenworterkennung | Crossvalidierung | Fusionsarchitekturen
Metadata
Show full item recordDOI & citation
Please use this identifier to cite or link to this item: http://dx.doi.org/10.18725/OPARU-31
Talle, Barbara Helga (2003): Neuronale Fusionsarchitekturen in der audio-visuellen Sprachverarbeitung. Open Access Repositorium der Universität Ulm und Technischen Hochschule Ulm. Dissertation. http://dx.doi.org/10.18725/OPARU-31
Citation formatter >