• English
    • Deutsch
  • English 
    • English
    • Deutsch
  • Login
View Item 
  •   Home
  • Universität Ulm
  • Publikationen
  • View Item
  •   Home
  • Universität Ulm
  • Publikationen
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Neuronale Fusionsarchitekturen in der audio-visuellen Sprachverarbeitung

Thumbnail
vts_2645.pdf (2.130Mb)
253 Seiten
Veröffentlichung
2003-02-24
Authors
Talle, Barbara Helga
Dissertation


Faculties
Fakultät für Informatik
Abstract
Spracherkennungssysteme finden immer weitere Verbreitung. Allerdings zeigen sie noch immer eine mangelnde Robustheit in unterschiedlichen Geräuschumgebungen. Ein neuer Ansatz, die Leistung dieser Systeme zu steigern bzw. robust zu machen, besteht in einer multimodalen Erkennung. Dabei werden Informationen über die Lippenbewegungen des Sprechers in den Spracherkennungsprozess einbezogen. Die dabei noch ungelöste Problematik der bestmöglichen Sensorfusion wird in dieser Arbeit anhand eines neuartigen audio-visuellen Worterkennungssystems untersucht. Bei der Entwicklung des Worterkennungssystems werden die Realisierung und die systematische Untersuchung aller möglichen Fusionsarchitekturen zum Ziel genommen. Das System ist modular und vollständig neuronal aufgebaut und erlaubt im Gegensatz zu herkömmlichen Verfahren (z.B. Hidden-Markov-Modellen) die Untersuchung von Fusionsarchitekturen auf allen Stufen der Informationsverarbeitung. Auch die Realisierung und Bewertung einer Fusion auf einer Zwischenebene des Systems ist leicht möglich. Zudem kann eine Architektur mit automatischer Gewichtung der Einzelkanäle ohne Kenntnis des Signal-Rausch-Abstandes realisiert werden. Eine aufwendige Segmentlabelung der Daten ist aufgrund des gewählten Aufbaus nicht notwendig. Das Worterkennungssystem wird anhand der Klassifikation von Buchstabenwörtern getestet, welche hochgradig verwechselbar sind und ein schwieriges Klassifikationsproblem darstellen. Die visuellen Daten bestehen dabei in Grauwertbildern der Lippenregion. Es werden zudem gestörte und ungestörte akustische Daten verwendet. Eine Dimensionsreduktion dieser hochdimensionalen Eingangsdaten wird durch Verwendung einer linearen Diskriminanzanalyse erreicht. Um statistische Aussagen über die Performanzen einzelner Fusionsstrategien zu gewinnen, werden Crossvalidierungs-Experimente durchgeführt. Die Strategie einer möglichst späten Fusion vor einer Klassifikation erreicht dabei die besten Ergebnisse.
Date created
2002
Subject headings
[GND]: Assoziativspeicher | Diskriminanzanalyse | Lippenlesen | Mehrschichten-Perzeptron | Neuronales Netz
[LCSH]: Sensor fusion
[Free subject headings]: Audio-visuelle Sprachverarbeitung | Buchstabenworterkennung | Crossvalidierung | Fusionsarchitekturen
License
Standard (Fassung vom 03.05.2003)
https://oparu.uni-ulm.de/xmlui/license_v1

Metadata
Show full item record

DOI & citation

Please use this identifier to cite or link to this item: http://dx.doi.org/10.18725/OPARU-31

Talle, Barbara Helga (2003): Neuronale Fusionsarchitekturen in der audio-visuellen Sprachverarbeitung. Open Access Repositorium der Universität Ulm und Technischen Hochschule Ulm. Dissertation. http://dx.doi.org/10.18725/OPARU-31
Citation formatter >



Policy | kiz service OPARU | Contact Us
Impressum | Privacy statement
 

 

Advanced Search

Browse

All of OPARUCommunities & CollectionsPersonsInstitutionsPublication typesUlm SerialsDewey Decimal ClassesEU projects UlmDFG projects UlmOther projects Ulm

My Account

LoginRegister

Statistics

View Usage Statistics

Policy | kiz service OPARU | Contact Us
Impressum | Privacy statement