Author | Talle, Barbara Helga | dc.contributor.author |
Date of accession | 2016-03-14T11:53:43Z | dc.date.accessioned |
Available in OPARU since | 2016-03-14T11:53:43Z | dc.date.available |
Year of creation | 2002 | dc.date.created |
Abstract | Spracherkennungssysteme finden immer weitere Verbreitung. Allerdings zeigen sie noch immer eine mangelnde Robustheit in unterschiedlichen Geräuschumgebungen. Ein neuer Ansatz, die Leistung dieser Systeme zu steigern bzw. robust zu machen, besteht in einer multimodalen Erkennung. Dabei werden Informationen über die Lippenbewegungen des Sprechers in den Spracherkennungsprozess einbezogen.
Die dabei noch ungelöste Problematik der bestmöglichen Sensorfusion wird in dieser Arbeit anhand eines neuartigen audio-visuellen Worterkennungssystems untersucht.
Bei der Entwicklung des Worterkennungssystems werden die Realisierung und die systematische Untersuchung aller möglichen Fusionsarchitekturen zum Ziel genommen. Das System ist modular und vollständig neuronal aufgebaut und erlaubt im Gegensatz zu herkömmlichen Verfahren (z.B. Hidden-Markov-Modellen) die Untersuchung von Fusionsarchitekturen auf allen Stufen der Informationsverarbeitung. Auch die Realisierung und Bewertung einer Fusion auf einer Zwischenebene des Systems ist leicht möglich. Zudem kann eine Architektur mit automatischer Gewichtung der Einzelkanäle ohne Kenntnis des Signal-Rausch-Abstandes realisiert werden. Eine aufwendige Segmentlabelung der Daten ist aufgrund des gewählten Aufbaus nicht notwendig.
Das Worterkennungssystem wird anhand der Klassifikation von Buchstabenwörtern getestet, welche hochgradig verwechselbar sind und ein schwieriges Klassifikationsproblem darstellen. Die visuellen Daten bestehen dabei in Grauwertbildern der Lippenregion. Es werden zudem gestörte und ungestörte akustische Daten verwendet. Eine Dimensionsreduktion dieser hochdimensionalen Eingangsdaten wird durch Verwendung einer linearen Diskriminanzanalyse erreicht. Um statistische Aussagen über die Performanzen einzelner Fusionsstrategien zu gewinnen, werden Crossvalidierungs-Experimente durchgeführt.
Die Strategie einer möglichst späten Fusion vor einer Klassifikation erreicht dabei die besten Ergebnisse. | dc.description.abstract |
Language | de | dc.language.iso |
Publisher | Universität Ulm | dc.publisher |
License | Standard (Fassung vom 03.05.2003) | dc.rights |
Link to license text | https://oparu.uni-ulm.de/xmlui/license_v1 | dc.rights.uri |
Keyword | Audio-visuelle Sprachverarbeitung | dc.subject |
Keyword | Buchstabenworterkennung | dc.subject |
Keyword | Crossvalidierung | dc.subject |
Keyword | Fusionsarchitekturen | dc.subject |
LCSH | Sensor fusion | dc.subject.lcsh |
Title | Neuronale Fusionsarchitekturen in der audio-visuellen Sprachverarbeitung | dc.title |
Resource type | Dissertation | dc.type |
DOI | http://dx.doi.org/10.18725/OPARU-31 | dc.identifier.doi |
URN | http://nbn-resolving.de/urn:nbn:de:bsz:289-vts-26456 | dc.identifier.urn |
GND | Assoziativspeicher | dc.subject.gnd |
GND | Diskriminanzanalyse | dc.subject.gnd |
GND | Lippenlesen | dc.subject.gnd |
GND | Mehrschichten-Perzeptron | dc.subject.gnd |
GND | Neuronales Netz | dc.subject.gnd |
Faculty | Fakultät für Informatik | uulm.affiliationGeneral |
Date of activation | 2003-02-24T13:57:30Z | uulm.freischaltungVTS |
Peer review | nein | uulm.peerReview |
Shelfmark print version | Z: J-H 10.015 ; W: W-H 7.311 | uulm.shelfmark |
DCMI Type | Text | uulm.typeDCMI |
VTS ID | 2645 | uulm.vtsID |
Category | Publikationen | uulm.category |
Bibliography | uulm | uulm.bibliographie |