Show simple item record

AuthorTalle, Barbara Helgadc.contributor.author
Date of accession2016-03-14T11:53:43Zdc.date.accessioned
Available in OPARU since2016-03-14T11:53:43Zdc.date.available
Year of creation2002dc.date.created
AbstractSpracherkennungssysteme finden immer weitere Verbreitung. Allerdings zeigen sie noch immer eine mangelnde Robustheit in unterschiedlichen Geräuschumgebungen. Ein neuer Ansatz, die Leistung dieser Systeme zu steigern bzw. robust zu machen, besteht in einer multimodalen Erkennung. Dabei werden Informationen über die Lippenbewegungen des Sprechers in den Spracherkennungsprozess einbezogen. Die dabei noch ungelöste Problematik der bestmöglichen Sensorfusion wird in dieser Arbeit anhand eines neuartigen audio-visuellen Worterkennungssystems untersucht. Bei der Entwicklung des Worterkennungssystems werden die Realisierung und die systematische Untersuchung aller möglichen Fusionsarchitekturen zum Ziel genommen. Das System ist modular und vollständig neuronal aufgebaut und erlaubt im Gegensatz zu herkömmlichen Verfahren (z.B. Hidden-Markov-Modellen) die Untersuchung von Fusionsarchitekturen auf allen Stufen der Informationsverarbeitung. Auch die Realisierung und Bewertung einer Fusion auf einer Zwischenebene des Systems ist leicht möglich. Zudem kann eine Architektur mit automatischer Gewichtung der Einzelkanäle ohne Kenntnis des Signal-Rausch-Abstandes realisiert werden. Eine aufwendige Segmentlabelung der Daten ist aufgrund des gewählten Aufbaus nicht notwendig. Das Worterkennungssystem wird anhand der Klassifikation von Buchstabenwörtern getestet, welche hochgradig verwechselbar sind und ein schwieriges Klassifikationsproblem darstellen. Die visuellen Daten bestehen dabei in Grauwertbildern der Lippenregion. Es werden zudem gestörte und ungestörte akustische Daten verwendet. Eine Dimensionsreduktion dieser hochdimensionalen Eingangsdaten wird durch Verwendung einer linearen Diskriminanzanalyse erreicht. Um statistische Aussagen über die Performanzen einzelner Fusionsstrategien zu gewinnen, werden Crossvalidierungs-Experimente durchgeführt. Die Strategie einer möglichst späten Fusion vor einer Klassifikation erreicht dabei die besten Ergebnisse.dc.description.abstract
Languagededc.language.iso
PublisherUniversität Ulmdc.publisher
LicenseStandard (Fassung vom 03.05.2003)dc.rights
Link to license texthttps://oparu.uni-ulm.de/xmlui/license_v1dc.rights.uri
KeywordAudio-visuelle Sprachverarbeitungdc.subject
KeywordBuchstabenworterkennungdc.subject
KeywordCrossvalidierungdc.subject
KeywordFusionsarchitekturendc.subject
LCSHSensor fusiondc.subject.lcsh
TitleNeuronale Fusionsarchitekturen in der audio-visuellen Sprachverarbeitungdc.title
Resource typeDissertationdc.type
DOIhttp://dx.doi.org/10.18725/OPARU-31dc.identifier.doi
URNhttp://nbn-resolving.de/urn:nbn:de:bsz:289-vts-26456dc.identifier.urn
GNDAssoziativspeicherdc.subject.gnd
GNDDiskriminanzanalysedc.subject.gnd
GNDLippenlesendc.subject.gnd
GNDMehrschichten-Perzeptrondc.subject.gnd
GNDNeuronales Netzdc.subject.gnd
FacultyFakultät für Informatikuulm.affiliationGeneral
Date of activation2003-02-24T13:57:30Zuulm.freischaltungVTS
Peer reviewneinuulm.peerReview
Shelfmark print versionZ: J-H 10.015 ; W: W-H 7.311uulm.shelfmark
DCMI TypeTextuulm.typeDCMI
VTS ID2645uulm.vtsID
CategoryPublikationenuulm.category
Bibliographyuulmuulm.bibliographie


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record