Zur Kurzanzeige

Zitiere als: Tokic, Michel (2013): Reinforcement Learning mit adaptiver Steuerung von Exploration und Exploitation. Open Access Repositorium der Universität Ulm. Dissertation. http://dx.doi.org/10.18725/OPARU-2517

BibTeX  IEEE  MLA  APA  Harvard  RIS


AutorTokic, Micheldc.contributor.author
Aufnahmedatum2016-03-15T09:03:57Zdc.date.accessioned
In OPARU verfügbar seit2016-03-15T09:03:57Zdc.date.available
Jahr der Erstellung2013dc.date.created
ZusammenfassungDurch Reinforcement Learning kann intelligentes Verhalten anhand sensomotorischer Interaktion erlernt werden. Die Art und Weise des Lernens ist neurobiologisch und psychologisch motiviert, wobei ein künstlicher Lernagent "Reward" von seiner Umgebung, für den Nutzen getätigter Aktionen, erhält. Hieraus ergibt sich das Lernziel, den kumulierten Reward zu optimieren, was durch eine zielgerichtete Aktionswahl erreicht werden kann. Neben der Wahl von Aktionen, die bereits erworbenes Wissen über die Umgebung ausnutzen (Exploitation), müssen auch Aktionen gewählt werden, die die Dynamik der Umgebung erkunden (Exploration). Gleichzeitig düfen nicht zu viele Explorationsaktionen getätigt werden, um niedrigen Reward durch schlechte Aktionen zu vermeiden; aber auch nicht zu wenige, um das Wissen über die langfristige Auswirkung von Aktionen möglichst präzise abschätzen zu können. Diese Dissertation stellt neue Explorationsstrategien für Reinforcement Learning in diskreten Aktionsräumen vor. Es wird das Ziel verfolgt, die Explorationsrate eines Lernagenten nicht global vom Experimentator festlegen zu lassen, sondern durch "Meta-Learning", auf Basis des Lernfortschritts, zu adaptieren. Hierfür werden zum Einen "Wertunterschiede" als Maß für die "Sicherheit über die Auswirkung von Aktionen" verwendet, die beim Neuschätzen der Wertefunktion entstehen. In einem weiteren Ansatz werden "stochastische Neuronen" eingesetzt, um das Explorationsverhalten nicht nur lokal, sondern auch global steuern zu können. Ebenso werden die technischen Beiträge dieser Arbeiten in den Kontext der Neurobiologie eingeordnet, in welcher die folgenden Neurotransmitter eine wichtige Rolle spielen: Dopamin (TD-Error), Acetylcholin (Lernrate) und Norepinephrin (Explorationsrate). Da das Explorationsverhalten nicht explizit vom Experimentator vorgegeben wird, sondern vom Inneren des Lernagenten heraus ensteht, sind die Ergebnisse dieser Arbeit ein wichtiger Schritt in Richtung vollautonome Systeme.dc.description.abstract
Sprachededc.language.iso
Verbreitende StelleUniversität Ulmdc.publisher
LizenzStandarddc.rights
Link zum Lizenztexthttps://oparu.uni-ulm.de/xmlui/license_v3dc.rights.uri
DDC-SachgruppeDDC 004 / Data processing & computer sciencedc.subject.ddc
LCSHExploitationdc.subject.lcsh
LCSHReinforcement learningdc.subject.lcsh
TitelReinforcement Learning mit adaptiver Steuerung von Exploration und Exploitationdc.title
RessourcentypDissertationdc.type
DOIhttp://dx.doi.org/10.18725/OPARU-2517dc.identifier.doi
PPN39692039Xdc.identifier.ppn
URNhttp://nbn-resolving.de/urn:nbn:de:bsz:289-vts-86969dc.identifier.urn
GNDBestärkendes Lernen <Künstliche Intelligenz>dc.subject.gnd
GNDExplorationdc.subject.gnd
FakultätFakultät für Ingenieurwissenschaften und Informatikuulm.affiliationGeneral
Datum der Freischaltung2013-11-19T13:38:18Zuulm.freischaltungVTS
Peer-Reviewneinuulm.peerReview
Signatur DruckexemplarW: W-H 13.432uulm.shelfmark
MedientypTextuulm.typeDCMI
VTS-ID8696uulm.vtsID
KategoriePublikationenuulm.category


Dateien zu dieser Ressource

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige