• English
    • Deutsch
  • English 
    • English
    • Deutsch
  • Login
View Item 
  •   Home
  • Universität Ulm
  • Publikationen
  • View Item
  •   Home
  • Universität Ulm
  • Publikationen
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Reinforcement Learning mit adaptiver Steuerung von Exploration und Exploitation

Thumbnail
vts_8696_12922.pdf (3.471Mb)
167 S.
Veröffentlichung
2013-11-19
Authors
Tokic, Michel
Dissertation


Faculties
Fakultät für Ingenieurwissenschaften und Informatik
Abstract
Durch Reinforcement Learning kann intelligentes Verhalten anhand sensomotorischer Interaktion erlernt werden. Die Art und Weise des Lernens ist neurobiologisch und psychologisch motiviert, wobei ein künstlicher Lernagent "Reward" von seiner Umgebung, für den Nutzen getätigter Aktionen, erhält. Hieraus ergibt sich das Lernziel, den kumulierten Reward zu optimieren, was durch eine zielgerichtete Aktionswahl erreicht werden kann. Neben der Wahl von Aktionen, die bereits erworbenes Wissen über die Umgebung ausnutzen (Exploitation), müssen auch Aktionen gewählt werden, die die Dynamik der Umgebung erkunden (Exploration). Gleichzeitig düfen nicht zu viele Explorationsaktionen getätigt werden, um niedrigen Reward durch schlechte Aktionen zu vermeiden; aber auch nicht zu wenige, um das Wissen über die langfristige Auswirkung von Aktionen möglichst präzise abschätzen zu können. Diese Dissertation stellt neue Explorationsstrategien für Reinforcement Learning in diskreten Aktionsräumen vor. Es wird das Ziel verfolgt, die Explorationsrate eines Lernagenten nicht global vom Experimentator festlegen zu lassen, sondern durch "Meta-Learning", auf Basis des Lernfortschritts, zu adaptieren. Hierfür werden zum Einen "Wertunterschiede" als Maß für die "Sicherheit über die Auswirkung von Aktionen" verwendet, die beim Neuschätzen der Wertefunktion entstehen. In einem weiteren Ansatz werden "stochastische Neuronen" eingesetzt, um das Explorationsverhalten nicht nur lokal, sondern auch global steuern zu können. Ebenso werden die technischen Beiträge dieser Arbeiten in den Kontext der Neurobiologie eingeordnet, in welcher die folgenden Neurotransmitter eine wichtige Rolle spielen: Dopamin (TD-Error), Acetylcholin (Lernrate) und Norepinephrin (Explorationsrate). Da das Explorationsverhalten nicht explizit vom Experimentator vorgegeben wird, sondern vom Inneren des Lernagenten heraus ensteht, sind die Ergebnisse dieser Arbeit ein wichtiger Schritt in Richtung vollautonome Systeme.
Date created
2013
Subject headings
[GND]: Bestärkendes Lernen <Künstliche Intelligenz> | Exploration
[LCSH]: Exploitation | Reinforcement learning
[DDC subject group]: DDC 004 / Data processing & computer science
License
Standard
https://oparu.uni-ulm.de/xmlui/license_v3

Metadata
Show full item record

DOI & citation

Please use this identifier to cite or link to this item: http://dx.doi.org/10.18725/OPARU-2517

Tokic, Michel (2013): Reinforcement Learning mit adaptiver Steuerung von Exploration und Exploitation. Open Access Repositorium der Universität Ulm und Technischen Hochschule Ulm. Dissertation. http://dx.doi.org/10.18725/OPARU-2517
Citation formatter >



Policy | kiz service OPARU | Contact Us
Impressum | Privacy statement
 

 

Advanced Search

Browse

All of OPARUCommunities & CollectionsPersonsInstitutionsPublication typesUlm SerialsDewey Decimal ClassesEU projects UlmDFG projects UlmOther projects Ulm

My Account

LoginRegister

Statistics

View Usage Statistics

Policy | kiz service OPARU | Contact Us
Impressum | Privacy statement