• English
    • Deutsch
  • Deutsch 
    • English
    • Deutsch
  • Einloggen
Dokumentanzeige 
  •   Startseite
  • Universität Ulm
  • Publikationen
  • Dokumentanzeige
  •   Startseite
  • Universität Ulm
  • Publikationen
  • Dokumentanzeige
JavaScript is disabled for your browser. Some features of this site may not work without it.

Reinforcement Learning mit adaptiver Steuerung von Exploration und Exploitation

Thumbnail
vts_8696_12922.pdf (3.471Mb)
167 S.
Veröffentlichung
2013-11-19
Autoren
Tokic, Michel
Dissertation


Fakultäten
Fakultät für Ingenieurwissenschaften und Informatik
Zusammenfassung
Durch Reinforcement Learning kann intelligentes Verhalten anhand sensomotorischer Interaktion erlernt werden. Die Art und Weise des Lernens ist neurobiologisch und psychologisch motiviert, wobei ein künstlicher Lernagent "Reward" von seiner Umgebung, für den Nutzen getätigter Aktionen, erhält. Hieraus ergibt sich das Lernziel, den kumulierten Reward zu optimieren, was durch eine zielgerichtete Aktionswahl erreicht werden kann. Neben der Wahl von Aktionen, die bereits erworbenes Wissen über die Umgebung ausnutzen (Exploitation), müssen auch Aktionen gewählt werden, die die Dynamik der Umgebung erkunden (Exploration). Gleichzeitig düfen nicht zu viele Explorationsaktionen getätigt werden, um niedrigen Reward durch schlechte Aktionen zu vermeiden; aber auch nicht zu wenige, um das Wissen über die langfristige Auswirkung von Aktionen möglichst präzise abschätzen zu können. Diese Dissertation stellt neue Explorationsstrategien für Reinforcement Learning in diskreten Aktionsräumen vor. Es wird das Ziel verfolgt, die Explorationsrate eines Lernagenten nicht global vom Experimentator festlegen zu lassen, sondern durch "Meta-Learning", auf Basis des Lernfortschritts, zu adaptieren. Hierfür werden zum Einen "Wertunterschiede" als Maß für die "Sicherheit über die Auswirkung von Aktionen" verwendet, die beim Neuschätzen der Wertefunktion entstehen. In einem weiteren Ansatz werden "stochastische Neuronen" eingesetzt, um das Explorationsverhalten nicht nur lokal, sondern auch global steuern zu können. Ebenso werden die technischen Beiträge dieser Arbeiten in den Kontext der Neurobiologie eingeordnet, in welcher die folgenden Neurotransmitter eine wichtige Rolle spielen: Dopamin (TD-Error), Acetylcholin (Lernrate) und Norepinephrin (Explorationsrate). Da das Explorationsverhalten nicht explizit vom Experimentator vorgegeben wird, sondern vom Inneren des Lernagenten heraus ensteht, sind die Ergebnisse dieser Arbeit ein wichtiger Schritt in Richtung vollautonome Systeme.
Erstellung / Fertigstellung
2013
Schlagwörter
[GND]: Bestärkendes Lernen <Künstliche Intelligenz> | Exploration
[LCSH]: Exploitation | Reinforcement learning
[DDC Sachgruppe]: DDC 004 / Data processing & computer science
Lizenz
Standard
https://oparu.uni-ulm.de/xmlui/license_v3

Metadata
Zur Langanzeige

DOI & Zitiervorlage

Nutzen Sie bitte diesen Identifier für Zitate & Links: http://dx.doi.org/10.18725/OPARU-2517

Tokic, Michel (2013): Reinforcement Learning mit adaptiver Steuerung von Exploration und Exploitation. Open Access Repositorium der Universität Ulm und Technischen Hochschule Ulm. Dissertation. http://dx.doi.org/10.18725/OPARU-2517
Verschiedene Zitierstile >



Leitlinien | kiz Service OPARU | Kontakt
Impressum | Datenschutzerklärung
 

 

Erweiterte Suche

Browsen

Gesamter BestandBereiche & SammlungenPersonenInstitutionenPublikationstypUlmer Reihen & ZeitschriftenDDC-SachgruppenEU-Projekte UlmDFG-Projekte UlmWeitere Projekte Ulm

Mein Benutzerkonto

EinloggenRegistrieren

Statistik

Benutzungsstatistik

Leitlinien | kiz Service OPARU | Kontakt
Impressum | Datenschutzerklärung