Abstract | Durch Reinforcement Learning kann intelligentes Verhalten anhand sensomotorischer Interaktion erlernt werden. Die Art und Weise des Lernens ist neurobiologisch und psychologisch motiviert, wobei ein künstlicher Lernagent "Reward" von seiner Umgebung, für den Nutzen getätigter Aktionen, erhält. Hieraus ergibt sich das Lernziel, den kumulierten Reward zu optimieren, was durch eine zielgerichtete Aktionswahl erreicht werden kann. Neben der Wahl von Aktionen, die bereits erworbenes Wissen über die Umgebung ausnutzen (Exploitation), müssen auch Aktionen gewählt werden, die die Dynamik der Umgebung erkunden (Exploration). Gleichzeitig düfen nicht zu viele Explorationsaktionen getätigt werden, um niedrigen Reward durch schlechte Aktionen zu vermeiden; aber auch nicht zu wenige, um das Wissen über die langfristige Auswirkung von Aktionen möglichst präzise abschätzen zu können.
Diese Dissertation stellt neue Explorationsstrategien für Reinforcement Learning in diskreten Aktionsräumen vor. Es wird das Ziel verfolgt, die Explorationsrate eines Lernagenten nicht global vom Experimentator festlegen zu lassen, sondern durch "Meta-Learning", auf Basis des Lernfortschritts, zu adaptieren. Hierfür werden zum Einen "Wertunterschiede" als Maß für die "Sicherheit über die Auswirkung von Aktionen" verwendet, die beim Neuschätzen der Wertefunktion entstehen. In einem weiteren Ansatz werden "stochastische Neuronen" eingesetzt, um das Explorationsverhalten nicht nur lokal, sondern auch global steuern zu können. Ebenso werden die technischen Beiträge dieser Arbeiten in den Kontext der Neurobiologie eingeordnet, in welcher die folgenden Neurotransmitter eine wichtige Rolle spielen: Dopamin (TD-Error), Acetylcholin (Lernrate) und Norepinephrin (Explorationsrate). Da das Explorationsverhalten nicht explizit vom Experimentator vorgegeben wird, sondern vom Inneren des Lernagenten heraus ensteht, sind die Ergebnisse dieser Arbeit ein wichtiger Schritt in Richtung vollautonome Systeme. | dc.description.abstract |