Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen:
doi:10.22028/D291-45005
Titel: | Reward design for reinforcement learning agents |
VerfasserIn: | Devidze, Rati |
Sprache: | Englisch |
Erscheinungsjahr: | 2024 |
Kontrollierte Schlagwörter: | Reinforcement Learning, Reward Design, Reward Shaping |
DDC-Sachgruppe: | 004 Informatik 500 Naturwissenschaften |
Dokumenttyp: | Dissertation |
Abstract: | Reward functions are central in reinforcement learning (RL), guiding agents towards optimal decision-making. The complexity of RL tasks requires meticulously designed reward functions that effectively drive learning while avoiding unintended consequences. Effective reward design aims to provide signals that accelerate the agent’s convergence to optimal behavior. Crafting rewards that align with task objectives, foster desired behaviors, and prevent undesirable actions is inherently challenging. This thesis delves into the critical role of reward signals in RL, highlighting their impact on the agent’s behavior and learning dynamics and addressing challenges such as delayed, ambiguous, or intricate rewards. In this thesis work, we tackle different aspects of reward shaping. Belohnungsfunktionen sind beim Reinforcement Learning (RL) von zentraler Bedeutung, da sie Agenten zu optimalen Entscheidungen führen. Die Komplexität von RLAufgaben erfordert sorgfältig entworfene Belohnungsfunktionen, die das Lernen effektiv vorantreiben und gleichzeitig unbeabsichtigte Konsequenzen vermeiden. Effektives Belohnungsdesign zielt darauf ab, Signale zu liefern, die die Konvergenz des Agenten zu optimalem Verhalten beschleunigen. Die Gestaltung von Belohnungen, die mit den Zielen der Aufgabe übereinstimmen, erwünschte Verhaltensweisen fördern und unerwünschte Handlungen verhindern, ist von Natur aus eine Herausforderung. Diese Arbeit befasst sich mit der kritischen Rolle von Belohnungssignalen in RL, wobei ihre Auswirkungen auf das Verhalten und die Lerndynamik des Agenten hervorgehoben werden und Herausforderungen wie verzögerte, mehrdeutige oder komplizierte Belohnungen behandelt werden. In dieser Arbeit befassen wir uns mit verschiedenen Aspekten der Gestaltung von Belohnungen. Zunächst befassen wir uns mit dem Problem der Gestaltung informativer und interpretierbarer Belohnungssignale aus der Perspektive des Lehrers/Experten (teacher-driven). Hier entwirft der Experte, ausgestattet mit der optimalen Strategie und der entsprechenden Wertfunktion ausgestattet, Belohnungssignale die die Konvergenz des Agenten zum optimalen Verhalten beschleunigen. Zweitens: Wir bauen auf diesem auf diesem lehrergesteuerten Ansatz auf, indem wir eine neuartige Methode zur adaptiven, interpretierbaren Gestaltung. In diesem Szenario passt der Experte die Belohnungen an die aktuelle Strategie des Lernenden an und sorgt für eine Anpassung und optimale Progression. Drittens schlagen wir einen Meta-Lernansatz vor einen Meta-Learning-Ansatz vor, der es dem Agenten ermöglicht, seine Belohnungssignale online selbst zu gestalten, ohne dass ein Experte (agent-driven). Diese selbstgesteuerte Methode berücksichtigt das Lernen und Erforschen des Agenten um eine sich selbst verbessernde Feedbackschleife zu etablieren. |
Link zu diesem Datensatz: | urn:nbn:de:bsz:291--ds-450056 hdl:20.500.11880/39965 http://dx.doi.org/10.22028/D291-45005 |
Erstgutachter: | Singla, Adish |
Tag der mündlichen Prüfung: | 20-Mär-2025 |
Datum des Eintrags: | 30-Apr-2025 |
Fakultät: | MI - Fakultät für Mathematik und Informatik |
Fachrichtung: | MI - Informatik |
Professur: | MI - Keiner Professur zugeordnet |
Sammlung: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Dateien zu diesem Datensatz:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
thesis_rati_devidze.pdf | 2,43 MB | Adobe PDF | Öffnen/Anzeigen |
Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.