Reinforcement learning from implicit feedback for conversational question answering

Kaiser, Magdalena Theresa

Please use this identifier to cite or link to this item: doi:10.22028/D291-47443

Title:	Reinforcement learning from implicit feedback for conversational question answering
Author(s):	Kaiser, Magdalena Theresa
Language:	English
Year of Publication:	2025
DDC notations:	004 Computer science, internet 600 Technology
Publikation type:	Dissertation
Abstract:	Conversational systems that enable interactions with users in natural language to satisfy their information needs and assist them in completing their tasks have been a long-standing goal. Recent advancements in Machine Learning and Natural Language Processing have enabled the development of such systems. Feedback is essential to continuously improve and adapt these systems to users’ needs. This thesis focuses on Conversational Question Answering (ConvQA), where the task is to provide crisp answers to fact-centric questions, formulated in natural language. ConvQA models are usually trained and evaluated on benchmarks of gold-standard question-answer pairs. Manually judging answer correctness is costly and therefore often not available in real-world scenarios. If available, these judgments are often limited in scope and quality. This thesis studies forms of implicit feedback to effectively train and improve conversational systems from limited amounts of data, making the following contributions: - Learning from implicit user feedback via reformulations: We present CONQUER, a ConvQA model that learns from conversational data without gold-labeled annotations but with access to user feedback using Reinforcement Learning (RL). More precisely, user reformulations are leveraged as an implicit signal that the previous answer was wrong. We train a classifier to detect if two questions are reformulations or express different intents and define rewards based on the reformulation likelihood. CONQUER comes with a conversational dataset augmented with user reformulations, named ConvRef. - Learning from data augmentation guided by performance-based feedback: We present REIGN, an RL framework that generates reformulations in a systematic way, to increase the robustness of models to different surface forms. It judiciously selects the most helpful variants (that achieve high answering performance) as additional training data. REIGN comes with a collection of diverse reformulations for robust evaluation. - Learning from preferences based on delayed system feedback: First, we present PRAISE, a pipeline for ConvQA based on Large Language Models (LLMs) that uses the final answering performance as feedback signal and treats intermediate information, like relevant evidence, as weakly-labeled data. Second, we present SUIT, an iterative training approach for LLM-based task-oriented dialog systems that determines relevant subgoals from final dialog-level signals by contrasting turns in successful and unsuccessful dialogs. The proposed methods learn from implicit and delayed feedback and select data carefully to increase performance and robustness of the underlying conversational models using Reinforcement Learning. Systeme die mit Nutzern in natürlicher Sprache kommunizieren und sie bei ihren Aufgaben unterstützen waren ein lang angestrebtes Ziel. Die Fortschritte im Maschinellen Lernen und in der natürlichen Sprachverarbeitung haben solche Systeme ermöglicht. Feedback ist eine wesentliche Voraussetzung dafür, diese Systeme kontinuierlich zu verbessern und an Nutzerbedürfnisse anzupassen. Diese Dissertation adressiert dialog-basierte Frage-Antwort-Systeme (Conversational Question Answering (ConvQA)), deren Aufgabe es ist, knappe Antworten auf faktenbasierte, natürlich-sprachliche Fragen zu finden. ConvQA-Modelle werden in der Regel auf Datensätzen mit Frage-Antwort-Paaren in Goldstandard-Qualität trainiert und evaluiert. Eine manuelle Beurteilung der Korrektheit von Antworten ist kostenintensiv, und daher in der Realität selten verfügbar. Falls doch, sind Beurteilungen oftmals eingeschränkt hinsichtlich Menge und Qualität. Diese Dissertation beschäftigt sich mit implizitem Feedback als Quelle für das Trainieren und Evaluieren von Dialogsystemen mit geringen Datenmengen, und präsentiert dazu die folgenden Forschungsbeiträge: • Lernen aus impliziten Nutzerbewertungen durch Frageumformulierungen: Wir haben ein Modell für ConvQA namens Conquer entwickelt, welches in der Lage ist mittels Reinforcement Learning (RL), ohne Goldstandard-Annotationen, aus Nutzerfeedback zu lernen. Umformulierungen von Nutzerfragen dienen als implizites Signal dafür, dass die vorherige Antwort des Systems falsch war. Wir trainieren einen Klassifikator, der entscheidet ob eine Frage eine Umformulierung darstellt oder eine neue Frageabsicht, und definieren die entsprechende Belohnung für das mit RL trainierte System. Conquer beinhaltet einen Dialog-Datensatz namens ConvRef, der mit Nutzerumformulierungen angereichert wurde. • Lernen mithilfe von Datenaugmentation aus leistungsbasiertem Feedback: Wir haben ein RL Framework namens Reign entwickelt, welches auf systematische Weise Frageumformulierungen generiert, um die Robustheit von Modellen gegenüber unterschiedlichen Ausdrucksformen zu verbessern. Es wählt die hilfreichsten Varianten (die, die beste Antwortqualität erzielen) als zusätzliche Trainingsdaten aus. Reign beinhaltet eine Sammlung mit diversen Frageumformulierungen für robuste Systemevaluierung. • Lernen aus Präferenzen basiernd auf verzögertem System-Feedback: Zuerst stellen wir Praise vor, eine Pipeline für ConvQA, welche auf großen Sprachmodellen (Large Language Models (LLMs)) basiert. Praise verwendet die Antwortleistung des Systems als Feedbacksignal und behandelt Zwischenergebnisse, wie relevante Textpassagen, als schwach annotierte Daten. Danach stellen wir Suit vor, einen iterativen Trainingsansatz für LLM-basierte, aufgabenorientierte Dialogsysteme. Suit ist in der Lage relevante Teilziele, die während des Dialogs erfüllt wurden, aus dem Feedback am Ende des Dialogs abzuleiten. Die vorgestellten Methoden lernen aus impliziten und verzögertem Feedback und wählen Trainingsdaten sorgfältig aus, um die Leistung und Robustheit der Frage-Antwort-Systeme durch Reinforcement Learning zu verbessern.
Link to this record:	urn:nbn:de:bsz:291--ds-474437 hdl:20.500.11880/41527 http://dx.doi.org/10.22028/D291-47443
Advisor:	Weikum, Gerhard Saha Roy, Rishiraj
Date of oral examination:	4-Feb-2026
Date of registration:	16-Apr-2026
Faculty:	MI - Fakultät für Mathematik und Informatik
Department:	MI - Informatik
Professorship:	MI - Prof. Dr. Gerhard Weikum
Collections:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:

File	Description	Size	Format
PhD_Thesis-Magdalena_Kaiser.pdf		3,5 MB	Adobe PDF	View/Open

Export: BibTex