Fair and faithful processing of referring expressions in English

Gautam, Vagrant

Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-46821

Titel:	Fair and faithful processing of referring expressions in English
VerfasserIn:	Gautam, Vagrant
Sprache:	Englisch
Erscheinungsjahr:	2025
DDC-Sachgruppe:	004 Informatik 400 Sprache, Linguistik 420 Englisch 600 Technik
Dokumenttyp:	Dissertation
Abstract:	Names ("Vagrant"), pronouns ("they") and definite descriptions ("the birder") are examples of referring expressions, linguistic forms that point to referents. The complexity of reference lies in how we can contextually map the same referring expression to different individuals, and the same individual to different referring expressions. Thus, despite recent advances in natural language processing (NLP), faithfully resolving and doing reference still presents a significant challenge for systems that deal exclusively with linguistic form. Beyond denotational meanings, referring expressions can also have gendered and racial connotations, and are therefore widely used to measure social biases and fairness in society and NLP systems. This typically involves several simplifications that hamper valid and ethical fairness research, including the assumption that names map one-to-one to their referents' race and gender, and that the grammatical gender of English pronouns maps one-to-one to their referents' gender. In this thesis, I tackle these issues and make a number of contributions towards fair and faithful computational processing of English referring expressions. First, I provide theoretical arguments informed by other disciplines to critique the validity of using pronouns and names as a proxy for sociodemographic factors such as gender. I empirically show that in the task of coreference resolution, this assumption can misrepresent system performance and bias, with a novel method to measure stereotypical bias in this context. Pivoting to language modelling next, I show that large language models can—in simple settings—frequently overcome stereotypical biases to do pronominal reference correctly just as humans do. Finally, with a controlled evaluation to disentangle true reasoning about reference from shallow repetition of referring expressions, I show that today's large language models are not up to the task of faithful reasoning about reference. The arguments in this thesis are of wide relevance to researchers and practitioners who work on fairness, reasoning, and reference, more broadly. Namen (“Vagrant”), Pronomen (“er”) und eindeutige Beschreibungen (“der Vogelbeobachter”) sind Beispiele für referierende Ausdrücke, sprachliche Formen, die auf Referenten verweisen. Ihre Komplexität liegt darin, dass wir denselben Ausdruck kontextuell auf verschiedene Personen und dieselbe Person auf verschiedene Ausdrücke beziehen können. Trotz der Fortschritte im Bereich Sprachverarbeitung stellt die getreue Auflösung und Ausführung von Referenzen daher immer noch eine große Herausforderung für Systeme dar, die sich ausschließlich mit sprachlichen Formen befassen. Neben denotationalen Bedeutungen können referenzierende Ausdrücke auch soziale Konnotationen haben und werden daher häufig zur Messung sozialer Vorurteile und Fairness verwendet. Dies beinhaltet in der Regel mehrere Vereinfachungen, die eine valide und ethische Fairnessforschung erschweren, darunter die Annahme, dass Namen eins-zu-eins auf die Ethnie und das Geschlecht ihrer Bezugspersonen abgebildet werden und dass das grammatikalische Geschlecht der englischen Pronomen eins-zu-eins auf das Geschlecht ihrer Bezugspersonen abgebildet wird. In dieser Arbeit leiste ich eine Reihe von Beiträgen zu einer fairen und getreuen Verarbeitung von englischen Referenzausdrücken. Zunächst führe ich theoretische Argumente aus anderen Disziplinen an, um die Gültigkeit der Verwendung von Pronomen und Namen als Stellvertreter für soziodemografische Faktoren zu kritisieren. Empirisch zeige ich, dass diese Annahme bei der Aufgabe der Coreference-Resolution die Systemleistung und -verzerrung falsch darstellen kann. In einem nächsten Schritt zeige ich, dass große Sprachmodelle - in einfachen Situationen - häufig stereotype Verzerrungen überwinden können, um pronominalen Verweis korrekt auszuführen, so wie es Menschen tun. Abschließend zeige ich anhand einer kontrollierten Evaluierung, dass die heutigen großen Sprachmodelle nicht in der Lage sind, treffsichere Aussagen über die Referenz zu treffen.
Link zu diesem Datensatz:	urn:nbn:de:bsz:291--ds-468219 hdl:20.500.11880/41260 http://dx.doi.org/10.22028/D291-46821
Erstgutachter:	Klakow, Dietrich Rudinger, Rachel Demberg, Vera
Tag der mündlichen Prüfung:	9-Jan-2026
Datum des Eintrags:	4-Mär-2026
Drittmittel / Förderung:	BMBF (German Federal Ministry of Education and Research) funded SLIK project
Fördernummer:	01IS22015C
Fakultät:	MI - Fakultät für Mathematik und Informatik
Fachrichtung:	MI - Informatik
Professur:	MI - Keiner Professur zugeordnet
Sammlung:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:

Datei	Beschreibung	Größe	Format
thesis-final.pdf	Complete dissertation	1,74 MB	Adobe PDF	Öffnen/Anzeigen

Export: BibTex Statistik anzeigen

Diese Ressource wurde unter folgender Copyright-Bestimmung veröffentlicht: Lizenz von Creative Commons