Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-45921
Titel: Robustness of large language models in moral judgements
VerfasserIn: Oh, Soyoung
Demberg, Vera
Sprache: Englisch
Titel: Royal Society Open Science
Bandnummer: 12
Heft: 4
Verlag/Plattform: The Royal Society
Erscheinungsjahr: 2025
Freie Schlagwörter: large language model
moral reasoning
robustness
DDC-Sachgruppe: 400 Sprache, Linguistik
Dokumenttyp: Journalartikel / Zeitschriftenartikel
Abstract: With the advent of large language models (LLMs), there has been a growing interest in analysing the preferences encoded in LLMs in the context of morality. Recent work has tested LLMs on various moral judgement tasks and drawn conclu sions regarding the alignment between LLMs and humans. The present contribution critically assesses the validity of the method and results employed in previous work for eliciting moral judgements from LLMs. We find that previous results are confounded by biases in the presentation of the options in moral judgement tasks and that LLM responses are highly sensitive to prompt formulation variants as simple as changing ‘Case 1’ and ‘Case 2’ to ‘(A)’ and ‘(B)’. Our results hence indi cate that previous conclusions on moral judgements of LLMs cannot be upheld. We make recommendations for more sound methodological setups for future studies.
DOI der Erstveröffentlichung: 10.1098/rsos.241229
URL der Erstveröffentlichung: https://doi.org/10.1098/rsos.241229
Link zu diesem Datensatz: urn:nbn:de:bsz:291--ds-459215
hdl:20.500.11880/40296
http://dx.doi.org/10.22028/D291-45921
ISSN: 2054-5703
Datum des Eintrags: 28-Jul-2025
Fakultät: P - Philosophische Fakultät
Fachrichtung: P - Sprachwissenschaft und Sprachtechnologie
Professur: P - Keiner Professur zugeordnet
Sammlung:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:
Datei Beschreibung GrößeFormat 
oh-demberg-robustness-of-large-language-models-in-moral-judgements.pdf2,21 MBAdobe PDFÖffnen/Anzeigen


Diese Ressource wurde unter folgender Copyright-Bestimmung veröffentlicht: Lizenz von Creative Commons Creative Commons