Please use this identifier to cite or link to this item: doi:10.22028/D291-28565
Title: Exploiting referential gaze for uncertainty reduction in situated language processing : an information-theoretic approach
Author(s): Sekicki, Mirjana
Language: English
Year of Publication: 2019
Free key words: situated sentence comprehension
referential gaze
visual cues
visual world paradigm
anticipatory eye movements
cognitive load
index of cognitive activity
verbal restrictions
surprisal
eye tracking
DDC notations: 400 Language, linguistics
Publikation type: Doctoral Thesis
Abstract: A large body of contemporary psycholinguistic research utilizes the information-theoretic notions related to the transmission of information in an attempt to better understand and formalize the regularities of language production and comprehension. The overarching hypothesis is that prediction is a core mechanism underlying language comprehension. Anticipating what is likely to be mentioned next based on the previous context is what is assumed to allow for smooth and effortless communication. The anticipation of linguistic units that fit the current context reduces the uncertainty about the upcoming material, which consequently facilitates the processing of that material, in a typically noisy channel. Situated language processing allows for the integration of not only linguistic but also non-linguistic visual information that contribute to establishing the context, and facilitate the creation of anticipations regarding the upcoming linguistic material. Moreover, noticing that our interlocutor is directing her attention to a certain object, inspires a shift in our visual attention towards the same entity. Since what is relevant for our interlocutor is highly likely to be relevant for us, too, whether simply conversationally, or more importantly, even existentially (Emery, 2000). Hence, following the speaker’s referential gaze cue towards an object relevant for the current conversation has been shown to benefit listeners’ language processing, measured by shorter reaction times on subsequent tasks (e.g., Staudte & Crocker, 2011; Staudte, Crocker, Heloir, & Kipp, 2014; Knoeferle & Kreysa, 2012; Macdonald & Tatler, 2013, 2014). The present thesis aimed to provide an insight into the mechanisms behind this facilitation. We examined the dynamics of combining visual and linguistic information in creating anticipation for a specific object to be mentioned, and the effect this has on language processing. To this end we used a pupillary measure of cognitive load that is robust enough to allow for free eye movements (the Index of Cognitive Activity; Marshall, 2000). This enabled us to measure not only the visual attention during language comprehension, but also the immediately induced cognitive load at various relevant points during the auditory presentation of the linguistic stimulus. Eight experiments were conducted towards addressing our research questions. The initial three experiments established the ICA measurement in the context of our linguistic manipulation. This series of experiments included reading, cognitive load during listening, and the examination of visual attention together with cognitive load in the visual world paradigm (VWP). Subsequently, we conducted five eye tracking experiments in the VWP where the linguistic context was further enriched by a referential gaze cue. All five experiments simultaneously assessed both visual attention and the immediate cognitive load induced at different stages of sentence processing. We manipulated the existence of the referential gaze cue (Exp. 4), the probability of mention of the cued object (Exp. 4, 5), the congruency of the gaze cue and the subsequent referring expression (Exp. 6), as well as the number of cued objects with equal probability of mention (Exp. 7, 8). Finally, we examined whether the gaze cue can take the role of fully disambiguating the target referent (Exp. 8). We quantified the importance of the visual context in language processing, and showed that if a certain object from the visual context has a higher likelihood of mention given the linguistic context, its processing is facilitated, in comparison to the processing of the same sentence without the visual context. Furthermore, our results support the previous findings that the referential gaze cue leads to a shift in visual attention towards the cued object, thereby facilitating language processing. We expanded these findings by showing that it is the processing of the linguistic reference, that is the referent noun, that is facilitated by gaze-following. Importantly, perceiving and following the gaze cue did not prove costly in terms of cognitive effort, unless the cued object did not fit the verb selectional preferences. This is true regardless of the number of objects cued, or the lower likelihood of mention of the cued object. We conclude that listeners strategically use visual information to reduce the referential uncertainty for upcoming nouns but that the visual cues, such as the referential gaze cue, do not underly the same kinds of expectations (and resulting cognitive costs) as linguistic references. We did not find evidence that the gaze cue is processed in a manner comparable to noun processing, rather, it is likely perceived as a relevant piece of information introduced in addition to the linguistic material, in order to aid language processing, but, importantly, not there to substitute it.
Die Psycholinguistik erstrebt die Untersuchung von Vorhersagen, bzw. Wahrscheinlichkeiten mit denen sprachliche Elemente basierend auf linguistischem Kontext verwendet werden um zu erklären, wie ein komplexes Kommunikationsmittel wie Sprache so mühelos verwendet werden kann. Jedes bisherige Element führ dabei dazu die Menge der auszuwählenden folgenden Elemente zu reduzieren. Diese Information wird benutzt um vorherzusagen was wahrscheinlich auf ein aktuelles Element folgen wird. In der gleichen Weise, wird in der situierten (face-to-face) Kommunikation der visuelle Kontext verwendet um zusätzliche Informationen zu erhalten, die die Wahrscheinlichkeit einer konkreten visuell anwesenden Entität mit der Sprache referiert zu werden erhöht. Außerdem werden visuelle Verweise häufig benutzt um die Wahrscheinlichkeit der Nennung einer Entität zu erhöhen. Dabei lösen sie die Ambiguitäten und helfen Missverständnissen vorzubeugen. Flüssige Kommunikation und müheloses Sprachverständnis sind potentiell dadurch möglich, dass wir antizipieren können was wahrscheinlich ist erwähnt zu werden. Das wird erreicht durch die Bewertung von dem was in dem aktuellen Kontext am sinnvollsten wäre. Informationstheoretische Konzepte werden in der Psycholinguistik verwendet um diese Vermutung empirisch zu testen. Zunächst gilt es das Konzept Surprisal (Shannon, 1948; Hale, 2001; Levy, 2008) zu nennen. Dieses hat Korrelationen zwischen Sätze mit Fortseztzungen mit unterschiedlicher Wahrscheinlichkeit gezeigt. Darüber hinaus, wird auch Entropie als Metrik der Schwierigkeit, mit der ein linguistisches Element perzipiert wird vorhersagt, genutzt. Meistens ist in diesem Kontext von entropy reduction die Rede. Dies bedeutet die Reduktion der Ungewissheit über das Erscheinen einer linguistischen Einheit. Die Hypothese der gleichmäßigen Informationsdichte (Uniform Information Density; Jaeger, 2010) versteht dass die optimale Verteilung des Informationsgehalts in einer Sprachquelle nah an der oberen Grenze der Kanalkapazität des Zuhörers liegt – weder zu sehr herausfordernd, noch zu langweilig (Genzel & Charniak, 2002), und mit gleichmäßiger Informationsdichte – ohne großen Unterschiede zwischen linguistische Einheiten. In der Vergangenheit wurde gezeigt, dass die linguistischen und visuellen Kontexte zusammen benutzt werden um den nachfolgenden Inhalt zu antizipieren.Kamide, Altmann und Haywood (2003) fanden, dass die vom Verb stammende Information dazu benutzt wird, die nachfolgenden linguistischen Argumente zu antizipieren. Die Augenbewegungen der Zuhörer zeigten eine aktive Aktualisierung von einer mentalen Repräsentation, basierend sowohl auf sprachlichen als auch visuellen Informationen (Altmann & Mirkovic, 2009; Huettig & Altmann, 2011). In situierter Kommunikation ist es üblich, dass visuelle Verweise, wie z.B. Zeigegesten, benutzt werden um referenzierende Ausdrücke zu disambiguieren (Bangerter, 2004). Hanna und Brennan (2007) zeigten, dass die Blickrichtung des Sprechers ähnlich benutzt werden kann um die temporare Ambiguität zu lösen. Die Autoren haben die Schlussfolgerung gezogen, dass die Blickrichtung eine konversationsbasierte Informationsquelle ist, die aktiv genutzt wird um schnell eine Referenzauflösung zu erwirken. Sprecher schauen ein Objekt 800—1000ms vor dem Referieren an (e.g. Griffin & Bock, 2000; Meyer, Sleiderink, & Levelt, 1998). Dabei zeigt sich der Fokus der Aufmerksamkeit des Sprechers (Emery, 2000; Flom, Lee, & Muir, 2007). Dieser Verweis wird vom Zuhörer verwendet um das linguistische Material leichter zu verarbeiten, weil es hilft die referierenden Ausdrücke zu disambiguieren. Das Folgen der Blickrichtung des Sprechers erleichtert das Sprachverstehen (e.g. Knoeferle & Kreysa, 2012; Macdonald & Tatler, 2013, 2014; Staudte & Crocker, 2011; Staudte et al., 2014). Allerdings sind die Ergebnisse, die zu dieser Schlussfolgerung geführt haben meist behaviorale Daten (Aufgabenausführung, Reaktionszeiten, Fehlerfreiheit, etc.). Im Rahmen der vorliegenden Arbeit, haben wir versucht diese Ergebnisse zu erweitern. Dazu verwenden wir ein Maß des kognitiven Aufwands, das robust genug ist um die simultane Untersuchung freier visueller Aufmerksamkeit, bzw. Augenbewegungen zu erlauben, welches in der Dilation der Pupille widergespiegelt wird. Dieses Maß wird häufig als ICA bezeichnet (the Index of Cognitive Activity; Marshall, 2000). Im Rahmen der vorliegenden Arbeit untersuchen wir die genauen Zeitpunkte zu denen Informationen aus verschiedenen Modalitäten relevant werden, deren Zusammenspiel und Integration. Die offensichtliche Frage ist ob ein visueller Verweis wie der Objekt-gerichtete Blick des Sprechers, in die Satz-Interpretation integriert wird wie ein linguistisches Element. Anders ausgedrückt: Werden visuelle Verweise nur beschränkend verwendet um die Gruppe von möglichen Objekten zu reduzieren (ähnlich einem Verb), bevor eine linguistische Einheit (referierendes Nomen) das Objekt identifiziert; oder versteht man den Verweis als Identifizierung des Zielobjekts (ähnlich einem referierenden Nomen)? Unsere Hypothese war es, dass linguistischer und visueller Kontext sowie visuelle Verweise gemeinsam betrachtet werden und bei der Verteilung der Information mitwirken, sodass visuelle Verweise zu einer gleichmäßigeren Informationsverteilung während eines Satzes beitragen. Wir stellen acht Experimente vor, mit denen wir unsere Forschungsfragen untersucht haben. Um zu überprüfen ob das ICA Maß sensitiv genug ist um die Effekte unserer ix subtilen linguistische Manipulation zu erkennen, führten wir zunächst eine Reihe von Experimenten durch; Ein Lese-Experiment und ein Zuhör-Experiment in denen die kognitive Belastung gemessen wurde (ICA), und schließlich ein Experiment in dem das Visual-World- Paradigma (VWP) verwendet wurde, bei dem neben der kognitiven Belastung auch die visuelle Aufmerksamkeit untersucht wurde. Die restliche fünf Experimente benutzen weiter das Visual-World-Paradigma und untersuchen die Augenbewegungen und die gleichzeitige kognitive Belastung von Versuchspersonen, während diese Sätze in der deutschen Sprache hörten und einen passenden visuellen Kontext betrachteten. Ziel dieser Dissertation war es, drei allgemeine Forschungsfragen zu beantworten. Im Folgenden stellen wir diese Fragen zusammen mit den darauffolgenden Ergebnissen vor. Erstens untersuchten wir ob der Effekt von visuellem Kontext auf die linguistische Verarbeitung mit dem ICA Maß quantifiziert werden kann. Da der visuelle Kontext üblicherweise in situierter Kommunikation dauernd anwesend ist, und während des gesamten Ablaufs eines Satzes integriert werden kann, war unsere Hypothese, dass der visuelle Kontext die kognitive Belastung während der Sprachverarbeitung erhöhen würde. Die visuelle Information wird relevanter zu dem Zeitpunkt, an dem es in Zusammenhang mit linguistischem Material gesetzt wird. Darüber hinaus erwarteten wir, basierend auf der UID Hypothese, dass an den Stellen, an denen der visuelle Kontext relevant wird, eine Erhöhung der kognitiven Belastung zu erwarten ist. Demzufolge sollte auf diese Erhöhung eine Erleichterung folgen, zu dem Zeitpunkt, zu dem der referierende Ausdruck verarbeitet wird, weil die verfügbare relevante Information schon früher inkrementell in Betracht gezogen wurde. Die drei ersten Experimente (Experiment 1–3 genannt) dienten dazu diese Frage zu beantworten. Das gleiche linguistische Material wurde in drei verschiedenen experimentellen Designs untersucht. Es wurde erst gelesen, dann gehört, und schließlich zusammen mit dem relevanten visuellen Kontext präsentiert. Unsere Ergebnisse zeigen, dass die Anwesenheit von einem visuellen Kontext zu erhöhter kognitiver Belastung führt. Außerdem führt sie auch dazu das linguistische Material leichter zu verarbeiten, wenn dieses aufgrund des visuellen Kontextes leichter zu antizipieren ist. Die Augenbewegungen der Probanden waren nach dem Verb auf jene Objekte gerichtet die mögliche Referenten sein könnten. Je weniger passende Objekte es in dem visuellen Kontext gab, desto einfacher war die Sprachverarbeitung des nachfolgenden referierenden Ausdrucks. Zweitens: Nachdem wir gesehen haben, dass ein visueller Kontext inkrementell mit dem linguistischen integriert wird, und dass diese Verknüpfung die Sprachverarbeitung des passenden linguistischen Materials unterstützt, führten wir einen visuellen Verweis ein, nämlich einen referierendes Blickverweis (referential gaze cue). Der Verweis auf das relevante Objekt durch die Blickrichtung ist eng mit der Sprache verbunden. Dadurch ist es auch zu erwarten, dass die Verweise im Prozess der Sprachverstehen integriert sind. Es gibt bereits Hinweise darauf, dass das Folgen der Blickrichtung das Sprachverstehen erleichtern kann, wenn die Blickrichtung auf das Objekt verweist, welches danach sprachlich erwähnt wird. Was unklar bleibt, ist die Art und Weise, auf die diese Erleichterung des Sprachverstehen stattfindet. Daher wollten wir die folgende Frage beantworten: Betrifft der referenzierende visuelle Verweis die kognitive Belastung die notwendig ist für die Verarbeitung der übereinstimmenden linguistischen Referenz? Unsere Hypothese war es das die Blickrichtung zusammen mit dem linguistischen Material dazu führt, dass ein bestimmtes Objekt als Gegenstand des Gespräches, bzw. des Satzes, antizipiert wird. Wenn das der Fall ist, erwarteten wir, dass die sofortige kognitive Belastung die notwendig für die Verarbeitung von referierenden Ausdrücken ist, dabei reduziert wird, weil diese Information schon antizipiert wurde. Demzufolge erwarten wir, wenn die kognitive Belastung auf dem referierenden Nomen durch die Blickrichtung reduziert wird, dass dieser Erleichterung eine entsprechende Erhöhung vorangegangen ist. Präziser erwarteten wir eine höhere kognitive Belastung zu dem Zeitpunkt, zu dem die Blickrichtung des Sprechers zu sehen ist und auf ein relevantes Objekt verweist. Demzufolge, weil das relevante Objekt schon als potentielles Objekt betrachtet ist, sollte die kognitive Belastung auf dem referierenden Nomen entsprechend niedriger werden. Wir adressieren diese Frage auf zwei verschiedene Arten und Weisen. Auf der eine Seite manipulierten wir den visuellen Verweis auf qualitativer Art und Weise. Dazu quantifizierten wir die Rolle der visuellen Verweisen die unterschiedliche Wahrscheinlichkeiten haben in dem gegebenen Gesamtkontext. Auf der anderen Seite manipulierten wir quantitativ die Information, die mit einer Blickrichtung gegeben ist. Wir untersuchten dazu die visuellen Verweise, die die Ungewissheit über den Referenten reduzierten in Bezug auf die Anzahl potentieller Referenten. Drei Experimente (Experiment 4–6 genannt) untersuchten die qualitative Perspektive. Jedes dieser Experimente wurde im VWP durchgeführt wo die visuelle Aufmerksamkeit zusammen mit dem gleichzeitigen kognitiven Aufwand gemessen wird. Die Ergebnisse zeigten, dass der Blickrichtung gefolgt wird, was zu einer Verlagerung der visuellen Aufmerksamkeit führte, egal ob das angeschaute Objekt passend zum linguistischen Kontext war oder der Blick nicht immer zuverlässig war. Dieser Verweis hat folglich die kognitive Belastung, die benötigt wird für die Referenzbearbeitung, beeinflusst, sodass es in einer erleichterten Sprachverarbeitung des referierenden Ausdruckes resultierte. Wenn die Blickrichtung zu einem Objekt hindeutete, das zum linguistischen Kontext passte, war die danach folgende Verarbeitung des referierenden Ausdrückens erleichtert. xi Nachdem Experiment 4 gezeigt hat, dass der Blickverweis auf ein Objekt zu einer Erleichterung der Verarbeitung des linguistischen referierenden Ausdrucks führt, untersuchte Experiment 5 den Blickverweis auf ein Objekt, das nicht zu dem Kontext passt, das aber nachfolgend auch genannt wird. Die Ergebnisse zeigten, dass die Zuhörer nach einer gewissen Zeit verstanden haben, dass der Blick-Verweis, obwohl überraschend und nicht passend, doch zuverlässig ist, und deutet darauf hin welches das Target-Objekt ist. Wenn das Vertrauen hergestellt wurde, sank die kognitive Belastung auf dem Nomen, das auf dieses Objekt referierte. Experiment 6 manipulierte die Kongruenz des Blickverweises mit dem nachkommenden referierenden Nomen. Interessanterweise zeigten die Ergebnisse, dass ein inkongruenter Blick-Verweis nicht erschwerend auf die Referenzverarbeitung wirkte, sondern nur, dass es hilfreich war, wenn der Blickverweis und das Nomen übereingestimmt haben. Darüber hinaus untersuchten wir die direkten Kosten der Perzeption des Blickverweises und seine Verwendung. Die Ergebnisse zeigten, dass es hat keine höhere kognitive Belastung verursacht, wenn der Blickverweis zum linguistischen Kontext passte. Nur wenn das verwiesene Objekt nicht als Objekt des Satzes in Frage käme war es der Fall, dass der Blickverweis eine höhere Belastung verursachte. Dies deutet darauf hin, dass höhere Kosten induziert sind, wenn der visuelle Verweis nicht mit dem vorher etablierten Kontext integriert werden kann. Von der UID Hypothese inspiriert, erwarteten wir eine Distribution der kognitiven Belastung zwischen den linguistischen und visuellen Verweisen. Interessanterweise zeigten alle drei Experimente, dass eine Erleichterung der Verarbeitungslast auf dem referierenden Nomen nicht von einer Erhöhung der Kosten auf dem Blickverweis verbunden ist. Die zwei folgenden Experimente (Experiment 7–8 genannt) nahmen die quantitative Perspektive, nämlich die Kombination von linguistischen und visuellen Verweisen, erlaubten eine schrittweise Reduktion von referenzieller Unsicherheit (referential uncertainty). Anstatt unterschiedlicher Wahrscheinlichkeit der Erwähnung in dem gegebenen Kontext, waren alle präsentierten Konkurrenten gleichmäßig wahrscheinlich, während die Anzahl relevanter Objekte allmählich reduziert wurde. Die referenzielle Unsicherheit wurde in zwei Schritten reduziert: visuell – durch einen Objekt-orientierten Blickverweis, und sprachlich – durch Objektbenennung. Über die beiden Experimente wurde die Reihenfolge der beiden Verweise verändert, sodass es entweder der sprachliche oder der visuelle Verweis war, der die Referenz auflöste. Auf dem ersten der beiden Verweise fanden wir sofortige Verlagerung der visuellen Aufmerksamkeit zu dem relevanten Objekt aufgrund des Blickverweises oder dem referierenden Nomen. Auch wenn dieses Ergebnis zu erwarten war, ist es dennoch relevant für die Bewertung der Art und Weise wie die visuelle Aufmerksamkeit sich auf die kognitive Belastung auswirkt. Der sprachliche oder visuelle Verweis auf eine Menge von Objekten, zu einer Unterteilung der Gruppe der potenziellen Targets war nicht in der kognitiven Belastung reflektiert. Die neue Information motivierte eine Verlagerung der visuellen Aufmerksamkeit zu den relevanten Objekten. Allerdings ist das Betrachten von mehr oder weniger neuerlich relevanter Objekte und das gleichzeitige in der Lage sein die anderen auszuschließen, nicht unterschiedlich aufwändig. Wir behaupten, dass die Ergebnisse mit surprisal zu erklären sind. Das Ausbleiben eines Effekts auf dem ersten Schritt, sowohl auf dem visuellen als auch dem linguistischen Verweis, weist darauf hin, dass keine Antizipation für ein spezifisches Objekt an dieser Stelle gemacht wurde. Der gegebene Kontext hat schließet eine Menge präsentierter Objekten die alle zum Verb gepasst haben. Daher zeigte weder das Sehen visueller Verweise auf eine Gruppe von Objekte, noch das Hören eines Nomen, das darauf referierte einen gradualen Unterschiede relativ zu der Größe der selektierten Gruppe. Diese Ergebnisse untermauern die vorherigen. Auf dem zweiten Verweis, bei dem die Referenz gelöst wird, fanden wir einen gestuften Effekt der kognitiven Belastung auf dem Nomen, relativ zu der Anzahl von direkten Konkurrenten. Das Referieren auf das Target, wenn es das einzige visuell hervorgehobene Objekt war, führte zu geringerer kognitiver Belastung. In dieser Kondition war das Target das wahrscheinlichste Objekt für eine Erwähnung, basierend auf dem vorherigen visuellen Verweis. Je mehr Objekte es in der verwiesenen Gruppe gab, desto niedriger war die Wahrscheinlichkeit, dass ein spezifisches Objekt aus der Gruppe genannt wird. Infolgedessen kann gesagt werden, dass die auf dem Nomen gemessene kognitive Belastung mit der Gruppengröße gesteigert wird. Drittens haben wir versucht die folgende Frage zu beantworten: Ist der referierende Ausdruck erst an dem Zeitpunkt lösbar zu dem man die linguistische Referenz hört, oder kann der visuelle Verweis die Rolle der Referentenidentifikation übernehmen, ähnlich einem Nomen? Die Ergebnisse zeigten, dass es, wenn der visuelle Verweis die Referenz auf dem zweiten Schritt gelöst hat, keine Auswirkung auf die kognitive Belastung gab. Insgesamt lassen unsere Ergebnisse darauf schließen, dass sowohl sprachliche als auch visuelle Informationen Teil der intendierten Nachricht sind, die es zu verstehen gilt. Unsere Ergebnisse deuten darauf hin, dass restriktive Verben dazu benutzt werden den visuellen Kontext zu verstehen, während der referierende Blickverweis das Antizipieren von referierenden Nomen motiviert. Beide Modalitäten werden inkrementell und interagierend genutzt. Wir fanden Effekte von surprisal, speziell das Integrieren von Information in ein Situationsmodel. Je definierter das Model ist, desto größer sind die Effekte. Die Sprache scheint als definitivere und explizitere Informationsquelle als die visuellen Verweise wahrgenommen zu werden. Wir argumentieren, dass dies der Fall ist, weil die Verknüpfung referierender xiii visueller Blickverweise mit der Sprache so stark ist, dass der referierende Blickverweis nicht als ein Substitut für das referierende Nomen gilt, sondern als zusätzliche Kontribution zum besseren Satzverstehen.
Link to this record: urn:nbn:de:bsz:291--ds-285651
hdl:20.500.11880/27881
http://dx.doi.org/10.22028/D291-28565
Advisor: Staudte, Maria
Date of oral examination: 12-Jun-2019
Date of registration: 25-Sep-2019
Faculty: P - Philosophische Fakultät
Department: P - Sprachwissenschaft und Sprachtechnologie
Professorship: 
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
Sekicki_diss_0919.pdfDissertation Sekicki35,35 MBAdobe PDFView/Open


Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.