Please use this identifier to cite or link to this item: doi:10.22028/D291-31309
Title: The immediate influence of speaker gaze on situated speech comprehension : evidence from multiple ERP components
Author(s): Jachmann, Torsten Kai
Language: English
Year of Publication: 2020
DDC notations: 400 Language, linguistics
Publikation type: Doctoral Thesis
Abstract: This thesis presents results from three ERP experiments on the influence of speaker gaze on listeners’ sentence comprehension with focus on the utilization of speaker gaze as part of the communicative signal. The first two experiments investigated whether speaker gaze was utilized in situated communication to form expectations about upcoming referents in an unfolding sentence. Participants were presented with a face performing gaze actions toward three objects surrounding it time aligned to utterances that compared two of the three objects. Participants were asked to judge whether the sentence they heard was true given the provided scene. Gaze cues preceded the naming of the corresponding object by 800ms. The gaze cue preceding the mentioning of the second object was manipulated such that it was either Congruent, Incongruent or Uninformative (Averted toward an empty position in experiment 1 and Mutual (redirected toward the listener) in Experiment 2). The results showed that speaker gaze was used to form expectations about the unfolding sentence indicated by three observed ERP components that index different underlying mechanisms of language comprehension: an increased Phonological Mapping Negativity (PMN) was observed when an unexpected (Incongruent) or unpredictable (Uninformative) phoneme is encountered. The retrieval of a referent’s semantics was indexed by an N400 effect in response to referents following both Incongruent and Uninformative gaze. Additionally, an increased P600 response was present only for preceding Incongruent gaze, indexing the revision process of the mental representation of the situation. The involvement of these mechanisms has been supported by the findings of the third experiment, in which linguistic content was presented to serve as a predictive cue for subsequent speaker gaze. In this experiment the sentence structure enabled participants to anticipate upcoming referents based on the preceding linguistic content. Thus, gaze cues preceding the mentioning of the referent could also be anticipated. The results showed the involvement of the same mechanisms as in the first two experiments on the referent itself, only when preceding gaze was absent. In the presence of object-directed gaze, while there were no longer significant effects on the referent itself, effects of semantic retrieval (N400) and integration with sentence meaning (P3b) were found on the gaze cue. Effects in the P3b (Gaze) and P600 (Referent) time-window further provided support for the presence of a mechanism of monitoring of the mental representation of the situation that subsumes the integration into that representation: A positive deflection was found whenever the communicative signal completed the mental representation such that an evaluation of that representation was possible. Taken together, the results provide support for the view that speaker gaze, in situated communication, is interpreted as part of the communicative signal and incrementally used to inform the mental representation of the situation simultaneously with the linguistic signal and that the mental representation is utilized to generate expectations about upcoming referents in an unfolding utterance.
Diese Arbeit befasst sich mit der Frage, ob und in welchem Maße Zuhörer in situierten, kommunikativen Interaktionen den Blick des Sprechers nutzen, um Erwartungen über Nennungen in einem sich entfaltenden Satz zu formen und diese, gegebenenfalls, zu evaluieren. Die in dieser Arbeit präsentierten Experimente mit Ereigniskorrelierten Potentialen (EKP) wurden mit dem Ziel entworfen, die zugrunde liegenden kognitiven Mechanismen, die in der Verwendung und Integration des Sprecherblicks involviert sind, zu untersuchen. Dem gehen in der Literatur beschriebene behaviorale Daten voraus, die darauf hindeuten, dass kommunikationsrelevante Sprecherblicke das Satzverständnis vereinfachen. Die von den gefunden EKP-Komponenten indizierten Mechanismen wurden in Bezug auf zwei vorgeschlagene Ansätze untersucht, welche die berichteten behavioralen Daten erklären könnten: Unter dem Prominenzansatz wird davon ausgegangen, dass verbessertes oder verschlechtertes Satzverständnis daher rührt, dass der Blick des Sprechers die Aufmerksamkeit des Zuhörers auf eine bestimmte Position oder ein bestimmtes Objekt lenkt. Dabei führt die Nennung von Objekten innerhalb des Fokus der Aufmerksamkeit des Hörers zu einer einfacheren Verarbeitung, wohingegen die Nennung eines Objektes außerhalb des Fokus dazu führt, dass zunächst die Aufmerksamkeit umgelenkt werden muss. Der durch dieses Umlenken herbeigeführte Aufwand führt dann zu erschwertem Satzverständnis. Unter dem situativen Integrationsansatz wird, dem entgegengestellt, davon ausgegangen, dass die Verarbeitung des angeblickten Objekts über den reinen Anstieg seiner Prominenz hinaus geht. Dies beinhaltet sowohl semantisches Retrieval als auch die Integration der Bedeutung in eine mentale Repräsentation der Situation. Es wird davon ausgegangen, dass letzteres eine Erwartung dafür hervorruft, dass das betrachtete Objekt als nächstes genannt wird. Um den Umfang der Verwendung des Sprecherblicks zu untersuchen, wurden drei Experimente entwickelt, in denen Teilnehmern eine Szene, bestehend aus drei unterschiedlich großen oder unterschiedlich hellen Objekten, präsentiert wurde. In der Mitte der Objekte wurde zudem ein stilisiertes Gesicht präsentiert, welches abgestimmt mit einem auditiv präsentierten Satz Augenbewegungen zu den Objekten hin durchführte. Die Sätze stellten Vergleiche zwischen den dargestellten Objekten dar. In den ersten beiden Experimenten waren Sätze wie im folgenden Beispiel strukturiert: "Verglichen mit dem Haus ist das Auto verhältnismäßig klein, denke ich." Der Blick zu dem jeweiligen Objekt ging der Nennung um 800ms voraus (Griffin and Bock, 2000). Während in diesem Satz der linguistische Kontext keine Grundlage bot um Vorhersagen über kommende Nennungen zu treffen, konnte der Sprecherblick potentiell im Voraus genutzt werden, um die folgende Nennung zu antizipieren. Der Blick vor der Nennung des zweiten Objektes im Satz wurde so manipuliert, dass er entweder kongruent auf das nachfolgend genannten Objekt gerichtet wurde, inkongruent auf das Objekt, das im Satz nicht genannt wurde, oder uninformativ entweder zum unteren Rand des Bildschirms, wo kein Objekt abgebildet war (Experiment 1), oder zurück in die Mitte des Bildschirms, zum Zuhörer (Experiment 2). Es wurden drei zugrundeliegende Mechanismen prognostiziert, die bei der Sprachverarbeitung involviert sind: a) ein phonologischer Abgleichmechanismus, der das wahrgenommene Signal mit der erwarteten Wortform abgleicht und im EKP-Signal durch die sogenannte Phonological Mapping Negativity (PMN) Komponente indiziert wird (Connolly and Phillips, 1994; Hagoort and Brown, 2000). b) ein semantischer Retrieval-Mechanismus, der den Abruf der entsprechenden semantische Bedeutung des wahrgenommenen Wortes ausführt, welcher von einer N400-Komponente indiziert wird (Van Berkum, 2009; Kutas and Federmeier, 2011). c) ein Integrationsmechanismus, der das wahrgenommene Signal inkrementell nutzt, um die mentale Repräsentation der Situation zu informieren. Dieser Mechanismus wird durch die P600-Komponente indiziert (Burkhardt, 2007; Brouwer et al., 2017). Unter dem Prominenzansatz wurden in erster Linie Effekte des semantischen Retrieval-Mechanismus erwartet, da der Zugriff auf die semantische Bedeutung eines Wortes außerhalb des Fokus der Aufmerksamkeit erschwert ist. Gleichzeitig wurden keine Effekte des phonologischen Abgleichmechanismus und des Integrationsmechanismus erwartet, da beide Mechanismen voraussetzen, dass Erwartungen über den Verlauf des Satzes geformt wurden. Im Detail benötigt der phonetische Abgleichmechanismus die Antizipation einer bestimmte Wortform, wobei der Integrationsmechanismus nur dann gehemmt sein sollte, wenn die Integration der Wortbedeutung erschwert wird, da eine andere Bedeutung bereits in der mentalen Repräsentation vorhanden ist. Wenn der Sprecherblick folglich lediglich den Fokus der Aufmerksamkeit lenkt, würde dies nicht zu den für diese Mechanismen notwendigen Erwartungen führen. Unter dem situativen Integrationsansatz hingegen wird angenommen, dass der Sprecherblick als Teil des kommunikativen Signals verstanden wird und semantisches Retrieval so wie Integration bereits vor der Nennung des angeblickten Objektes stattfinden. Darauf basierend wurden neben Effekten des semantischen Retrieval-Mechanismus auch Effekte des phonologischen Abgleichmechanismus sowie des Integrationsmechanismus erwartet. Dies bedeutet, dass die erwartete Wortform basierend auf dem Sprecherblick mit dem wahrgenommenen Signal abgeglichen wird und, wenn diese nicht übereinstimmen, zu einem Anstieg in der Reaktion der PMN-Komponente führen. Gleichermaßen wurde ein Anstieg in der Reaktion der P600-Komponente erwartet, wenn die zu integrierende Bedeutung nicht mit der bereits in der mentalen Repräsentation der Situation übereinstimmt und dadurch zu einer Revision der Repräsentation führt. Die Ergebnisse der ersten beiden Experimente zeigen, dass der Sprecherblick genutzt wird, um Erwartungen an den bevorstehenden Referenten zu formulieren, was für den situativen Integrationsansatz spricht. Eine nur für kongruenten Blick abgeschwächte PMN-Reaktion vor dem N400-Zeitfenster deutet darauf hin, dass Erwartungen nicht nur auf konzeptioneller Ebene, sondern auch über die konkrete lexikalische Form gebildet werden, wenn ein einzelnes Objekt hervorgehoben wird. Ein N400-Effekt, wenn der Blick uninformativ oder irreführend ist, deutete auf erhöhte Kosten für das semantische Retrieval hin. Darüber hinaus wurde, wie unter dem situativen Integrationsansatz angenommen, eine erhöhte P600-Reaktion nur für die inkongruente Kondition gefunden, was mit der zuvor genannten Interpretation übereinstimmt. Das zweite Experiment liefert zusätzliche Unterstützung für die Unterscheidung der PMN und N400 als unterschiedliche Komponenten. Während der gegenseitige Blick, der in Experiment 2 als die uninformative Kondition diente, einen PMN-Effekt hervorrief, wurde kein signifikanter Unterschied im N400-Zeitfenster zwischen der uminformativen und kongruenten Kondition festgestellt. Diese Ergebnisse weisen auch auf ein starkes Zusammenspiel dieser beiden Komponenten hin. Die relativ kurzlebige N400 (300 – 450ms) nach der PMN zeigt an, dass das Retrieval der Wortbedeutung von dem phonologischen Abgleich profitiert, der durch die PMN indiziert wird. Diese Annahme ist in Übereinstimmung mit Funden von Hagoort and Brown (2000), wo der PMN der Ausdruck eines lexikalischen Auswahlprozesses zugeschrieben wurde. Es könnte argumentiert werden, dass einige Eigenschaften des Referenten in diesem früheren phonologischen Stadium abgerufen werden können, was den Mechanismus des semantischen Retrievals erleichtert. Daher kann man spekulieren, dass die Anwesenheit und Abwesenheit eines PMN-Effekts einen Einfluss auf die Stärke der N400 haben könnte. Dies erfordert jedoch weitere Untersuchungen. Im Zeitfenster der P600 deuten die Ergebnisse darauf hin, dass die visuelle Szene und das Sprachsignal sowie der Blick des Sprechers verwendet werden, um eine mentale Repräsentation der Situation zu konstruieren. Dies ist im Einklang mit der Ansicht, dass Zuhörer den Sprecherblick so interpretieren, dass er Teil des kommunikativen Signals ist und Referenzabsichten ausdrückt (Staudte and Crocker, 2011). In den hier vorgestellten Experimenten lieferte die erste Blickbewegung in jeder experimentellen Kondition einen korrekten Hinweis auf den bevorstehenden Referenten. Im Falle eines nachfolgenden inkongruenten Blicks wurden die Teilnehmer zu dem Glauben veranlasst, dass das betrachtete Objekt tatsächlich nachfolgend genannt würde, wodurch die verbleibenden Objekte in der Szene als wahrscheinliche Referenten eliminiert wurden. Die folgende Nennung wiederum zwang den Teilnehmer, die Repräsentation so zu revidieren, dass der gemeinte Referent nicht derjenige war, der angeschaut wurde, sondern der tatsächlich genannte. Diese grundlegende Aktualisierung der situativen Repräsentation spiegelt sich dann in einer P600-Modulation wider, welche die (Re-)Integrationsschwierigkeit darstellt. Ein solcher Unterschied wird in den uninformativen (nicht objektorientierten) Bedingungen nicht induziert, da beide möglichen Referenten — die beiden noch nicht genannten Objekte — gleichermaßen wahrscheinlich sind und daher keine Überarbeitung der Repräsentation erforderlich ist. Während die erhöhte Reaktion im N400-Zeitfenster sowohl für die inkongruenten als auch für die uninformativen Bedingungen unter dem Prominenzansatz wie auch dem situativen Integrationsansatz vorausgesagt wird, wurde die nur in der inkongruenten Bedingung beobachtete erhöhte P600-Reaktion allein durch den situativen Integrationsansatz vorhergesagt. Während die ersten beiden Experimente untersuchten wie Sprecherblick verwendet wird, um linguistische Elemente des kommunikativen Signals zu antizipieren, wurde sich in Experiment 3 der Frage gewidmet, ob linguistische Elemente des kommunikativen Signals auch zur Antizipation von subsequenten Blickbewegungen genutzt werden und wie diese sich auf eine folgende Nennung des betrachteten Objekts auswirkt. Zu diesem Zweck wurden die den Teilnehmern präsentierten Sätze angepasst, während die visuellen Stimuli gleich blieben. Wie in dem Beispielsatz "Das Auto ist kleiner als das abgebildete Haus, denke ich" zu erkennen ist, können bereits nach dem Hören des Komparativs Erwartungen über den folgenden Referenten des Satzes geformt werden, respektive der drei unterschiedlich großen, dargestellten Objekte. Der Sprecherblick wurde so manipuliert, dass er entweder auf das nachfolgend genannte Objekt, oder das im Satz nicht erwähnte Objekt gerichtet wurde oder uninformativ in die Mitte des Bildschirms, zum Zuhörer. Die Ergebnisse dieses Experiments zeigten, dass der Blick des Sprechers genutzt wurde, um Erwartungen basierend auf dem linguistischen Kontext zu validieren. Dies drückte sich durch einen N400 und P3b-Effekt in Reaktion auf den Sprecherblick aus, welcher der Nennung eines Referenten voraus ging. Eine PMN-Komponente wurde in Reaktion auf den Sprecherblick nicht gefunden oder erwartet, da kein phonologischer Abgleich stattfinden kann. Der N400-Effekt wurde erneut in Zusammenhang mit semantischem Retrieval interpretiert, wohingegen die P3b-Komponente in Relation mit der Integration in eine mentale Repräsentation der Situation interpretiert wurde (Donchin, 1981) und damit stark der vorherigen Interpretation der P600 ähnelt. Dies ist auch in Übereinstimmung mit der P600-as-P3 Hypothese (z.B. Sassenhagen et al. (2014)). Zusätzliche Unterstützung für diese Interpretation der P3b in der Region des Sprecherblicks fand sich auch in der nachfolgenden Region der Objektnennung. Nur wenn der Blick des Sprechers uninformativ war, waren ähnliche Effekte wie in den vorangegangenen Experimenten in Reaktion zur Nennung der Objekte (PMN, N400 und P600) vorhanden. Die Anwesenheit von Effekten in Reaktion auf die Objektnennung ausschlieSSlich wenn der Sprecherblick zuvor uninformativ war, lässt darauf schließen, dass der Blick des Sprechers tatsächlich als vollwertiges Element des kommunikativen Signals verstanden wird, so dass Erwartungen über Nennungen von visuellen sowie linguistischen Elementen gleichermaßen sowohl aufgebaut wie auch validiert werden. Wäre dies nicht der Fall, sollten unabhängig von den Effekten auf dem Sprecherblick auch Effekte auf der Nennung der Objekte gefunden werden. Über diese Funde hinaus, wiesen die Ergebnisse von Experiment 3 auch auf eine weitere Funktion der P600-Komponente hin: In den ersten beiden Experimenten tauchte eine erhöhte P600-Reaktion nur in Verbindung mit widersprüchlichen Informationen auf, welche die Revision der mentalen Repräsentation der Situation erforderten. In Experiment 3 tauchte eine Positivierung immer dann auf, wenn das aktuelle Element des kommunikativen Signals die Repräsentation vervollständigte. Basierend auf der Satzstruktur, wie sie in Experiment 3 präsentiert wurde, führte die Identifizierung des zweiten Objektes auch zu einem evaluierbaren Zustand der mentalen Repräsentation der Situation; beide zu vergleichenden Objekte wie auch der Komparativ sind an diesem Punkt bekannt, wodurch Teilnehmer eine Interpretation des Satzes, wie auch eine Reaktion auf diese Information formulieren können (in diesem Fall die Entscheidung ob der Satz wahr oder falsch war). Dies lässt darauf schließen, dass die P600, sowie auch die P3b, nicht nur die Überarbeitung der mentalen Repräsentation indizieren, sondern auch deren Evaluierung. Dies legt die Interpretation eines Monitoring-Mechanismus nahe, was auch mit der LC/NE-P3 Interpretation (z.B. Sassenhagen et al. (2014)) übereinstimmt. Dieser Monitoring-Mechanismus überwacht dauerhaft den aktuellen Zustand der mentalen Repräsentation und führt zu dessen Auswertung sobald dies möglich ist. Dieser Auswertungsprozess drückt sich im Signal dann durch eine Positivierung aus. Basierend auf dieser Interpretation ist auch anzunehmen, dass die Evaluation der Repräsentation deren Überarbeitung subsumiert, so dass eine Positivierung in beiden Fällen zu erwarten ist. Die experimentellen Ergebnisse dieser Dissertation präsentierte Evidenzen für eine gleichwertige Verwendung von Sprecherblick und linguistischem Inhalt in ihrer Rolle, die mentale Repräsentation einer Situation zu informieren. Dies ist Evidenz für den vorgeschlagenen situativen Integrationsansatz und zeigt auf, dass Sprecherblick, wie vorgeschlagen, als Teil des kommunikativen Signals verstanden wird. Darüber hinaus wurden Evidenzen für eine inkrementell aufgebaute, mentale Repräsentation der Situation, die dynamisch von unterschiedlichen Informationsquellen beeinflusst wird (wie zum Beispiel Sprecherblick und linguistischem Satzinhalt), herausgearbeitet. Basierend auf den Ergebissen kann für einen Modellansatz argumentiert werden, in dem der bisherige Kontext in einer mentalen Repräsentation der Situation zu jedem Zeitpunkt abgebildet ist. Der aktuelle Zustand dieser Repräsentation wird verwendet um Erwartungen über kommende Elemente des kommunikativen Signals zu formen. Diese Erwartungen werden zum einen verwendet, um eine erweiterte Repräsentation zu formen, und gleichzeitig mit dem nächsten Element des kommunikativen Signals verglichen. Basierend auf der Art des Signals sind verschiedene kognitive Mechanismen in diesem Abgleich involviert: Im Falle eines auditiven Signals wird das erste Phonem des gehörten Wortes mit dem (basierend auf den Erwartungen) antizipierten Phonem abgeglichen. Im Falle einer Übereinstimmung führt dies zu einer reduzierten PMN-Amplitude, wohingegen anderenfalls eine erhöhte PMN-Amplitude in Relation zum Informationsgehalt des Phonems auftritt. Dabei gelten erwartete Phoneme als wenig informativ, da sie keine neue/nicht erwartete Information beinhalten, wohingegen unerwartete (inkongruent) oder nicht erwartbare (uninformativ) Phoneme einen höherene Informationsgehalt haben, da sie für die Selektion des korrekten Referenten notwending sind. Der Output dieses Mechanismus wird dann an den semantischen Retrieval-Mechanismus weitergereicht. Dieser Mechanismus ist involviert, unabhängig von der Art des Elements (visuell oder linguistisch). Der Retrieval-Mechanismus gleicht den semantischen Inhalt des aktuellen Elements mit dem bereits basierend auf den Erwartungen antizipierten semantischen Inhalt ab, wobei eine Übereinstimmung wieder zu einer reduzierten Reaktion der N400 führt, wohingegen bei Nichtübereinstimmung der semantische Inhalt des neuen Elements abgerufen werden muss, was sich durch eine erhöhte N400-Reaktion darstellt. Schlussendlich überprüft der Monitoring-Mechanismus ob das neue Element des kommunikativen Signals die mentale Repräsentation vervollständigt, sodass die kommunizierte Botschaft verstanden werden kann. Sollte dies der Fall sein, drückt eine erhöhte Postivierung die Evaluation der Repräsentation aus. Sollte hingegen noch keine vollständige Repräsentation erreicht sein, wird das Element in die Repräsentation eingebettet. Dies führt dann zu einer erhöhten Positivierung, wenn die erweiterte Repräsentation überarbeitet werden muss, da das Element nicht den Erwartungen entsprach, was dann zu einer überarbeiteten Repräsentation führt. In beiden Fällen wird die erweiterte/überarbeitete Repräsentation der Situation verwendet, um neue Erwartungen für folgende Elemente zu generieren, die wiederum mit dem nächsten Element des kommunikativen Signals verglichen werden, bis eine vollständige Repräsentation erreicht ist.
Link to this record: urn:nbn:de:bsz:291--ds-313090
hdl:20.500.11880/29414
http://dx.doi.org/10.22028/D291-31309
Advisor: Crocker, Matthew W.
Date of oral examination: 24-Jun-2020
Date of registration: 13-Jul-2020
Third-party funds sponsorship: This work was supported by the Cluster of Excellence Multimodal Computing and Interaction and SFB/CRC 1102 Information Density and Linguistic Encoding, funded by the Deutsche Forschungsgemeinschaft (DFG).
Sponsorship ID: 232722074
Faculty: P - Philosophische Fakultät
Department: P - Sprachwissenschaft und Sprachtechnologie
Professorship: P - Prof. Dr. Matthew W. Crocker
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
DissertationJachmann.pdfDissertation (main document)3,53 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons