Please use this identifier to cite or link to this item: doi:10.22028/D291-23666
Title: States, events, and generics: computational modeling of situation entity types
Other Titles: Zustände, Ereignisse und Generizität: computergestützte Modellierung von Situationstypen
Author(s): Friedrich, Annemarie Silke
Language: English
Year of Publication: 2017
SWD key words: Computerlinguistik
Generizität
Aktionsart
Free key words: Aspekt
aktionsart
aspect
generics
DDC notations: 400 Language, linguistics
Publikation type: Dissertation
Abstract: This dissertation addresses the computational modeling of situation entity types (Smith, 2003), an inventory of clause types capturing aspectual and semantic distinctions that are relevant for various natural language processing tasks including temporal discourse processing and information extraction. The focus of our work is on automatically identifying the situation entity types STATE, ("John is tall"), EVENT ("John won the race"), GENERALIZING SENTENCE ("John cycles to work") and GENERIC SENTENCE ("Elephants are mammals"). We create a large corpus of texts from a variety of genres and domains, annotating each clause with its situation entity type and with linguistic phenomena that we identify as relevant for distinguishing the types. Specifically, we mark each clause with its lexical aspectual class, which takes the values stative ("be," "know") or dynamic ("run," "win"), and whether the clause is episodic or habitual, i.e., whether it refers to a particular event or whether it generalizes over situations. In addition, we annotate whether a clause's subject is generic or not, i.e., whether it refers to a kind ("dogs") or to a particular individual ("my dog"). Our human annotators achieve substantial agreement for all of these annotation tasks. Based on this corpus, we conduct a detailed corpus-linguistic study of situation entity type distributions and variation in inter-annotator agreement depending on the genre. In the second part of this dissertation, we create computational models for each of the above mentioned classification tasks in a supervised setting, advancing the state-of-the-art in each case. We find a range of syntactic-semantic features including distributional information and corpus-based linguistic indicators to be helpful. Using a sequence labeling method, we are able to leverage discourse information in order to improve the recognition of genericity, which often cannot be decided without taking the sentences in the context into account. We show our models to perform robustly across domains. Our publicly available data set and implementation form the basis for future research on situation entity types and related aspectual phenomena, among others as a preprocessing step into various natural language processing tasks.
Die vorliegende Dissertation befasst sich mit der computergestützten Modellierung von Situationstypen (Smith, 2003), einem Inventar von Satz- bzw. Teilsatztypen, das aspektuelle und semantische Unterscheidungen erfasst, die für verschiedene Bereiche der maschinellen Sprachverarbeitung relevant sind. Zu diesen Bereichen zählen beispielsweise die Erkennung von temporalen Diskursrelationen und die Informationsextraktion. Der Fokus dieser Arbeit liegt auf der automatischen Identifikation der Situationstypen Zustand, (STATE, "John ist groß"), Ereignis (EVENT, "John gewann das Rennen"), generalisierender Satz (GENERALIZING SENTENCE, "John fährt mit dem Fahrrad zur Arbeit") und generischer Satz (GENERIC SENTENCE, "Elefanten sind Säugetiere"). Als Grundlage für die Untersuchung wurde ein Korpus von Texten mehrerer Genres und Domänen auf Teilsatzebene manuell mit Situationstypen und weiteren für die Unterscheidung dieser Typen relevanten linguistischen Phänomenen annotiert. Jeder Teilsatz wird mit den Aktionsarten statisch ("sein", "wissen") oder dynamisch ("laufen", "gewinnen") annotiert und als episodisch oder habituell eingestuft, d.h., ob er ein ein bestimmtes Ereignis oder eine Generalisierung über Situationen beschreibt. Außerdem wird für jedes Subjekt annotiert, ob es generisch ist, d.h., ob es auf eine natürliche Gattung ("Hunde") oder auf ein bestimmtes Individuum ("mein Hund") referiert. Bei allen manuellen Annotationsaufgaben wird eine substanzielle Übereinstimmung erreicht. Eine auf diesem Korpus basierende detaillierte korpuslinguistische Studie zeigt genreabhängige Variationen in der Verteilung der Situationstypen und bei der jeweils zwischen den Annotatoren erreichten Übereinstimmung. Der zweite Teil der Arbeit beschreibt die computergestützte Modellierung der oben erwähnten Klassifikationsaufgaben mit Hilfe von überwachten Lernalgorithmen. Bei allen vier Klassifikationsaufgaben verbessern die hier vorgestellten Modelle den jeweiligen Stand der Technik. Dabei zeigt sich, dass eine Auswahl von syntaktisch-semantischen Attributen, unter anderem distributionelle Information und korpusbasierte linguistische Indikatoren, für die Modellierung geeignet ist. Außerdem wird eine Methode zur Annotation von Sequenzen eingesetzt, die Diskursinformation nutzt, um die Genauigkeit bei der Erkennung von generischen Ausdrücken zu verbessern. Dies ist oft -- auch manuell -- nur unter Einbeziehung weiterer Sätze aus dem lokalen Diskurskontext möglich. Die hier vorgestellten Modelle zeigen auch über Genre-Grenzen hinweg eine robuste Performanz. Ein frei verfügbares Datenset und die frei verfügbare Implementierung bieten Ansatzpunkte für weitere Forschung im Bereich von Situationstypen und von verwandten aspektuellen Phänomenen, wie zum Beispiel die Integration in Vorverarbeitungsschritte diverser maschineller Sprachverarbeitungssysteme.
Link to this record: urn:nbn:de:bsz:291-scidok-68404
hdl:20.500.11880/23722
http://dx.doi.org/10.22028/D291-23666
Advisor: Pinkal, Manfred
Date of oral examination: 24-Feb-2017
Date of registration: 24-May-2017
Faculty: P - Philosophische Fakultät
Department: P - Sprachwissenschaft und Sprachtechnologie
Former Department: bis SS 2016: Fachrichtung 4.7 - Allgemeine Linguistik
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
scidok_final.pdf901 kBAdobe PDFView/Open


Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.