States, events, and generics: computational modeling of situation entity types

Friedrich, Annemarie Silke

Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-23666

Titel:	States, events, and generics: computational modeling of situation entity types
Alternativtitel:	Zustände, Ereignisse und Generizität: computergestützte Modellierung von Situationstypen
VerfasserIn:	Friedrich, Annemarie Silke
Sprache:	Englisch
Erscheinungsjahr:	2017
Kontrollierte Schlagwörter:	Computerlinguistik Generizität Aktionsart
Freie Schlagwörter:	Aspekt aktionsart aspect generics
DDC-Sachgruppe:	400 Sprache, Linguistik
Dokumenttyp:	Dissertation
Abstract:	This dissertation addresses the computational modeling of situation entity types (Smith, 2003), an inventory of clause types capturing aspectual and semantic distinctions that are relevant for various natural language processing tasks including temporal discourse processing and information extraction. The focus of our work is on automatically identifying the situation entity types STATE, ("John is tall"), EVENT ("John won the race"), GENERALIZING SENTENCE ("John cycles to work") and GENERIC SENTENCE ("Elephants are mammals"). We create a large corpus of texts from a variety of genres and domains, annotating each clause with its situation entity type and with linguistic phenomena that we identify as relevant for distinguishing the types. Specifically, we mark each clause with its lexical aspectual class, which takes the values stative ("be," "know") or dynamic ("run," "win"), and whether the clause is episodic or habitual, i.e., whether it refers to a particular event or whether it generalizes over situations. In addition, we annotate whether a clause's subject is generic or not, i.e., whether it refers to a kind ("dogs") or to a particular individual ("my dog"). Our human annotators achieve substantial agreement for all of these annotation tasks. Based on this corpus, we conduct a detailed corpus-linguistic study of situation entity type distributions and variation in inter-annotator agreement depending on the genre. In the second part of this dissertation, we create computational models for each of the above mentioned classification tasks in a supervised setting, advancing the state-of-the-art in each case. We find a range of syntactic-semantic features including distributional information and corpus-based linguistic indicators to be helpful. Using a sequence labeling method, we are able to leverage discourse information in order to improve the recognition of genericity, which often cannot be decided without taking the sentences in the context into account. We show our models to perform robustly across domains. Our publicly available data set and implementation form the basis for future research on situation entity types and related aspectual phenomena, among others as a preprocessing step into various natural language processing tasks. Die vorliegende Dissertation befasst sich mit der computergestützten Modellierung von Situationstypen (Smith, 2003), einem Inventar von Satz- bzw. Teilsatztypen, das aspektuelle und semantische Unterscheidungen erfasst, die für verschiedene Bereiche der maschinellen Sprachverarbeitung relevant sind. Zu diesen Bereichen zählen beispielsweise die Erkennung von temporalen Diskursrelationen und die Informationsextraktion. Der Fokus dieser Arbeit liegt auf der automatischen Identifikation der Situationstypen Zustand, (STATE, "John ist groß"), Ereignis (EVENT, "John gewann das Rennen"), generalisierender Satz (GENERALIZING SENTENCE, "John fährt mit dem Fahrrad zur Arbeit") und generischer Satz (GENERIC SENTENCE, "Elefanten sind Säugetiere"). Als Grundlage für die Untersuchung wurde ein Korpus von Texten mehrerer Genres und Domänen auf Teilsatzebene manuell mit Situationstypen und weiteren für die Unterscheidung dieser Typen relevanten linguistischen Phänomenen annotiert. Jeder Teilsatz wird mit den Aktionsarten statisch ("sein", "wissen") oder dynamisch ("laufen", "gewinnen") annotiert und als episodisch oder habituell eingestuft, d.h., ob er ein ein bestimmtes Ereignis oder eine Generalisierung über Situationen beschreibt. Außerdem wird für jedes Subjekt annotiert, ob es generisch ist, d.h., ob es auf eine natürliche Gattung ("Hunde") oder auf ein bestimmtes Individuum ("mein Hund") referiert. Bei allen manuellen Annotationsaufgaben wird eine substanzielle Übereinstimmung erreicht. Eine auf diesem Korpus basierende detaillierte korpuslinguistische Studie zeigt genreabhängige Variationen in der Verteilung der Situationstypen und bei der jeweils zwischen den Annotatoren erreichten Übereinstimmung. Der zweite Teil der Arbeit beschreibt die computergestützte Modellierung der oben erwähnten Klassifikationsaufgaben mit Hilfe von überwachten Lernalgorithmen. Bei allen vier Klassifikationsaufgaben verbessern die hier vorgestellten Modelle den jeweiligen Stand der Technik. Dabei zeigt sich, dass eine Auswahl von syntaktisch-semantischen Attributen, unter anderem distributionelle Information und korpusbasierte linguistische Indikatoren, für die Modellierung geeignet ist. Außerdem wird eine Methode zur Annotation von Sequenzen eingesetzt, die Diskursinformation nutzt, um die Genauigkeit bei der Erkennung von generischen Ausdrücken zu verbessern. Dies ist oft -- auch manuell -- nur unter Einbeziehung weiterer Sätze aus dem lokalen Diskurskontext möglich. Die hier vorgestellten Modelle zeigen auch über Genre-Grenzen hinweg eine robuste Performanz. Ein frei verfügbares Datenset und die frei verfügbare Implementierung bieten Ansatzpunkte für weitere Forschung im Bereich von Situationstypen und von verwandten aspektuellen Phänomenen, wie zum Beispiel die Integration in Vorverarbeitungsschritte diverser maschineller Sprachverarbeitungssysteme.
Link zu diesem Datensatz:	urn:nbn:de:bsz:291-scidok-68404 hdl:20.500.11880/23722 http://dx.doi.org/10.22028/D291-23666
Erstgutachter:	Pinkal, Manfred
Tag der mündlichen Prüfung:	24-Feb-2017
Datum des Eintrags:	24-Mai-2017
Fakultät:	P - Philosophische Fakultät
Fachrichtung:	P - Sprachwissenschaft und Sprachtechnologie
Ehemalige Fachrichtung:	bis SS 2016: Fachrichtung 4.7 - Allgemeine Linguistik
Sammlung:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:

Datei	Beschreibung	Größe	Format
scidok_final.pdf		901 kB	Adobe PDF	Öffnen/Anzeigen

Export: BibTex Statistik anzeigen

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.