Discovering and disambiguating named entities in text

Hoffart, Johannes

Please use this identifier to cite or link to this item: doi:10.22028/D291-25418

Title:	Discovering and disambiguating named entities in text
Other Titles:	Erkennung und Disambiguierung von Entitäten in Texten
Author(s):	Hoffart, Johannes
Language:	English
Year of Publication:	2015
SWD key words:	Wissensextraktion Wissensbanksystem Computerlinguistik Sprachverarbeitung Sprachverstehen Informatik Informationssystem Informationsmana
Free key words:	Entitätsdisambiguierung Entitätsverknüpfung Entitätssuche Wissensbasis knowledge base entity disambiguation entity linking semantic search entity search
DDC notations:	004 Computer science, internet
Publikation type:	Dissertation
Abstract:	Discovering entities such as people, organizations, songs, or places in natural language texts is a valuable asset for semantic search, machine translation, and information extraction. A key challenge is the ambiguity of entity names, requiring robust methods to disambiguate names to canonical entities registered in a knowledge base. Additionally, in this dynamic world, new entities are constantly emerging, and disambiguation methods need to cope with the resulting incompleteness of knowledge bases. This dissertation develops methods to discover and disambiguate named entities, thus linking texts to knowledge bases. The first contribution is a robust disambiguation method using a graph algorithm that makes use of the coherence among entities in the input. The second contribution is a novel model to compute the coherence among entities that works especially well for lesser known entities and is applicable to newly emerging entities. The third contribution addresses the discovery of emerging entities by modeling the entities not present in the knowledge base in an explicit manner. Finally, two applications using the developed entity disambiguation methods are presented. Die Erkennung von Entitäten wie Personen, Organisation, Liedern oder Orten in Texten ist ein wichtiger Baustein für semantische Suche, maschinelle Übersetzung und Informationsextraktion. Ein Kernproblem der Erkennung ist die Mehrdeutigkeit aller Eigennamen. Diese erfordert robuste Methoden, um Eigennamen mit den passenden kanonischen Entitäten einer Wissensbasis zu verknüpfen. Zusätzlich müssen Verknüpfungsmethoden in dieser dynamischen, sich stetig wandelnden Welt von unvollständigen Wissensbasen ausgehen, da ständig neue Entitäten entstehen. Diese Dissertation entwickelt Methoden, Eigennamen zu erkennen und mit kanonischen Entitäten zu verknüpfen, und verbindet somit Texte mit Wissensbasen. Der erste Beitrag ist eine robuste Methode zur Verknüpfung von Eigennamen mit Entitäten, die auf einem Graphalgorithmus basiert und sich die Koheränz zwischen Entitäten im Text zu Nutze macht. Der zweite Beitrag ist ein neues Modell, diese Kohärenz zu berechnen, das besonders gut für weniger bekannte und neu entstehende Entitäten funktioniert. Der dritte Beitrag adressiert spezifisch die Erkennung solcher neu entstehenden Entitäten, indem Entitäten, die nicht in der Wissensbasis vorhanden sind, explizit modelliert werden. Der letzte Beitrag besteht aus zwei Anwendungen, welche die in dieser Arbeit entwickelten Methoden zur Erkennung und Verknüpfung von Entitäten als Bestandteil verwenden.
Link to this record:	urn:nbn:de:bsz:291-scidok-60226 hdl:20.500.11880/25474 http://dx.doi.org/10.22028/D291-25418
Advisor:	Weikum, Gerhard
Date of oral examination:	12-Feb-2015
Date of registration:	18-Mar-2015
Faculty:	SE - Sonstige Einrichtungen
Department:	SE - Max-Planck-Institut für Informatik
Collections:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:

File	Description	Size	Format
Thesis_Johannes_Hoffart_final.pdf		11,75 MB	Adobe PDF	View/Open

Export: BibTex