Please use this identifier to cite or link to this item: doi:10.22028/D291-25418
Title: Discovering and disambiguating named entities in text
Other Titles: Erkennung und Disambiguierung von Entitäten in Texten
Author(s): Hoffart, Johannes
Language: English
Year of Publication: 2015
SWD key words: Wissensextraktion
Wissensbanksystem
Computerlinguistik
Sprachverarbeitung
Sprachverstehen
Informatik
Informationssystem
Informationsmana
Free key words: Entitätsdisambiguierung
Entitätsverknüpfung
Entitätssuche
Wissensbasis
knowledge base
entity disambiguation
entity linking
semantic search
entity search
DDC notations: 004 Computer science, internet
Publikation type: Doctoral Thesis
Abstract: Discovering entities such as people, organizations, songs, or places in natural language texts is a valuable asset for semantic search, machine translation, and information extraction. A key challenge is the ambiguity of entity names, requiring robust methods to disambiguate names to canonical entities registered in a knowledge base. Additionally, in this dynamic world, new entities are constantly emerging, and disambiguation methods need to cope with the resulting incompleteness of knowledge bases. This dissertation develops methods to discover and disambiguate named entities, thus linking texts to knowledge bases. The first contribution is a robust disambiguation method using a graph algorithm that makes use of the coherence among entities in the input. The second contribution is a novel model to compute the coherence among entities that works especially well for lesser known entities and is applicable to newly emerging entities. The third contribution addresses the discovery of emerging entities by modeling the entities not present in the knowledge base in an explicit manner. Finally, two applications using the developed entity disambiguation methods are presented.
Die Erkennung von Entitäten wie Personen, Organisation, Liedern oder Orten in Texten ist ein wichtiger Baustein für semantische Suche, maschinelle Übersetzung und Informationsextraktion. Ein Kernproblem der Erkennung ist die Mehrdeutigkeit aller Eigennamen. Diese erfordert robuste Methoden, um Eigennamen mit den passenden kanonischen Entitäten einer Wissensbasis zu verknüpfen. Zusätzlich müssen Verknüpfungsmethoden in dieser dynamischen, sich stetig wandelnden Welt von unvollständigen Wissensbasen ausgehen, da ständig neue Entitäten entstehen. Diese Dissertation entwickelt Methoden, Eigennamen zu erkennen und mit kanonischen Entitäten zu verknüpfen, und verbindet somit Texte mit Wissensbasen. Der erste Beitrag ist eine robuste Methode zur Verknüpfung von Eigennamen mit Entitäten, die auf einem Graphalgorithmus basiert und sich die Koheränz zwischen Entitäten im Text zu Nutze macht. Der zweite Beitrag ist ein neues Modell, diese Kohärenz zu berechnen, das besonders gut für weniger bekannte und neu entstehende Entitäten funktioniert. Der dritte Beitrag adressiert spezifisch die Erkennung solcher neu entstehenden Entitäten, indem Entitäten, die nicht in der Wissensbasis vorhanden sind, explizit modelliert werden. Der letzte Beitrag besteht aus zwei Anwendungen, welche die in dieser Arbeit entwickelten Methoden zur Erkennung und Verknüpfung von Entitäten als Bestandteil verwenden.
Link to this record: urn:nbn:de:bsz:291-scidok-60226
hdl:20.500.11880/25474
http://dx.doi.org/10.22028/D291-25418
Advisor: Weikum, Gerhard
Date of oral examination: 12-Feb-2015
Date of registration: 18-Mar-2015
Faculty: SE - Sonstige Einrichtungen
Department: SE - Max-Planck-Institut für Informatik
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
Thesis_Johannes_Hoffart_final.pdf11,75 MBAdobe PDFView/Open


Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.