Methods and tools for summarization of entities and facts in knowledge bases

Tylenda, Tomasz

Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-26620

Titel:	Methods and tools for summarization of entities and facts in knowledge bases
VerfasserIn:	Tylenda, Tomasz
Sprache:	Englisch
Erscheinungsjahr:	2015
Kontrollierte Schlagwörter:	Wissensbanksystem Information Extraction Suchmaschine
Freie Schlagwörter:	snippets semantic search fact spotting information extraction
DDC-Sachgruppe:	004 Informatik
Dokumenttyp:	Dissertation
Abstract:	Knowledge bases have become key assets for search and analytics over large document corpora. They are used in applications ranging from highly specialized tasks in bioinformatics to general purpose search engines. The large amount of structured knowledge they contain calls for effective summarization and ranking methods. The goal of this dissertation is to develop methods for automatic summarization of entities in knowledge bases, which also involves augmenting them with information about the importance of particular facts on entities of interest. We make two main contributions. First, we develop a method to generate a summary of information about an entity using the type information contained in a knowledge base. We call such a summary a semantic snippet. Our method relies on having importance information about types, which is external to the knowledge base. We show that such information can be obtained using human computing methods, such as Amazon Mechanical Turk, or extracted from the edit history of encyclopedic articles in Wikipedia. Our second contribution is linking facts to their occurrences in supplementary documents. Information retrieval on text uses the frequency of terms in a document to judge their importance. Such an approach, while natural, is difficult for facts extracted from text. This is because information extraction is only concerned with finding any occurrence of a fact. To overcome this limitation we propose linking known facts with all their occurrences in a process we call fact spotting. We develop two solutions to this problem and evaluate them on a real world corpus of biographical documents. Wissensbasen zählen zu den wichtigsten Bausteinen für die Suche und Analyse in großen Dokumentkorpora. Sie werden sowohl für hoch spezialisierte Aufgaben der Bioinformatik als auch in Suchmaschinen verwendet. Die große Menge an strukturiertem Wissen, die sie enthalten, fordert effektive Methoden des Zusammenfassens und Ordnens. Das Ziel dieser Arbeit ist es, Methoden für die automatische Zusammenfassung von Entitäten in Wissensbasen zu entwickeln; dies beinhaltet auch die Bestimmung wichtiger Fakten einer Entität. Dazu leistet diese Arbeit zwei Beiträge. Erstens entwickeln wir ein Verfahren zur Zusammenfassung der Informationen über eine Entität unter Verwendung der Typinformationen, die in Wissensbasen zur Verfügung stehen. Wir nennen eine solche Zusammenfassung ein Semantic Snippet. Unser Verfahren benötigt hierfür zusätzliche externe Informationen über die Wichtigkeit von Typen. Wir zeigen, dass solche Informationen durch Methoden des Human Computing, zum Beispiel mit Hilfe von Amazon Mechanical Turk, oder aus der Evolution enzyklopädischer Artikel in Wikipedia gewonnen werden können. Der zweite Beitrag der Arbeit ist eine Methode zur Verknüpfung von Fakten mit ihren Vorkommen in ergänzenden Dokumenten. Bei der Informationsgewinnung aus Texten wird die Häufigkeit der Wörter in einem Dokument verwendet, um ihre Wichtigkeit zu beurteilen. Ein solcher Ansatz erscheint natürlich, ist aber nicht ohne weiteres möglich für den Fall von aus Text extrahierten Fakten. Dies liegt daran, dass die Informationsextraktion auf die Suche nach einem Vorkommen eines Fakts fokussiert ist. Um dieser Einschränkung entgegenzuwirken, schlagen wir einen Prozess vor, der bekannte Fakten mit all ihren Vorkommen verknüpft. Diesen Prozess nennen wir fact spotting. Zwei Methoden für diesen Ansatz werden in der Arbeit entwickelt und auf einem Korpus von biographischen Dokumenten evaluiert.
Link zu diesem Datensatz:	urn:nbn:de:bsz:291-scidok-62630 hdl:20.500.11880/26676 http://dx.doi.org/10.22028/D291-26620
Erstgutachter:	Weikum, Gerhard
Tag der mündlichen Prüfung:	28-Sep-2015
Datum des Eintrags:	5-Okt-2015
Fakultät:	MI - Fakultät für Mathematik und Informatik
Fachrichtung:	MI - Informatik
Sammlung:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:

Datei	Beschreibung	Größe	Format
final_pflichtexemplar.pdf		2,39 MB	Adobe PDF	Öffnen/Anzeigen

Export: BibTex Statistik anzeigen

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.