Please use this identifier to cite or link to this item: doi:10.22028/D291-27968
Title: Question answering over knowledge bases with continuous learning
Author(s): Abujabal, Abdalghani
Language: English
Year of Publication: 2019
Free key words: question answering
knowledge graphs
named entity recognition
DDC notations: 004 Computer science, internet
Publikation type: Doctoral Thesis
Abstract: Answering complex natural language questions with crisp answers is crucial towards satisfying the information needs of advanced users. With the rapid growth of knowledge bases (KBs) such as Yago and Freebase, this goal has become attainable by translating questions into formal queries like SPARQL queries. Such queries can then be evaluated over knowledge bases to retrieve crisp answers. To this end, three research issues arise: (i) how to develop methods that are robust to lexical and syntactic variations in questions and can handle complex questions, (ii) how to design and curate datasets to advance research in question answering, and (iii) how to efficiently identify named entities in questions. In this dissertation, we make the following five contributions in the areas of question answering (QA) and named entity recognition (NER). For issue (i), we make the following contributions: We present QUINT, an approach for answering natural language questions over knowledge bases using automatically learned templates. Templates are an important asset for QA over KBs, simplifying the semantic parsing of input questions and generating formal queries for interpretable answers. QUINT is capable of answering both simple and compositional questions. We introduce NEQA, a framework for continuous learning for QA over KBs. NEQA starts with a small seed of training examples in the form of question-answer pairs, and improves its performance over time. NEQA combines both syntax, through template-based answering, and semantics, via a semantic similarity function. %when templates fail to do so. Moreover, it adapts to the language used after deployment by periodically retraining its underlying models. For issues (i) and (ii), we present TEQUILA, a framework for answering complex questions with explicit and implicit temporal conditions over KBs. TEQUILA is built on a rule-based framework that detects and decomposes temporal questions into simpler sub-questions that can be answered by standard KB-QA systems. TEQUILA reconciles the results of sub-questions into final answers. TEQUILA is accompanied with a dataset called TempQuestions, which consists of 1,271 temporal questions with gold-standard answers over Freebase. This collection is derived by judiciously selecting time-related questions from existing QA datasets. For issue (ii), we publish ComQA, a large-scale manually-curated dataset for QA. ComQA contains questions that represent real information needs and exhibit a wide range of difficulties such as the need for temporal reasoning, comparison, and compositionality. ComQA contains paraphrase clusters of semantically-equivalent questions that can be exploited by QA systems. We harness a combination of community question-answering platforms and crowdsourcing to construct the ComQA dataset. For issue (iii), we introduce a neural network model based on subword units for named entity recognition. The model learns word representations using a combination of characters, bytes and phonemes. While achieving comparable performance with word-level based models, our model has an order-of-magnitude smaller vocabulary size and lower memory requirements, and it handles out-of-vocabulary words.
Die Beantwortung komplexer natürlich-sprachlicher Fragen mit treffenden Antworten ist ein wichtiger Schritt Richtung Informationsbedürfnisse fortgeschrittener Benutzer zu erfüllen. Dieses Ziel ist durch das rapide Anwachsen von Wissensbanken (WB), wie Yago und Freebase, in erreichbare Nähe gerückt, indem Fragen in formale Anfrage, wie zum Beispiel SPARQL Anfragen, übersetzt werden. Solche Anfragen werden dann mittels einer Wissensbank ausgewertet um Antworten zu erhalten. In diesem Zusammenhang ergeben sich drei Forschungsprobleme: (i) wie können Methoden entwickelt werden, die robust in Bezug auf lexikalische und syntaktische Veränderungen von Fragen sind und komplexe Fragen handhaben können, (ii) wie müssen Datensätze gestaltet und kuratiert werden um Forschungsanstrengungen zur automatischen Fragebeantwortung voranzutreiben, und (iii) wie können benannte Entitäten effizient in Fragen erkannt werden. In dieser Dissertation leisten wir folgende fünf Beiträge im Bereich der automatischen Fragebeantwortung und der Erkennung benannter Entitäten. Zur Problemstellung (i) leisten wir folgende Beiträge: Wir präsentieren ein Verfahren, genannt QUINT, zur Beantwortung natürlich-sprachlicher Fragen über Wissensbanken durch automatisch gelernte Mustervorlagen. Diese Mustervorlagen sind wichtige Mittel zur automatischen Fragebeantwortung durch Wissensbanken, da sie das semantische Parsen von Eingabefragen vereinfachen, sowie formale Anfragen für interpretierbare Antworten generieren. QUINT ist dabei in der Lage einfach als auch zusammengesetzte Fragen zu beantworten. Wir stellen NEQA, ein Framework fürs kontinuierliche Lernen für die automatische Fragebeantwortung über Wissensbanken vor. NEQA kombiniert Syntax durch vorlagenbasiertes Antworten mit Semantik mittels semantischer Ähnlichkeitsfunktionen. Darüber hinaus adaptiert es die benutzte Sprache zur Laufzeit durch periodisches Neuerlernen des zugrundeliegenden Models. Für Problemstellungen (i) und (ii) präsentieren wir TEQUILA, welches ein Rahmenwerk zur Beantwortung komplexer Fragen mit expliziten und impliziten temporalen Bedingungen auf Wissensbanken ist. TEQUILA basiert auf einem regelbasierten Rahmenwerk, das temporale Fragen entdeckt und in einfachere Unterfragen zerlegt, die dann mittels üblicher wissensbasierter Frageantwortsysteme beantwortet werden können. TEQUILA gleicht die Ergebnisse von Unterfragen ab um finale Antworten zu erstellen. TEQUILA geht mit einem Datensatz, genannt TempQuestions, einher. Dieser besteht aus 1271 temporaler Fragen mit Goldstandardantworten aus Freebase. Zur Sammlung der Daten wurden zeitrelevante Fragen aus einem bestehenden Frage-Antwortdatensatz umsichtig ausgewählt. Für Problemstellung (ii) veröffentlichen wir einen groß angelegten und manuell editierten Datensatz zur Fragebeantwortung, genannt ComQA. ComQA enthält Fragen, die wirkliche Informationsbedürfnisse repräsentieren und ein breites Spektrum an Schwierigkeiten aufweisen, wie z.B. temporales Schlussfolgern, Vergleiche, und eine kompositorische Struktur haben. ComQA enthält Paraphrasgruppen von semantisch gleichen Fragen, die durch Frageantwortsysteme ausgenutzt werden können. Zur Erstellung des Datensatzes nutzen wir eine Kombination aus Frageantwortplattformen und Crowdsourcing. Für Problemstellung (iii) stellen wir ein neurales Netzwerkmodell vor, welches auf Unterworteinheiten zur Erkennung benannter Entitäten basiert. Das Modell lernt Wortrepräsentationen, indem es eine Kombination aus Buchstaben, Bytes und Phonemen benutzt. Bei gleichbleibender Performanz im Vergleich zu anderen wortlevelbasierten Modellen, hat das Modell einen um eine Größenordnung kleineren Wortschatz, geringere Speicheranforderungen, und es ist in der Lage Wörter zu verarbeiten, welche nicht im Vokabular enthalten sind.
Link to this record: urn:nbn:de:bsz:291--ds-279688
hdl:20.500.11880/27438
http://dx.doi.org/10.22028/D291-27968
Advisor: Weikum, Gerhard
Date of oral examination: 12-Apr-2019
Date of registration: 27-May-2019
Faculty: MI - Fakultät für Mathematik und Informatik
Department: MI - Informatik
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
abujabal_phd_thesis_final_2019_05_10.pdfDoctoral Thesis4,57 MBAdobe PDFView/Open


Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.