Please use this identifier to cite or link to this item:
doi:10.22028/D291-29657
Title: | Understanding quantities in web tables and text |
Author(s): | Ibrahim, Yusra |
Language: | English |
Year of Publication: | 2019 |
DDC notations: | 004 Computer science, internet 600 Technology |
Publikation type: | Dissertation |
Abstract: | There is a wealth of schema-free tables on the web. The text accompanying these tables explains and qualifies the numerical quantities given in the tables. Despite this ubiquity of tabular data, there is little research that harnesses this wealth of data by semantically understanding the information that is conveyed rather ambiguously in these tables. This information can be disambiguated only by the help of the accompanying text.
In the process of understanding quantity mentions in tables and text, we are faced with the following challenges; First, there is no comprehensive knowledge base for anchoring quantity mentions. Second, tables are created ad-hoc without a standard schema and with ambiguous header names; also table cells usually contain abbreviations. Third, quantities can be written in multiple forms and units of measures. Fourth, the text usually refers to the quantities in tables using aggregation, approximation, and different scales.
In this thesis, we target these challenges through the following contributions:
- We present the Quantity Knowledge Base (QKB), a knowledge base for representing Quantity mentions. We construct the QKB by importing information from Freebase, Wikipedia, and other online sources.
- We propose Equity: a system for automatically canonicalizing header names and cell values onto concepts, classes, entities, and uniquely represented quantities registered in a knowledge base. We devise a probabilistic graphical model that captures coherence dependencies between cells in tables and candidate items in the space of concepts, entities, and quantities. Then, we cast the inference problem into an efficient algorithm based on random walks over weighted graphs. baselines.
- We introduce the quantity alignment problem: computing bidirectional links between textual mentions of quantities and the corresponding table cells. We propose BriQ: a system for computing such alignments. BriQ copes with the specific challenges of approximate quantities, aggregated quantities, and calculated quantities.
- We design ExQuisiTe: a web application that identifies mentions of quantities in text and tables, aligns quantity mentions in the text with related quantity mentions in tables, and generates salient suggestions for extractive text summarization systems. Schemalose Tabellen sind im Internet allgegenwärtig. Dargestellt werden beispielsweise Finanzdaten von Unternehmen, Gesundheitsdaten oder Angaben zur Umweltbelastung durch verschiedene Automodelle. Texte, in denen solche Tabellen eingebettet sind, erklären und beschreiben wichtige Quantitäten in den Tabellen. Obwohl tabellarische Daten weit verbreitet sind, ist weitgehend unerforscht wie diese reichhaltige Datensammlung automatisiert semantisch interpretiert werden kann. Hierzu ist es unerlässlich den Begleittext zu verstehen und die relevanten Informationen zu extrahieren. Dies würde auch die Möglichkeit eröffnen, Fragen zu Quantitäten zu beantworten, zum Beispiel nach ,,Internetfirmen mit einem jährlichen Umsatz von mehr als 5 Millionen US-Dollar" oder ,,elektrischen Autos mit einem Energieverbrauch unter 14 kWh/100km" oder ,,klinischen Studien mit einer Gabe von mehr als 30 mg Gerinnungshemmer täglich". Um Quantitäten in Tabellen und Text zu verstehen, müssen einige Herausforderungen gemeistert werden. Erstens existiert keine allgemeine Wissensbank über Quantitäten. Zweitens werden Tabellen üblicherweise ohne die Anwendung standardisierter Schemata für den jeweiligen Einzelfall erstellt. Dies betrifft insbesondere die Ausdrucksweise in Kopfzeilen sowie die verwendeten Abkürzungen innerhalb der einzelnen Zellen. Drittens können dieselben Quantitäten auf unterschiedliche Weise, unter Verwendung verschiedener Maßeinheiten, ausgedrückt werden. So sind ,,48 km/h" beispielsweise äquivalent zu ,,30 mph". Und viertens wird bei der Erklärung einer Tabelle im begleitenden Text häufig gerundet oder zusammengefasst, oder auch mit anderen Maßeinheiten gearbeitet. In dieser Dissertation begegnen wir den beschriebenen Herausforderungen mit folgenden Beiträgen: - Wir präsentieren die Quantity Knowledge Base (QKB), eine Wissensbank für Quantitäten. Die QKB wird durch den Import von Quellen wie Freebase und Wikipedia konstruiert. In ihr organisieren wir Quantitäten mit Hilfe einer vierstufigen Taxonomie: Dimensionen, Einheiten, Maßangaben und Themenbereiche. QKB erlaubt somit die vereinheitlichte Darstellung von Quantitäten in Form von Tripeln <Maßangabe, Wert, Einheit>. - Wir stellen Equity vor, ein System zur automatischen Vereinheitlichung der Kopfzeilen und Zellen von Tabellen. Der Tabelleninhalt wird durch Konzepte, Klassen, Entitäten und eindeutige Quantitäten in einer Wissensbank repräsentiert. Hierzu entwickeln wir ein probabilistisches grafisches Modell zur Darstellung der Abhängigkeiten der Tabellenzellen untereinander sowie der Tabellenzellen und der möglichen Objekte im Raum der Konzepte, Entitäten und Quantitäten. Für die Inferenz auf diesem Modell entwickeln wir einen effizienten Algorithmus, der auf Random Walks über gewichteten Graphen basiert. Dabei achten wir besonders auf Quantitäten, die wir als <Maßangabe, Wert, Einheit> Tripel von physikalischen, monetären, zeitlichen und räumlichen Maßen repräsentieren. Unsere Experimente mit Webtabellen aus verschiedenen Bereichen belegen die Leistungsfähigkeit unserer Methode sowie ihre Vorzüge gegenüber anderen Vergleichsmethoden. - Wir führen das Quantitätenzuordnungsproblem ein, bei dem bidirektionale Links zwischen Quantitäten im Text und Quantitäten in entsprechenden Tabellenzellen ermittelt werden. Zur Berechnung der Links schlagen wir BriQ vor. Dieses System erlaubt es zwischen den Erklärungen im Text und den Details in den Tabellen zu navigieren und ermöglicht potentiell das Generieren von Zusammenfassungen. BriQ kann mit approximativen, aggregierten und umgerechneten Quantitäten umgehen. Die Methode kombiniert maschinelles Lernen für merkmalsbasierte Klassifikation mit unüberwachter algorithmischer Inferenz mittels Random Walks auf geeignet konstruierten Kandidatengraphen. Experimente mit einer gro en Sammlung an Tabellen aus dem Common Crawl Projekt demonstrieren die Leistungsfähigkeit unserer Methode. - Als letzten Beitrag entwickeln wir ExQuisiTe: eine Webapplikation, die Quantitäten in Texten und Tabellen identifiziert, sie im Text mit den dazugehörigen Zellen in Tabellen verbindet und daraus Vorschläge für extrahierende Textzusammenfassung generiert. ExQuisiTe beherrscht zusätzlich zu Quantitäten in einzelnen Zellen auch Aggregationen wie beispielsweise Zeilen- und Spaltensummen oder Differenzen und Verhältnisse zwischen den Werten zweier Tabellenzellen. |
Link to this record: | urn:nbn:de:bsz:291--ds-296575 hdl:20.500.11880/28300 http://dx.doi.org/10.22028/D291-29657 |
Advisor: | Gerhard Weikum |
Date of oral examination: | 8-Oct-2019 |
Date of registration: | 15-Nov-2019 |
Faculty: | MI - Fakultät für Mathematik und Informatik |
Department: | MI - Informatik |
Collections: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Files for this record:
File | Description | Size | Format | |
---|---|---|---|---|
YIbrahim-thesis.pdf | 2,17 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License