Please use this identifier to cite or link to this item: doi:10.22028/D291-43058
Title: Count information : retrieving and estimating cardinality of entity sets from the web
Author(s): Ghosh, Shrestha
Language: English
Year of Publication: 2024
DDC notations: 600 Technology
Publikation type: Dissertation
Abstract: Extracting information from the Web remains a critical component in knowledge harvesting systems for building curated knowledge structures, such as Knowledge Bases (KBs), and satisfying evolving user needs, which require operations such as aggregation and reasoning. Estimating the cardinality of a set of entities on the Web to fulfill the information need of questions of the form “how many ..?” is a challenging task. While, intuitively, cardinality can be estimated by explicitly enumerating the constituent entities, this is usually not possible due to the low recall of entities on the Web. We present our contributions towards retrieving and estimating cardinalities of entity sets on the Web: • We propose a method, CounQER, for discovering count information in KBs. We identify interpretable classes of features to classify KB predicates that store counts and enumerations. Further, we devise heuristics to align semantically-related counts and enumerations to each other. CounQER is also accessible as a system demonstration. • We propose a method, CoQEx, to infer count distribution from multiple text snippets. Co- QEx is trained using distant supervision to identify relevant counts and predicts the final result via weighted median. CoQEx provides explanatory evidence by forming semantic groups of the contexts, by ranking exemplary instances and by provenance of the counts in the originating snippets. CoQEx is also available online as a system demonstration. • We tackle the problem of predicting the larger of two sets of entities, when direct comparison of the counts may give incorrect results. We emulate a smart human’s approach and introduce a variety of online signals that can be applied to solve the problem. We propose novel techniques for aggregating signals with partial coverage into more reliable estimates on which of the two given classes has more instances. • We propose, CardiO, a lightweight and modular framework for estimating cardinalities on the Web. CardiO scores counts based on the relevance of their context to the expected answer type, the relevance of the parent sentence and snippet to the user query. CardiO leverages supporting facts to re-score the counts for the final prediction. Further, CardiO identifies relevant peer sets to predict the cardinality of the original entity set.
Das Extrahieren von Informationen aus dem Internet ist nach wie vor eine kritische Komponente in Knowledge-Harvesting-Systemen für den Aufbau Knowledge-Bases (KBs), und die Befriedigung sich weiterentwickelnder Nutzeranforderungen, die Operationen wie Aggregation und logisches Schliessen erfordern. Die Schätzung der Kardinalität einer Menge von Entitäten im Web, um den Informationsbedarf von Fragen der Form “wie viele ..?” zu erfüllen, ist eine anspruchsvolle Aufgabe. Im Prinzip, kann die Kardinalität zwar durch explizite Aufzählung der einzelnen Entitäten geschätzt werden. Aber ist dies aufgrund der geringen Auffindbarkeit von Entitäten im Web normalerweise nicht möglich. Wir präsentieren unsere Beiträge zum Auffinden und Schätzen von Kardinalitäten von Entit ätsmengen im Internet: • Wir stellen eine Methode vor, CounQER, zum Auffinden von Mengenkardinalitäten in KBs vor. Wir identifizieren eine interpretierbare Klasse von Merkmalen zur Klassifizierung von KBPr ädikaten, die Kardinalitäten und Aufzählungen speichern. Außerdem entwickeln wir Heuristiken, um semantisch verwandte Kardinalitäten und Aufzählungen zueinander in Beziehung zu setzen. CounQER ist auch online als Systemdemonstration zugänglich. • Wir stellen eine Methode vor, CoQEx, um aus mehreren Textfragmenten Verteilung von Kardinalit äten abzuleiten. CoQEx wird mit Hilfe von Distant Supervision trainiert, um relevante Kardinalitäten zu identifizieren, und sagt das Endergebnis über den gewichteten Median voraus. CoQEx liefert erklärende Evidenz, indem es semantische Gruppen der Kontexte bildet, beispielhafte Instanzen einordnet und die Herkunft der Kardinalitäten in den ursprünglichen Textfragmenten ermittelt. CoQEx ist auch online als Systemdemonstration verfügbar. • Wir befassen uns mit dem Problem der Vorhersage der größeren von zwei Mengen von Entit äten, wenn der direkte Vergleich der Kardinalitäten falsche Ergebnisse liefern kann. Wir emulieren den Ansatz eines intelligenten Menschen, und stellen eine Vielzahl von Internetbasierten- Signalen vor, die zur Lösung des Problems verwendet werden können. Wir schlagen neuartige Techniken zur Aggregation von imperfekten Signalen zuverlässigeren Schätzungen darüber vor, welche der beiden gegebenen Klassen mehr Instanzen besitzt. • Wir stellen CardiO vor, ein leichtgewichtiges und modulares Framework zur Schätzung von Kardinalitäten im Web. CardiO bewertet Kardinalitäten basierend auf der Relevanz ihres Kontexts für den erwarteten Antworttyp, der Relevanz des übergeordneten Satzes und den Textfragmenten für die Benutzeranfrage. CardiO nutzt unterstützende Fakten, um die Kardinalitäten für die endgültige Vorhersage neu zu bewerten. Außerdem identifiziert CardiO relevante Peer-Sets, um die Kardinalität der eingegebenen Entitätsmengen vorherzusagen.
Link to this record: urn:nbn:de:bsz:291--ds-430580
hdl:20.500.11880/38841
http://dx.doi.org/10.22028/D291-43058
Advisor: Razniewski, Simon
Date of oral examination: 30-Sep-2024
Date of registration: 29-Oct-2024
Faculty: MI - Fakultät für Mathematik und Informatik
Department: MI - Informatik
Professorship: MI - Prof. Dr. Gerhard Weikum
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
Thesis_Shrestha_Ghosh.pdfDissertation6,95 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons