Please use this identifier to cite or link to this item: doi:10.22028/D291-23775
Title: Die Sphere-Search-Suchmaschine zur graphbasierten Suche auf heterogenen, semistrukturierten Daten
Author(s): Graupmann, Jens
Language: German
Year of Publication: 2006
OPUS Source: 
SWD key words: Suchmaschine
Information Retrieval
Ranking
Datenstruktur
Kontextbezogenes System
Free key words: SphereSearch-Suchmaschine
graphbasierten Suche
ranglistenbasiertes Retrieval
graph-basiertes Datenmodell
Relevanz-Ranking
SphereSearch engine
unified ranked retrieval
graph-based data model
DDC notations: 004 Computer science, internet
Publikation type: Dissertation
Abstract: In dieser Arbeit wird die neuartige SphereSearch-Suchmaschine vorgestellt, die ein einheitliches ranglistenbasiertes Retrieval auf heterogenen XML- und Web-Daten ermöglicht. Ihre Fähigkeiten umfassen die Auswertung von vagen Struktur- und Inhaltsbedingungen sowie ein auf IR-Statistiken und einem graph-basierten Datenmodell basierendes Relevanz-Ranking. Web-Dokumente im HTML- und PDFFormat werden zunächst automatisch in ein XML-Zwischenformat konvertiert und anschließend mit Hilfe von Annotations-Tools durch zusätzliche Tags semantisch angereichtert. Die graph-basierte Suchmaschine bietet auf semi-strukturierten Daten vielfältige Suchmöglichkeiten, die von keiner herkömmlichen Web- oder XMLSuchmaschine ausgedrückt werden können: konzeptbewusste und kontextbewusste Suche, die sowohl die implizite Struktur von Daten als auch ihren Kontext berücksichtigt. Die Vorteile der SphereSearch-Suchmaschine werden durch Experimente auf verschiedenen Dokumentenkorpora demonstriert. Diese umfassen eine große, vielfältige Tags beinhaltende, nicht-schematische Enzyklopädie, die um externe Dokumente erweitert wurde, sowie einen Standard-XML-Benchmark.
This thesis presents the novel SphereSearch Engine that provides unified ranked retrieval on heterogeneous XML andWeb data. Its search capabilities include vague structure and text content conditions, and relevance ranking based on IR statistics and a graph-based data model. Web pages in HTML or PDF are automatically converted into an intermediate XML format, with the option of generating semantic tags by means of linguistic annotation tools. For semi-structured data the graphbased query engine is leveraged to provide very rich search options that cannot be expressed in traditional Web or XML search engines: concept-aware and linkaware querying that takes into account the implicit structure and context of Web pages. The benefits of the SphereSearch engine are demonstrated by experiments with a large and richly tagged but non-schematic open encyclopedia extended with external documents and a standard XML benchmark.
Link to this record: urn:nbn:de:bsz:291-scidok-6432
hdl:20.500.11880/23831
http://dx.doi.org/10.22028/D291-23775
Advisor: Weikum, Gerhard
Date of oral examination: 12-Jan-2006
Date of registration: 21-Jul-2006
Faculty: SE - Sonstige Einrichtungen
Department: SE - Sonstige Einrichtungen
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
Dissertation_6420_Grau_Jens_2006.pdf2,05 MBAdobe PDFView/Open


Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.