Die Sphere-Search-Suchmaschine zur graphbasierten Suche auf heterogenen, semistrukturierten Daten

Graupmann, Jens

Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-23775

Titel:	Die Sphere-Search-Suchmaschine zur graphbasierten Suche auf heterogenen, semistrukturierten Daten
VerfasserIn:	Graupmann, Jens
Sprache:	Deutsch
Erscheinungsjahr:	2006
Quelle:
Kontrollierte Schlagwörter:	Suchmaschine Information Retrieval Ranking Datenstruktur Kontextbezogenes System
Freie Schlagwörter:	SphereSearch-Suchmaschine graphbasierten Suche ranglistenbasiertes Retrieval graph-basiertes Datenmodell Relevanz-Ranking SphereSearch engine unified ranked retrieval graph-based data model
DDC-Sachgruppe:	004 Informatik
Dokumenttyp:	Dissertation
Abstract:	In dieser Arbeit wird die neuartige SphereSearch-Suchmaschine vorgestellt, die ein einheitliches ranglistenbasiertes Retrieval auf heterogenen XML- und Web-Daten ermöglicht. Ihre Fähigkeiten umfassen die Auswertung von vagen Struktur- und Inhaltsbedingungen sowie ein auf IR-Statistiken und einem graph-basierten Datenmodell basierendes Relevanz-Ranking. Web-Dokumente im HTML- und PDFFormat werden zunächst automatisch in ein XML-Zwischenformat konvertiert und anschließend mit Hilfe von Annotations-Tools durch zusätzliche Tags semantisch angereichtert. Die graph-basierte Suchmaschine bietet auf semi-strukturierten Daten vielfältige Suchmöglichkeiten, die von keiner herkömmlichen Web- oder XMLSuchmaschine ausgedrückt werden können: konzeptbewusste und kontextbewusste Suche, die sowohl die implizite Struktur von Daten als auch ihren Kontext berücksichtigt. Die Vorteile der SphereSearch-Suchmaschine werden durch Experimente auf verschiedenen Dokumentenkorpora demonstriert. Diese umfassen eine große, vielfältige Tags beinhaltende, nicht-schematische Enzyklopädie, die um externe Dokumente erweitert wurde, sowie einen Standard-XML-Benchmark. This thesis presents the novel SphereSearch Engine that provides unified ranked retrieval on heterogeneous XML andWeb data. Its search capabilities include vague structure and text content conditions, and relevance ranking based on IR statistics and a graph-based data model. Web pages in HTML or PDF are automatically converted into an intermediate XML format, with the option of generating semantic tags by means of linguistic annotation tools. For semi-structured data the graphbased query engine is leveraged to provide very rich search options that cannot be expressed in traditional Web or XML search engines: concept-aware and linkaware querying that takes into account the implicit structure and context of Web pages. The benefits of the SphereSearch engine are demonstrated by experiments with a large and richly tagged but non-schematic open encyclopedia extended with external documents and a standard XML benchmark.
Link zu diesem Datensatz:	urn:nbn:de:bsz:291-scidok-6432 hdl:20.500.11880/23831 http://dx.doi.org/10.22028/D291-23775
Erstgutachter:	Weikum, Gerhard
Tag der mündlichen Prüfung:	12-Jan-2006
Datum des Eintrags:	21-Jul-2006
Fakultät:	SE - Sonstige Einrichtungen
Fachrichtung:	SE - Sonstige Einrichtungen
Sammlung:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:

Datei	Beschreibung	Größe	Format
Dissertation_6420_Grau_Jens_2006.pdf		2,05 MB	Adobe PDF	Öffnen/Anzeigen

Export: BibTex Statistik anzeigen

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.