Efficient index structures for and applications of the CompleteSearch engine

Weber, Ingmar

Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-25983

Titel:	Efficient index structures for and applications of the CompleteSearch engine
VerfasserIn:	Weber, Ingmar
Sprache:	Englisch
Erscheinungsjahr:	2007
Kontrollierte Schlagwörter:	Suchmaschine Response-Zeit Index Abfrageverarbeitung Datenstruktur
Freie Schlagwörter:	Anfragetyp CompleteSearch AutoTree HYB kontext-sensitive Präfixsuche Vervollständigungsmechanismus search engine response time CompleteSearch engine context-sensitive prefix search completion mechanism
DDC-Sachgruppe:	004 Informatik
Dokumenttyp:	Dissertation
Abstract:	Traditional search engines, such as Google, offer response times well under one second, even for a corpus with more than a billion documents. They achieve this by making use of a (parallelized) inverted index. However, the inverted index is primarily designed to efficiently process simple key word queries, which is why search engines rarely offer support for queries which cannot be (re-)formulated in this manner, possibly using "special key words';. We have contrived data structures for the CompleteSearch engine, a search engine, developed at the Max-Planck Institute for Computer Science, which supports a far greater set of query types, without sacrificing the efficiency. It is built on top of a context-sensitive prefix search and completion mechanism. This mechanism is, on the one hand, simple enough to be efficiently realized by appropriate algorithms, and, on the other hand, powerful enough to be employed to support additional query types. We present two new data structures, which can be used to solve the underlying prefix search and completion problem. The first one, called AutoTree, has the theoretically desirable property that, for non-degenerate corpora and queries, its running time is proportional to the sum of the sizes of the input and output. The second one, called HYB, focuses on compressibility of the data and is optimized for scenarios, where the index does not fit in main memory but resides on disk. Both beat the baseline algorithm, using an inverted index, by a factor of 4-10 in terms of average processing time. A direct head-to-head comparison shows that, in a general setting, HYB outperforms AutoTree. Thanks to the HYB data structure, the CompleteSearch engine efficiently supports features such as faceted search for categorical information, completion to synonyms, support for basic database style queries on relational tables and the efficient search of ontologies. For each of these features, we demonstrate the viability of our approach through experiments. Finally, we also prove the practical relevance of our work through a small user study with employees of the helpdesk of our institute. Typische Suchmaschinen, wie z.B. Google, erreichen Antwortzeiten deutlich unter einer Sekunde, selbst für einen Korpus mit mehr als einer Milliarde Dokumenten. Sie schaffen dies durch die Nutzung eines (parallelisierten) invertierten Index. Da der invertierte Index jedoch hauptsächlich für die Bearbeitung von einfachen Schlagwortsuchen konzipiert ist, bieten Suchmaschinen nur selten die Möglichkeit, komplexere Anfragen zu beantworten, die sich nicht in solch eine Schlagwortsuche umformulieren lassen, u.U. mit der Zurhilfenahme von speziellen Kunstworten. Wir haben für die CompleteSearch Suchmaschine, konzipiert und implementiert am Max-Planck-Institut für Informatik, spezielle Datenstrukturen entwickelt, die ein deutlich größeres Spektrum an Anfragetypen unterstützen, ohne dabei die Effizienz zu opfern. Die CompleteSearch Suchmaschine baut auf einem kontext-sensitiven Präfixsuch- und Vervollständigungsmechanismus auf. Dieser Mechanismus ist einerseits einfach genug, um eine effiziente Implementierung zu erlauben, andererseits hinreichend mächtig, um die Bearbeitung zusätzlicher Anfragetypen zu erlauben. Wir stellen zwei neue Datenstrukturen vor, die eingesetzt werden können, um das zu Grunde liegende Präfixsuch und Vervollstängigungsproblem zu lösen. Die erste der beiden, AutoTree genannt, hat die theoretisch wünschenswerte Eigenschaft, dass sie für nicht entartete Korpora eine Bearbeitungszeit linear in der aufsummierten Größe der Ein- und Ausgabe zulässt. Die zweite, HYB genannt, ist auf die Komprimierbarkeit der Daten ausgelegt und ist für Szenarien optimiert, in denen der Index nicht in den Hauptspeicher passt, sondern auf der Festplatte ruht. Beide schlagen den Referenzalgorithmus, der den invertierten Index benutzt, um einen Faktor von 4-10 hinsichtlich der durchschnittlichen Bearbeitungszeit. Ein direkter Vergleich zeigt, dass im Allgemeinen HYB schneller ist als AutoTree. Dank der HYB Datenstruktur kann die CompleteSearch Suchmaschine auch anspruchsvollere Anfragetypen, wie Facettensuche für Kategorieninformation, Vervollständigung zu Synonymen, Anfragen im Stile von elementaren, relationalen Datenbankanfragen und die Suche auf Ontologien, effizient bearbeiten. Für jede dieser Fähigkeiten beweisen wir die Realisierbarkeit unseres Ansatzes durch Experimente. Schließlich demonstrieren wir durch eine kleine Nutzerstudie mit Mitarbeitern des Helpdesks unseres Institutes auch den praktischen Nutzen unserer Arbeit.
Link zu diesem Datensatz:	urn:nbn:de:bsz:291-scidok-32100 hdl:20.500.11880/26039 http://dx.doi.org/10.22028/D291-25983
Erstgutachter:	Bast, Holger
Tag der mündlichen Prüfung:	16-Nov-2007
Datum des Eintrags:	23-Jul-2010
Fakultät:	MI - Fakultät für Mathematik und Informatik
Fachrichtung:	MI - Informatik
Sammlung:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:

Datei	Beschreibung	Größe	Format
Dissertation_2370_Webe_Ingm_2007.pdf		1,42 MB	Adobe PDF	Öffnen/Anzeigen

Export: BibTex Statistik anzeigen

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.