Go back to script homepage | Go back to information science homepage | Go back to server homepage
Eine Möglichkeit der Aufbereitung ist die Vergabe von Kennzeichnungen in einer künstlichen Sprache, einer Notation (z.B. einer Klassifikation), oder von natürlichsprachigen Deskriptoren, den Inhalt kennzeichnenden / beschreibenden Stich- oder Schlagwörtern (Stichwörter kommen im Text selbst vor, Schlagwörter nicht). Dieser Vorgang heißt Indexierung: die Menge aller vergebenen Deskriptoren bildet den Index der zugrundeliegenden Textsammlung. Für das Indexieren gibt es eine DIN-Norm, auf die in diesem Script häufig referiert wird: DIN 31623 "Indexierung zur inhaltlichen Erschließung von Dokumenten" (Teil 1-3). Im folgenden wird hauptsächlich von der natürlichsprachlichen Indexierung die Rede sein.
1. Intellektuelle, computergestützte und automatische Indexierung
Werden Deskriptoren von Indexierern vergeben, spricht man von intellektueller Indexierung. Wenn Computer diese Arbeit erledigen, ist das automatische (oder maschinelle) Indexierung. Sind Mensch und Computer daran beteiligt, handelt es sich um computergestützte Indexierung (z.B. wenn Indexierer eine Auswahl aus vom Computer vorgeschlagenen Deskriptoren treffen).
Der Einsatz dieser drei Verfahren richtet sich nach ökonomischen und Qualitätserwägungen. Intellektuelle Indexierung wird von Fachleuten oder erfahrenen Laien auf dem jeweiligen Fachgebiet durchgeführt und ist zeit- und kostenaufwendig, erbringt aber die besten Ergebnisse. (Voll-)Automatische Indexierung wird manchmal - in Anlehnung an den Begriff aus der Maschinellen Übersetzung - als "quick-and-dirty" bezeichnet, schnell, aber von minderer Qualität.
2. Einige Grundbegriffe der Indexierung
Die Grundbegriffe sind in den drei oben genannten Indexierungsverfahren gleichermaßen gültig, daher sei zunächst - in Anlehnung an DIN 31623, Teil 1, eine knappe Übersicht gegeben. Eine detailliertere Beschreibung findet sich in Teil 2 der Norm.
2.1 Dokumentationssprache
Eine Dokumentationssprache ist die "Sprache", in der Dokumente inhaltlich beschrieben werden. Hierbei kann es sich um eine (strukturierte oder unstrukturierte) Menge natürlichsprachiger Ausdrücke handeln (ein Beispiel hierfür sind die Thesauri, strukturierte Mengen von Deskriptoren) oder um eine künstliche Sprache (z.B. Klassifikationen, die Kombinationen von Buchstaben, Ziffern und anderen Zeichen wie Punkt und Komma verwenden).
Ein Thesaurus (vgl. z.B. Wersig 1985 oder DIN 1463 "Erstellung und Weiterentwicklung von Thesauri") ist die Menge der zur Inhaltsbeschreibung eines Dokuments einer bestimmten Textsammlung zulässigen Bezeichnungen und u.U. anderer mit diesen Bezeichnungen in einer genau definierten Beziehung stehenden Bezeichnungen (vgl. 2.2). Diese Beziehungen legen fest
Zu einer Diskussion der Möglichkeiten von Thesauri und Klassifikationen insbesondere in Verbindung mit der Verarbeitung natürlicher Sprache bitte H I E R klicken .
2.2 Terminologische Kontrolle
Um insbesondere bei großen Textsammlungen eine konsistente Beschreibung über alle Dokumente hinweg zu erreichen, d.h. um dafür zu sorgen, daß gleiche Sachverhalte möglichst immer gleich beschrieben werden, wird eine terminologische Kontrolle vorgesehen. Hierbei wird über einen Thesaurus festgelegt, welche Bezeichnungen als äquivalent anzusehen sind und welche dieser synonymen Bezeichnungen zur Inhaltsbeschreibung von Dokumenten vergeben werden dürfen (Vorzugsbezeichnungen). Das ist kein reiner Ordnungswahn, sondern führt dazu, daß bei einer Recherche nicht nur Dokumente mit der vom Informationssuchenden eingegebenen Bezeichnung x, sondern auch mit den äquivalenten und genauso relevanten Bezeichnungen y und z gefunden werden.
2.3 Ermittlung von Deskriptoren
Bei der Extraktionsmethode werden die Deskriptoren dem zu beschreibenden Dokument entnommen. Das sind dann Stichwörter. Werden Deskriptoren gewählt, die im Dokument nicht verbal enthalten sind, sind dies Schlagwörter und die Methode heißt Additionsmethode. Die Extraktionsmethode führt zu höherer Indexierungskonsistenz, d.h. einer "guten Übereinstimmung verschiedener Indexierungsergebnisse für dasselbe Dokument" (DIN 31623), weil die Auswahl an Deskriptoren beschränkt bleibt und nicht der "Willkür" des Indexierers unterliegt. Die Additionsmethode erfordert gute Kenntnis des Fachgebiets und kann zu einer reicheren Beschreibung führen, wenn der Indexierer sich vorstellen kann, mit was für Bezeichnungen ein Informationssuchender später nach diesem Dokument suchen wird. Dokumente ohne Text (z.B. Bilder) können also nur nach der Additionsmethode indexiert werden.
2.4 Koordinierung der Deskriptoren
In der Regel werden Deskriptoren gleichrangig vergeben, bei der Recherche kann nach ihnen einzeln oder in logischer Verknüpfung gefragt werden. Das ist dann eine gleichordnende Indexierung (DIN 31623, Teil 2). Bei der selten durchgeführten syntaktischen Indexierung (DIN 31623, Teil 3) wird zusätzlich notiert, in welcher syntaktischen oder syntaktisch-semantischen Beziehung zueinander die Deskriptoren im Dokument stehen (vgl. 3.4.1).
3. Automatische Indexierung
Im folgenden wird hierunter auch die computergestützte Indexierung gefaßt, die sich von der automatischen Indexierung ja in der Regel nur durch die intellektuelle Nachbereitung unterscheidet.
Wir wollen zunächst zwischen Freitextverfahren und Verfahren höherer Entwicklungsstufen unterscheiden.
3.1 Freitextverfahren (full text indexing)
Hierunter fallen die Systeme, die alle Textwörter mit Ausnahme der in der Stoppliste zusammengefaßten Stoppwörter zur Stichwortextraktion verwenden. In der Stoppwortliste stehen alle inhaltsleeren Wörter (Artikel, Pronomina, Präpositionen, Adverbien, Konjunktionen) sowie weitere von der Indexierung ausgeschlossene Wörter, z.B. "Computer" oder "Programm" im Fachgebiet Informatik.
Die Stichwörter werden so, wie sie im Text stehen, in den Index aufgenommen. Recherchieren kann man dann in der Regel mit den vollen und - wenn das Recherchesystem dies zuläßt - den "trunkierten" Wortformen. Durch Trunkierungssymbole (auch "wildcards") werden einzelne oder mehrere Buchstaben ab- oder herausgetrennt. Sucht man z.B. nach "Atlas" und möchte auch die Formen "Atlasse, Atlassen, Atlanten" berücksichtigen, kann "Atla?" (oder statt des "?" ein anderes vom jeweiligen System anerkanntes Zeichen) eingegeben werden.
Dann werden natürlich auch nicht erwünschte Dokumente ("Ballast") mit "Atlantik" ausgegeben.
Jedenfalls kann man bei der Recherche nicht verlangen, daß der eingegebene Begriff "Atlas" mit allen möglichen grammatischen Formen gesucht wird. Diese Möglichkeit hat man nur bei morphologisch-lexikalischen Verfahren (vgl. 3.2). Beispiele für Freitextverfahren sind: Suchmaschinen im Worldwide Web, System WAIS).
3.2 Morphologisch-lexikalische Verfahren
Bei Computerlexika - wie sie überall in der Computerlinguistik / Sprach(daten)verarbeitung Verwendung finden - kann man Wortformen- und Stammlexika unterscheiden. Erstere enthalten alle Formen aller berücksichtigten Wörter, jeweils die grammatischen Angaben (Kasus, Numerus etc. bei Substantiven; Tempus, Person etc. bei Verben usw.) und die Grundform, den "Lemmanamen", der für alle vorkommenden Formen des Wortes steht. Bei lexikalischen Indexierungsverfahren wird nur die Grundform zur Indexierung verwendet:
Haeusern => Haus verarbeiteten => verarbeiten altesten => altSolange es nur um die Flexion (also die Deklination der Substantive und die Konjugation der Verben) geht, besteht der Hauptunterschied zwischen Form- und Stammlexika darin, daß Wortformenlexika mehr Platz beanspruchen, gleichzeitig aber eine schnellere Identifikation einer Textwortform ermöglichen und eine morphologische Analyse überflüssig machen. Mit beiden Lexikonarten kann man aber bezüglicher flektierter und unflektierter Textwortformen die gleichen Indexierungsergebnisse erzielen.
Der große Vorteil der Stammlexika und der mit ihrer Hilfe möglichen morphologischen Analyse ist die Verarbeitung von im Lexikon nicht enthaltenen Wörtern, v.a. (neuen) Ableitungen und Wortzusammensetzungen (Komposita), was aufgrund der großen Produktivität deutscher Wortbildung sehr wichtig ist. Täglich entstehen neue Wörter, und man kann nicht sagen "Das Wort habe ich noch nie gehört, das ist kein Wort der deutschen Sprache". Sobald es nach den deutschen Wortbildungsregeln entstanden ist, kann man es in der Regel auch verstehen und gebrauchen, und eine nach diesen Regeln funktionierende morphologische Analyse kann es in seine Bestandteile zerlegen:
Überarbeitbarkeit Drehstoßziehtechnik Megafunktionalität Schnellsauberbilliglösung Frühverbeamtung Bauamtfrau Hyperrepräsentationsformalismus SymmetrieabwurfMit morphologischen Verfahren können auch Wortfamilien automatisch zusammengestellt werden:
ableit- en, -er, -bar, -ung, -barkeit, ...Bisher war nur die Rede von Einzelwort-Deskriptoren. Präzisere Recherchen erfordern z.B. die Eingabe von Mehrwortbegriffen:
natürliche Person juristische Person Drittes Reich Anspruch auf Entschädigung Haus und HofDiese Begriffe lassen sich natürlich als Einzelbegriffe recherchieren, z.B. unter Verwendung der "Nachbarschaftsbedingung" (adjacency), d.h. die Begriffe "natürlich" und "Person" sollen direkt nebeneinander vorkommen, da man dann annehmen kann, daß sie zusammngehören. Das muß aber durchaus nicht immer so sein, daß zusammengehörige Begriffe nebeneinander stehen:
Anspruch (des Klägers) auf EntschädigungUmgekehrt muß Nachbarschaft nicht bedeuten, daß zwei Begriffe zusammengehören:
Dieses Verfahren begünstigt natürlich Personen, die ...Ohne Überprüfung der Kongruenz, d.h. der Übereinstimmung der grammatischen Beschreibung der beiden Konstituenten, müßte ein rein wortbezogenes Analysesystem hier einen falschen Bezug herstellen.
Wenn man sicher gehen will, muß man die Bezüge innerhalb der Einzelsätze eines Dokuments durch eine morphosyntaktische Analyse untersuchen.
3.3 Morphosyntaktische Verfahren
Morphosyntaktische Verfahren setzen in der Computerlinguistik entwickelte Parser ein, die natürlichsprachige Sätze / Texte auf Worgruppen-, Satz- oder sogar Textebene analysieren und eine Repräsentation (Beschreibung) des analysierten Materials anlegen (vgl. z.B. Luckhardt 1987). Diese Repräsentation macht Aussagen über linguistische Elemente und Strukturen sowie über die Beziehungen zwischen ihnen und bietet die Grundlage für die Ermittlung von Mehrwortdeskriptoren. Warum eine syntaktische Analyse Sinn macht, kann am besten ein Beispiel erläutern.
Wir hatten oben das Beispiel "Anspruch auf Entschädigung", dessen Komponenten über den Satz verteilt sein können:
1. Auf Entschädigung hatte der Kläger keinen Anspruch. 2. ... Entschädigung. Einen Anspruch darauf hat der Kläger nicht. 3. Das Gericht verneinte einen Anspruch des Klägers auf Entschädigung.Nur eine satz- oder sogar textlinguistische Analyse kann diese Bezüge identifizieren, z.B. über eine Dependenzanalyse. Die Dependenz- oder Valenzgrammatik geht davon aus, daß v.a. Verben, aber auch Substantive und Adjektive über Valenzen andere Satzkonstituenten an sich binden können (die "Valenz" ist vielleicht aus der Chemie bekannt und hat dort eine vergleichbare Bedeutung). Für das Beispiel 3. bedeutet dies z.B., daß die Konstituente "auf Entschädigung" nicht an das Verb "verneinen" gebunden wird, weil dieses (laut Lexikon) keine entsprechende Valenz (Leerstelle) hat; dafür hat aber "Anspruch" eine solche Valenz, so daß die folgende Substruktur ermittelt wird:
Anspruch (des Klägers; auf Entschädigung)
Hieraus ließen sich die Mehrwortdeskriptoren "Anspruch des Klägers" und "Anspruch auf Entschädigung" generieren.
Die Darstellung dieser Beispiele läßt einige schwerwiegende Probleme außer acht, die eine breite Anwendung syntaktischer Verfahren bisher verhindert haben, z.B. die Mehrdeutigkeit natürlicher Sprache und die v.a. daraus resultierende Komplexität und aufwendige Entwicklung solcher Systeme und der zugrundeliegenden Computerlexika. Diese Komplexität erfährt dadurch eine weitere Steigerung, daß rein syntaktische Verfahren, so sie denn funktionieren, keineswegs ausreichen, um die Struktur von Sätzen und Texten eindeutig zu ermitteln. Dazu müßte eine weitere Dimension hinzukommen: die Semantik.
3.4 Semantische Analyse
Auf die Vielfalt semantischer Forschung - und über das Forschungsstadium sind viele Ansätze (noch) nicht hinausgekommen - kann hier nicht eingegangen werden. Es soll vielmehr anhand zweier Beispiele gezeigt werden, wo und wie Semantik weiterhelfen kann.
Der Einsatz von Pferden zum Schleppen von BaumstämmenDie Formulierung dieses Sachverhalts kann fast beliebig variiert werden:
Pferde schleppen Baumstämme Pferde können Baumstämme schleppen Baumstämme können von Pferden geschleppt werden das Schleppen von Baumstämmen durch Pferde Pferde, die Baumstämme schleppen könnenIm Grunde handelt es sich immer um den gleichen Sachverhalt:
Rollenindikator Deskriptor Subjekt (Handelnder) Pferd Handlung Schleppen Objekt BaumstammSo lassen sich - wenn das Analysesystem in der Lage ist, die verschiedenen Ausprägungen auf eine Repräsentation zu reduzieren - komplexe Sachverhalte darstellen, und zwar bei der Aufbereitung von Texten für Datenbanken und umgekehrt bei der präzisen Formulierung komplexer Suchanfragen an solche Datenbanken.
"Diese Qualitätskontrolle liefert die Ergebnisse rascher und mit höherer Aussagefähigkeit, so daß auch schnellere Rückkopplung und damit Verbesserungen an der Herstellungsstraße möglich sind. Zum Abtasten der Oberflächen werden Laserstrahlen benutzt, da dieses System weniger empfindlich gegenüber ungenauer Positionierung ist. Da die Überwachung am laufenden Band erfolgen muß, wurde der speziell dafür konzipierte Puma 760 ausgewählt. Am Band wird zunächst der jeweilige Autotyp identifiziert ..."Band" hat im Deutschen viele Bedeutungen: Armband, Tonband, Fließband ... Die letztere Bedeutung liegt im obigen Text vor, was der menschliche Leser u.a. durch das Vorkommen des Begriffs "Herstellungsstraße", der ja zum Begriff "Fließband" in einer engen Beziehung steht, aus dem laufenden Text erschließen kann. Dieser intellektuelle Vereindeutigungsvorgang ließe sich automatisieren, würde man die Thesaurusrelationen im Automobilbau ausnutzen, z.B.:
Herstellungsstraße (NARROWER TERM:Fließband) Fließband (USED FOR:Band) Band (USE:Fließband)etc. Damit ließe sich der Deskriptor "Fließband" automatisch vergeben, obwohl er gar nicht im Text vorkommt. Mit dem gleichen Verfahren ließe sich "Band" für die Maschinelle Übersetzung vereindeutigen, so daß der Computer die explizite korrekte Übersetzung "(assembly) line" einsetzen könnte.
4. Systeme zur automatische Indexierung
Die in der dokumentarischen Praxis am häufigsten eingesetzten automatischen Indexierungssysteme sind Freitextsysteme, die außer einer auf das jeweilige zu indexierende Fachgebiet abgestimmten Stoppwortliste und dem zugrundeliegenden Datenbanksystem keine komplexeren Komponenten enthalten. Alle darüberhinaus entwickelten Systeme zielen darauf ab, die eine oder andere der oben erwähnten Schwächen von Freitextsystemen zu überwinden. Es folgt eine kurze Beschreibung der Systeme PASSAT, AIR-PHYS, CTX und Primus-IDX.
4.1 PASSAT
PASSAT von Siemens (vgl. Gräbnitz et a. ) wird - kombiniert mit dem Retrievalsystem GOLEM - zur Aufbereitung zahlreicher Online-Datenbanken (z.B. bei JURIS und STN) genutzt. Es ist ein lexikongestütztes morphologisches Verfahren und arbeitet mit Stammwörtern, Endungslisten und Fugenmorphemen. Damit werden flektierte Wörter auf Grundformen reduziert, Stoppwörter ausgesondert und zusammengesetzte und abgeleitete Wörter zerlegt. PASSAT kann unflektierte Mehrwortbegriffe erkennen, wenn sie als Ganzes im Wörterbuch stehen und nebeneinander im Dokument vorkommen.
Probleme von PASSAT sind:
4.2 AIR-PHYS
Von der TH Darmstadt wurde das AIR-Verfahren entwickelt, das seit einigen Jahren als AIR-PHYS auf die Datenbank PHYSIK des Fachinformationszentrums Karlsruhe angewendet wird. Es ist ein lexikongestütztes probabilistisches Verfahren, das die wahrscheinliche Relevanz von Textwörtern bewertet. Dabei benutzt es ein Lexikon mit den folgenden Eigenschaften (Zahlen ca. von 1990):
4.3 CTX
In den 80er Jahren wurde an der Fachrichtung Informationswissenschaft der Universität des Saarlandes auf der Grundlage des Maschinellen Übersetzungssystems SUSY (vgl. Luckhardt 1987) das syntaktische Indexierungssystem CTX (Computergestützte Texterschließung) entwickelt (vgl. Zimmermann et al. 1983). Aufbauend auf den Ergebnissen der morphosyntaktischen Analyse von SUSY (Modul SATAN - Saarbrücker Automatische Textanalyse) erfüllte CTX folgende Funktionen:
Morphologisch-lexikalische Trunkierung:
Adjektiv/Substantiv-Verbindungen: hochlegierter Stahl Substantiv/Substantiv-Verbindungen: Aufbringen eines Drehmoments Seitenwand aus Glas Türen und FensterTeilwortermittlung:
Abgasverhalten: Abgas, Verhalten (nicht: Halt) Reifenabnutzung: Reifen, Abnutzung (nicht: Reif) Detailänderung: Detail, Änderung (nicht: Länder) Pumpvorrichtung: pumpen, VorrichtungNachteil von CTX:
Funktionen:
4.5 PADOK-Test
1985-87 wurde im Auftrage des Bundesministeriums für Forschung und Technologie im Projekt PADOK ("Patent-Dokumentation") ein Retrievaltest durchgeführt, in dem PASSAT, CTX und ein Freitextsystem vergleichsweise erprobt wurden. Insgesamt wurden jeweils 11.000 Dokumente indexiert und 300 Suchaufträge erteilt. Ergebnis war, daß PASSAT und CTX einen qualitativen Vorsprung vor dem Freitextsystem hatten. PASSAT hatte den höchsten Recall (= die meisten gefundenen Dokumente) und CTX die höchste Precision (= den höchsten Prozentsatz an gefundenen relevanten Dokumenten)). Aufgrund der Testergebnisse wurde PASSAT für den Aufbau der Patentdatenbank PATDPA des Deutschen Patentamts ausgewählt, wobei der bessere Recall als ausschlaggebend angesehen wurde.