Universität des Saarlandes

Informationswissenschaft / Information Science

Go back to script homepage | Go back to information science homepage | Go back to server homepage

Automatische und intellektuelle Indexierung

Heinz-Dirk Luckhardt

Inhalt

0. Einführendes zur Indexierung
1. Intellektuelle, computergestützte und automatische Indexierung
2. Einige Grundbegriffe zur Indexierung
2.1 Dokumentationssprachen
2.2 Terminologische Kontrolle
2.3 Ermittlung von Deskriptoren
2.4 Koordinierung von Deskriptoren
3. Automatische Indexierung
3.1 Freitextverfahren
3.2 Morphologisch-lexikalische Verfahren
3.3 Morphosyntaktische Verfahren
3.4 Semantische Analyse
4. Systeme zur automatischen Indexierung
4.1 PASSAT
4.2 AIR-PHYS
4.3 CTX
4.4 Primus-IDX
4.5 PADOK-Test
Literatur

0. Einführendes zur Indexierung

Bei der Speicherung von Textdokumenten in Datenbanken kommt es darauf an, daß die Inhalte der Dokumente so aufbereitet und in einer Dokumentationssprache beschrieben werden, daß bei einer späteren Informationsrecherche (vgl. Script zu Information Retrieval) ein Informationssuchender in die Lage versetzt wird, die für ihn relevanten Texte zu finden, indem er mithilfe der Dokumentationssprache Suchanfragen an die Datenbank formuliert.

Eine Möglichkeit der Aufbereitung ist die Vergabe von Kennzeichnungen in einer künstlichen Sprache, einer Notation (z.B. einer Klassifikation), oder von natürlichsprachigen Deskriptoren, den Inhalt kennzeichnenden / beschreibenden Stich- oder Schlagwörtern (Stichwörter kommen im Text selbst vor, Schlagwörter nicht). Dieser Vorgang heißt Indexierung: die Menge aller vergebenen Deskriptoren bildet den Index der zugrundeliegenden Textsammlung. Für das Indexieren gibt es eine DIN-Norm, auf die in diesem Script häufig referiert wird: DIN 31623 "Indexierung zur inhaltlichen Erschließung von Dokumenten" (Teil 1-3). Im folgenden wird hauptsächlich von der natürlichsprachlichen Indexierung die Rede sein.

Zum Inhaltsverzeichnis

1. Intellektuelle, computergestützte und automatische Indexierung

Werden Deskriptoren von Indexierern vergeben, spricht man von intellektueller Indexierung. Wenn Computer diese Arbeit erledigen, ist das automatische (oder maschinelle) Indexierung. Sind Mensch und Computer daran beteiligt, handelt es sich um computergestützte Indexierung (z.B. wenn Indexierer eine Auswahl aus vom Computer vorgeschlagenen Deskriptoren treffen).

Der Einsatz dieser drei Verfahren richtet sich nach ökonomischen und Qualitätserwägungen. Intellektuelle Indexierung wird von Fachleuten oder erfahrenen Laien auf dem jeweiligen Fachgebiet durchgeführt und ist zeit- und kostenaufwendig, erbringt aber die besten Ergebnisse. (Voll-)Automatische Indexierung wird manchmal - in Anlehnung an den Begriff aus der Maschinellen Übersetzung - als "quick-and-dirty" bezeichnet, schnell, aber von minderer Qualität.

Zum Inhaltsverzeichnis

2. Einige Grundbegriffe der Indexierung

Die Grundbegriffe sind in den drei oben genannten Indexierungsverfahren gleichermaßen gültig, daher sei zunächst - in Anlehnung an DIN 31623, Teil 1, eine knappe Übersicht gegeben. Eine detailliertere Beschreibung findet sich in Teil 2 der Norm.

Zum Inhaltsverzeichnis

2.1 Dokumentationssprache

Eine Dokumentationssprache ist die "Sprache", in der Dokumente inhaltlich beschrieben werden. Hierbei kann es sich um eine (strukturierte oder unstrukturierte) Menge natürlichsprachiger Ausdrücke handeln (ein Beispiel hierfür sind die Thesauri, strukturierte Mengen von Deskriptoren) oder um eine künstliche Sprache (z.B. Klassifikationen, die Kombinationen von Buchstaben, Ziffern und anderen Zeichen wie Punkt und Komma verwenden).

Ein Thesaurus (vgl. z.B. Wersig 1985 oder DIN 1463 "Erstellung und Weiterentwicklung von Thesauri") ist die Menge der zur Inhaltsbeschreibung eines Dokuments einer bestimmten Textsammlung zulässigen Bezeichnungen und u.U. anderer mit diesen Bezeichnungen in einer genau definierten Beziehung stehenden Bezeichnungen (vgl. 2.2). Diese Beziehungen legen fest

welche Bezeichnungen äquivalent (synonym) sind und welche dieser äquivalenten Bezeichnungen bevorzugt zu verwenden sind (Vorzugsbezeichnungen),
welche hierarchischen Beziehungen zwischen Bezeichnungen bestehen, z.B.:
- Teil-Ganzes-Beziehungen, z.B. zwischen "Lenkrad" und "Auto". Ein "Auto" hat ein "Lenkrad",
- generische Beziehungen, z.B. zwischen "Löwe" und "Tier". Ein "Löwe" ist ein "Tier".

Solche Beziehungen können dazu benutzt werden, um das Suchergebnis einzuschränken, wenn man zuviel Material gefunden hat, oder um es auszuweiten, wenn zuwenig Material gefunden wurde.

Zu einer Diskussion der Möglichkeiten von Thesauri und Klassifikationen insbesondere in Verbindung mit der Verarbeitung natürlicher Sprache bitte H I E R klicken .

Zum Inhaltsverzeichnis

2.2 Terminologische Kontrolle

Um insbesondere bei großen Textsammlungen eine konsistente Beschreibung über alle Dokumente hinweg zu erreichen, d.h. um dafür zu sorgen, daß gleiche Sachverhalte möglichst immer gleich beschrieben werden, wird eine terminologische Kontrolle vorgesehen. Hierbei wird über einen Thesaurus festgelegt, welche Bezeichnungen als äquivalent anzusehen sind und welche dieser synonymen Bezeichnungen zur Inhaltsbeschreibung von Dokumenten vergeben werden dürfen (Vorzugsbezeichnungen). Das ist kein reiner Ordnungswahn, sondern führt dazu, daß bei einer Recherche nicht nur Dokumente mit der vom Informationssuchenden eingegebenen Bezeichnung x, sondern auch mit den äquivalenten und genauso relevanten Bezeichnungen y und z gefunden werden.

Zum Inhaltsverzeichnis

2.3 Ermittlung von Deskriptoren

Bei der Extraktionsmethode werden die Deskriptoren dem zu beschreibenden Dokument entnommen. Das sind dann Stichwörter. Werden Deskriptoren gewählt, die im Dokument nicht verbal enthalten sind, sind dies Schlagwörter und die Methode heißt Additionsmethode. Die Extraktionsmethode führt zu höherer Indexierungskonsistenz, d.h. einer "guten Übereinstimmung verschiedener Indexierungsergebnisse für dasselbe Dokument" (DIN 31623), weil die Auswahl an Deskriptoren beschränkt bleibt und nicht der "Willkür" des Indexierers unterliegt. Die Additionsmethode erfordert gute Kenntnis des Fachgebiets und kann zu einer reicheren Beschreibung führen, wenn der Indexierer sich vorstellen kann, mit was für Bezeichnungen ein Informationssuchender später nach diesem Dokument suchen wird. Dokumente ohne Text (z.B. Bilder) können also nur nach der Additionsmethode indexiert werden.

Zum Inhaltsverzeichnis

2.4 Koordinierung der Deskriptoren

In der Regel werden Deskriptoren gleichrangig vergeben, bei der Recherche kann nach ihnen einzeln oder in logischer Verknüpfung gefragt werden. Das ist dann eine gleichordnende Indexierung (DIN 31623, Teil 2). Bei der selten durchgeführten syntaktischen Indexierung (DIN 31623, Teil 3) wird zusätzlich notiert, in welcher syntaktischen oder syntaktisch-semantischen Beziehung zueinander die Deskriptoren im Dokument stehen (vgl. 3.4.1).

Zum Inhaltsverzeichnis

3. Automatische Indexierung

Im folgenden wird hierunter auch die computergestützte Indexierung gefaßt, die sich von der automatischen Indexierung ja in der Regel nur durch die intellektuelle Nachbereitung unterscheidet.

Wir wollen zunächst zwischen Freitextverfahren und Verfahren höherer Entwicklungsstufen unterscheiden.

3.1 Freitextverfahren (full text indexing)

Hierunter fallen die Systeme, die alle Textwörter mit Ausnahme der in der Stoppliste zusammengefaßten Stoppwörter zur Stichwortextraktion verwenden. In der Stoppwortliste stehen alle inhaltsleeren Wörter (Artikel, Pronomina, Präpositionen, Adverbien, Konjunktionen) sowie weitere von der Indexierung ausgeschlossene Wörter, z.B. "Computer" oder "Programm" im Fachgebiet Informatik.

Die Stichwörter werden so, wie sie im Text stehen, in den Index aufgenommen. Recherchieren kann man dann in der Regel mit den vollen und - wenn das Recherchesystem dies zuläßt - den "trunkierten" Wortformen. Durch Trunkierungssymbole (auch "wildcards") werden einzelne oder mehrere Buchstaben ab- oder herausgetrennt. Sucht man z.B. nach "Atlas" und möchte auch die Formen "Atlasse, Atlassen, Atlanten" berücksichtigen, kann "Atla?" (oder statt des "?" ein anderes vom jeweiligen System anerkanntes Zeichen) eingegeben werden.

Dann werden natürlich auch nicht erwünschte Dokumente ("Ballast") mit "Atlantik" ausgegeben.

Jedenfalls kann man bei der Recherche nicht verlangen, daß der eingegebene Begriff "Atlas" mit allen möglichen grammatischen Formen gesucht wird. Diese Möglichkeit hat man nur bei morphologisch-lexikalischen Verfahren (vgl. 3.2). Beispiele für Freitextverfahren sind: Suchmaschinen im Worldwide Web, System WAIS).

Zum Inhaltsverzeichnis

3.2 Morphologisch-lexikalische Verfahren

Bei Computerlexika - wie sie überall in der Computerlinguistik / Sprach(daten)verarbeitung Verwendung finden - kann man Wortformen- und Stammlexika unterscheiden. Erstere enthalten alle Formen aller berücksichtigten Wörter, jeweils die grammatischen Angaben (Kasus, Numerus etc. bei Substantiven; Tempus, Person etc. bei Verben usw.) und die Grundform, den "Lemmanamen", der für alle vorkommenden Formen des Wortes steht. Bei lexikalischen Indexierungsverfahren wird nur die Grundform zur Indexierung verwendet:

Haeusern => Haus
verarbeiteten => verarbeiten
altesten => alt

Solange es nur um die Flexion (also die Deklination der Substantive und die Konjugation der Verben) geht, besteht der Hauptunterschied zwischen Form- und Stammlexika darin, daß Wortformenlexika mehr Platz beanspruchen, gleichzeitig aber eine schnellere Identifikation einer Textwortform ermöglichen und eine morphologische Analyse überflüssig machen. Mit beiden Lexikonarten kann man aber bezüglicher flektierter und unflektierter Textwortformen die gleichen Indexierungsergebnisse erzielen.

Der große Vorteil der Stammlexika und der mit ihrer Hilfe möglichen morphologischen Analyse ist die Verarbeitung von im Lexikon nicht enthaltenen Wörtern, v.a. (neuen) Ableitungen und Wortzusammensetzungen (Komposita), was aufgrund der großen Produktivität deutscher Wortbildung sehr wichtig ist. Täglich entstehen neue Wörter, und man kann nicht sagen "Das Wort habe ich noch nie gehört, das ist kein Wort der deutschen Sprache". Sobald es nach den deutschen Wortbildungsregeln entstanden ist, kann man es in der Regel auch verstehen und gebrauchen, und eine nach diesen Regeln funktionierende morphologische Analyse kann es in seine Bestandteile zerlegen:

Überarbeitbarkeit                Drehstoßziehtechnik
Megafunktionalität                Schnellsauberbilliglösung
Frühverbeamtung                        Bauamtfrau
Hyperrepräsentationsformalismus        Symmetrieabwurf

Mit morphologischen Verfahren können auch Wortfamilien automatisch zusammengestellt werden:

ableit- en, -er, -bar, -ung, -barkeit, ...

Bisher war nur die Rede von Einzelwort-Deskriptoren. Präzisere Recherchen erfordern z.B. die Eingabe von Mehrwortbegriffen:

natürliche Person
juristische Person
Drittes Reich
Anspruch auf Entschädigung
Haus und Hof

Diese Begriffe lassen sich natürlich als Einzelbegriffe recherchieren, z.B. unter Verwendung der "Nachbarschaftsbedingung" (adjacency), d.h. die Begriffe "natürlich" und "Person" sollen direkt nebeneinander vorkommen, da man dann annehmen kann, daß sie zusammngehören. Das muß aber durchaus nicht immer so sein, daß zusammengehörige Begriffe nebeneinander stehen:

Anspruch (des Klägers) auf Entschädigung

Umgekehrt muß Nachbarschaft nicht bedeuten, daß zwei Begriffe zusammengehören:

Dieses Verfahren begünstigt natürlich Personen, die ...

Ohne Überprüfung der Kongruenz, d.h. der Übereinstimmung der grammatischen Beschreibung der beiden Konstituenten, müßte ein rein wortbezogenes Analysesystem hier einen falschen Bezug herstellen.

Wenn man sicher gehen will, muß man die Bezüge innerhalb der Einzelsätze eines Dokuments durch eine morphosyntaktische Analyse untersuchen.

Zum Inhaltsverzeichnis

3.3 Morphosyntaktische Verfahren

Morphosyntaktische Verfahren setzen in der Computerlinguistik entwickelte Parser ein, die natürlichsprachige Sätze / Texte auf Worgruppen-, Satz- oder sogar Textebene analysieren und eine Repräsentation (Beschreibung) des analysierten Materials anlegen (vgl. z.B. Luckhardt 1987). Diese Repräsentation macht Aussagen über linguistische Elemente und Strukturen sowie über die Beziehungen zwischen ihnen und bietet die Grundlage für die Ermittlung von Mehrwortdeskriptoren. Warum eine syntaktische Analyse Sinn macht, kann am besten ein Beispiel erläutern.

Wir hatten oben das Beispiel "Anspruch auf Entschädigung", dessen Komponenten über den Satz verteilt sein können:

1. Auf Entschädigung hatte der Kläger keinen Anspruch.
2. ... Entschädigung. Einen Anspruch darauf hat der Kläger nicht.
3. Das Gericht verneinte einen Anspruch des Klägers auf Entschädigung.

Nur eine satz- oder sogar textlinguistische Analyse kann diese Bezüge identifizieren, z.B. über eine Dependenzanalyse. Die Dependenz- oder Valenzgrammatik geht davon aus, daß v.a. Verben, aber auch Substantive und Adjektive über Valenzen andere Satzkonstituenten an sich binden können (die "Valenz" ist vielleicht aus der Chemie bekannt und hat dort eine vergleichbare Bedeutung). Für das Beispiel 3. bedeutet dies z.B., daß die Konstituente "auf Entschädigung" nicht an das Verb "verneinen" gebunden wird, weil dieses (laut Lexikon) keine entsprechende Valenz (Leerstelle) hat; dafür hat aber "Anspruch" eine solche Valenz, so daß die folgende Substruktur ermittelt wird:

Anspruch (des Klägers; auf Entschädigung)

Hieraus ließen sich die Mehrwortdeskriptoren "Anspruch des Klägers" und "Anspruch auf Entschädigung" generieren.

Die Darstellung dieser Beispiele läßt einige schwerwiegende Probleme außer acht, die eine breite Anwendung syntaktischer Verfahren bisher verhindert haben, z.B. die Mehrdeutigkeit natürlicher Sprache und die v.a. daraus resultierende Komplexität und aufwendige Entwicklung solcher Systeme und der zugrundeliegenden Computerlexika. Diese Komplexität erfährt dadurch eine weitere Steigerung, daß rein syntaktische Verfahren, so sie denn funktionieren, keineswegs ausreichen, um die Struktur von Sätzen und Texten eindeutig zu ermitteln. Dazu müßte eine weitere Dimension hinzukommen: die Semantik.

Zum Inhaltsverzeichnis

3.4 Semantische Analyse

Auf die Vielfalt semantischer Forschung - und über das Forschungsstadium sind viele Ansätze (noch) nicht hinausgekommen - kann hier nicht eingegangen werden. Es soll vielmehr anhand zweier Beispiele gezeigt werden, wo und wie Semantik weiterhelfen kann.

3.4.1 Rollenindikatoren

Ein und derselbe Sachverhalt kann je nach Situation ganz verschieden formuliert werden, sollte aber, um diesen Sachverhalt abfragen zu können, in eine einzige schlüssige semantische Repräsentation überführt werden. DIN 31623 Teil 3 gibt dafür folgendes Beispiel:

Der Einsatz von Pferden zum Schleppen von Baumstämmen

Die Formulierung dieses Sachverhalts kann fast beliebig variiert werden:

Pferde schleppen Baumstämme
Pferde können Baumstämme schleppen
Baumstämme können von Pferden geschleppt werden
das Schleppen von Baumstämmen durch Pferde
Pferde, die Baumstämme schleppen können

Im Grunde handelt es sich immer um den gleichen Sachverhalt:

Rollenindikator            Deskriptor

Subjekt (Handelnder)       Pferd
Handlung                   Schleppen
Objekt                     Baumstamm

So lassen sich - wenn das Analysesystem in der Lage ist, die verschiedenen Ausprägungen auf eine Repräsentation zu reduzieren - komplexe Sachverhalte darstellen, und zwar bei der Aufbereitung von Texten für Datenbanken und umgekehrt bei der präzisen Formulierung komplexer Suchanfragen an solche Datenbanken.

Zum Inhaltsverzeichnis

3.4.2 Thesaurusrelationen

In einem Thesaurus sind die Beziehungen zwischen den Bezeichnungen eines Fachgebiets niedergelegt und bilden so ein semantisches Netz, das man dazu benutzen könnte, das Wissen ganzer Texte semantisch darzustellen. Damit sollte es auch möglich sein, einzelne mehrdeutige Wörter im Beziehungsgeflecht des Textes zu vereindeutigen und damit zu entscheiden, ob sie Deskriptoren werden sollen und um welche spezifische Bedeutung es sich jeweils handelt. Diese Möglichkeit ist in Klassifikationen und Thesauri und die Verarbeitung natürlicher Sprache für den Bereich der Maschinellen Übersetzung exemplarisch diskutiert worden und soll hier kurz angedeutet werden. Gegeben sei der folgende Text:

"Diese Qualitätskontrolle liefert die Ergebnisse rascher und
mit höherer Aussagefähigkeit, so daß auch schnellere Rückkopplung
und damit Verbesserungen an der Herstellungsstraße möglich sind.
Zum Abtasten der Oberflächen werden Laserstrahlen benutzt, da
dieses System weniger empfindlich gegenüber ungenauer
Positionierung ist. Da die Überwachung am laufenden Band
erfolgen muß, wurde der speziell dafür konzipierte Puma 760
ausgewählt. Am Band wird zunächst der jeweilige Autotyp
identifiziert ...

"Band" hat im Deutschen viele Bedeutungen: Armband, Tonband, Fließband ... Die letztere Bedeutung liegt im obigen Text vor, was der menschliche Leser u.a. durch das Vorkommen des Begriffs "Herstellungsstraße", der ja zum Begriff "Fließband" in einer engen Beziehung steht, aus dem laufenden Text erschließen kann. Dieser intellektuelle Vereindeutigungsvorgang ließe sich automatisieren, würde man die Thesaurusrelationen im Automobilbau ausnutzen, z.B.:

Herstellungsstraße (NARROWER TERM:Fließband)
Fließband (USED FOR:Band)
Band (USE:Fließband)

etc. Damit ließe sich der Deskriptor "Fließband" automatisch vergeben, obwohl er gar nicht im Text vorkommt. Mit dem gleichen Verfahren ließe sich "Band" für die Maschinelle Übersetzung vereindeutigen, so daß der Computer die explizite korrekte Übersetzung "(assembly) line" einsetzen könnte.

Zum Inhaltsverzeichnis

4. Systeme zur automatische Indexierung

Die in der dokumentarischen Praxis am häufigsten eingesetzten automatischen Indexierungssysteme sind Freitextsysteme, die außer einer auf das jeweilige zu indexierende Fachgebiet abgestimmten Stoppwortliste und dem zugrundeliegenden Datenbanksystem keine komplexeren Komponenten enthalten. Alle darüberhinaus entwickelten Systeme zielen darauf ab, die eine oder andere der oben erwähnten Schwächen von Freitextsystemen zu überwinden. Es folgt eine kurze Beschreibung der Systeme PASSAT, AIR-PHYS, CTX und Primus-IDX.

4.1 PASSAT

PASSAT von Siemens (vgl. Gräbnitz et a. ) wird - kombiniert mit dem Retrievalsystem GOLEM - zur Aufbereitung zahlreicher Online-Datenbanken (z.B. bei JURIS und STN) genutzt. Es ist ein lexikongestütztes morphologisches Verfahren und arbeitet mit Stammwörtern, Endungslisten und Fugenmorphemen. Damit werden flektierte Wörter auf Grundformen reduziert, Stoppwörter ausgesondert und zusammengesetzte und abgeleitete Wörter zerlegt. PASSAT kann unflektierte Mehrwortbegriffe erkennen, wenn sie als Ganzes im Wörterbuch stehen und nebeneinander im Dokument vorkommen.

Probleme von PASSAT sind:

Mehrdeutigkeiten
u.U. unbrauchbare Kompositazerlegungen
diskontinuierliche Einheiten
i.d.R. können nur Textwörter Deskriptoren sein
hoher Aufwand für die Lexikonpflege

Zum Inhaltsverzeichnis

4.2 AIR-PHYS

Von der TH Darmstadt wurde das AIR-Verfahren entwickelt, das seit einigen Jahren als AIR-PHYS auf die Datenbank PHYSIK des Fachinformationszentrums Karlsruhe angewendet wird. Es ist ein lexikongestütztes probabilistisches Verfahren, das die wahrscheinliche Relevanz von Textwörtern bewertet. Dabei benutzt es ein Lexikon mit den folgenden Eigenschaften (Zahlen ca. von 1990):

200000 1- und Mehrwort-Terme
davon 23000 Deskriptoren, der Rest Nicht-Deskriptoren
Nicht-Deskriptoren verweisen auf Deskriptoren als Vorzugsbegriffe
Thesaurus-Relationen:
- Ober-/Unterbegriff
- Antonymie
- Teil-Ganzes-Relation
"Ähnlichkeitsfaktor" zwischen Term und Deskriptor: inwieweit ist Deskriptor beim Vorkommen bestimmter Terme für die Indexierung relevant. Er wird berechnet aufgrund der Anzahl der Dokumente, in denen ein Term im Textkorpus einer vorgegebenen Menge indexierter Dokumente vorkommt bzw. denen ein bestimmter Deskriptor zugeteilt wurde.

Verfahrensschritte:

Textaufbereitung:: Zerlegung des Textes in Sätze und Wörter; Markierung von Stoppwörtern; Reduktion der Textwörter auf Grundformen
Automatische Formelidentifizierung und -transformation:: Die besondere Textsorte macht dies erforderlich
Erstellung und Quantifizierung von Relevanzbeschreibungen:: Welche Terme im Text führen zu einem Deskriptor im Wörterbuch? Welcher Art sind die Relationen zwischen Term und Deskriptor?
Berechnung des Gewichts der Deskriptoren:: und Zuteilung der einzelnen Deskriptoren zum Text, wenn ihr Gewicht einen bestimmten Schwellenwert überschreitet
Nachgeschaltete 2. Indexierungsstufe:: Verbesserung der Indexierung durch Berücksichtigung der Deskriptor-Deskriptor-Beziehungen

Probleme:

Das Verfahren wäre nur unter hohem Aufwand auf andere Fachgebiete und Anwendungen übertragbar
vollautomatische hochqualitative Indexierung nur mit inellektueller Nachbearbeitung zu erreichen (1/3 der Deskriptoren wird in der Regel weggestrichen, 1/3 neu vergeben).

Zum Inhaltsverzeichnis

4.3 CTX

In den 80er Jahren wurde an der Fachrichtung Informationswissenschaft der Universität des Saarlandes auf der Grundlage des Maschinellen Übersetzungssystems SUSY (vgl. Luckhardt 1987) das syntaktische Indexierungssystem CTX (Computergestützte Texterschließung) entwickelt (vgl. Zimmermann et al. 1983). Aufbauend auf den Ergebnissen der morphosyntaktischen Analyse von SUSY (Modul SATAN - Saarbrücker Automatische Textanalyse) erfüllte CTX folgende Funktionen:

Identifizierung sinntragender Wörter in ihrem syntaktischen Zusammenhang
Übertragung der Wörter in eine normierte Form
Bildung normierter formal-inhaltlicher Benennungen (Einzelwörter bzw. mehrwortige Benennungen in Grundform)
Einbeziehung formal-inhaltlicher Begriffsrelationen (Teilwörter bei Wortzusammensetzungen und -ableitungen) und damit Erweiterung auf nicht im Text explizit vorliegendes Wortmaterial

Einige Merkmale in Stichwörtern:

Morphologisch-lexikalische Trunkierung:

Reduktion von Textwortformen auf Grundformen
abbauen, abgebaut, abbaut, abzubauen => abbauen
Stahl, Stähle, Stählen => Stahl
ging => gehen
Atlanten, Atlasse => Atlas

Lexikongestützte Stoppworterkennung:

Erfasst werden lediglich Substantive, Verben und Adjektive, alle anderen Wortarten werden automatisch ausgeschlossen
Anfügen abgetrennter Verbzusätze an den Verbstamm (läuft ... ab => ablaufen)

Systematische Mehrwortfunktion:

Adjektiv/Substantiv-Verbindungen:
hochlegierter Stahl
Substantiv/Substantiv-Verbindungen:
Aufbringen eines Drehmoments
Seitenwand aus Glas
Türen und Fenster

Teilwortermittlung:

Abgasverhalten: Abgas, Verhalten (nicht: Halt)
Reifenabnutzung: Reifen, Abnutzung (nicht: Reif)
Detailänderung: Detail, Änderung (nicht: Länder)
Pumpvorrichtung: pumpen, Vorrichtung

Nachteil von CTX:

die sehr aufwendige und aufgrund der veralteten soft- und hardwaretechnischen Konzeption wenig benutzerfreundliche Lexikonpflege (vgl. 4.5 PADOK-Test).

4.4 Primus-IDX

Das von SOFTEX entwickelte Indexierungssystem PRIMUS-IDX ist das einzige der hier genannten Systeme, das PC-basiert ist. Es verfügt über eine morphologische Analyse und ein sehr umfangreiches (Rechtschreib-)Lexikon, zudem über eine multilinguale Komponente. Vom Leistungsumfang her - abgesehen von der multilingualen Komponente und der Benutzerfreundlichkeit der PRIMUS-Lexika - ähnelt es CTX bzw. den anderen genannten Systemen.

Funktionen:

Ermittlung von Grundformen zu Wortformen
Markierung bzw. Eliminierung von Stoppwörtern
Dekomposition und Derivation
Wortrelationierung (Synonymie, Antonymie, Assoziation)
Mehrworterkennung ("Französische Revolution")
Indexierung deutscher, englischer, französischer Texte
Wortbezogene Übersetzung

Zum Inhaltsverzeichnis

4.5 PADOK-Test

1985-87 wurde im Auftrage des Bundesministeriums für Forschung und Technologie im Projekt PADOK ("Patent-Dokumentation") ein Retrievaltest durchgeführt, in dem PASSAT, CTX und ein Freitextsystem vergleichsweise erprobt wurden. Insgesamt wurden jeweils 11.000 Dokumente indexiert und 300 Suchaufträge erteilt. Ergebnis war, daß PASSAT und CTX einen qualitativen Vorsprung vor dem Freitextsystem hatten. PASSAT hatte den höchsten Recall (= die meisten gefundenen Dokumente) und CTX die höchste Precision (= den höchsten Prozentsatz an gefundenen relevanten Dokumenten)). Aufgrund der Testergebnisse wurde PASSAT für den Aufbau der Patentdatenbank PATDPA des Deutschen Patentamts ausgewählt, wobei der bessere Recall als ausschlaggebend angesehen wurde.

Zum Inhaltsverzeichnis

Literatur

Buder, M.; W. Rehfeld; T. Seeger (Hrsg., 1990).: Grundlagen der praktischen Information und Dokumentation. München et al.: K.G. Saur
DIN 1463.: Erstellung und Weiterentwicklung von Thesauri. Teile 1 und 2. Berlin 1988
DIN 31623.: Indexierung zur inhaltlichen Erschließung von Dokumenten. Berlin 1988
Jansen, R. (1978).: Intentionen der Indexierungsnorm DIN 31623 und Überlegungen zum Verhältnis gleichordnende/syntaktische Indexierung. In: Nachr. für Dok. 29(1978) Nr. 1, 19-23
Gräbnitz, V. et al. (o.J.).: Automatische Texterschließung mit PASSAT. Verfahrensbeschreibung. Siemens-Schriftenreihe data praxis. München
Knorz, G. (1990).: Indexieren, Klassieren, Extrahieren. In: Buder/Rehfeld/Seeger (Hrsg., 1990), Band 1, 122-142
Krause, J. (Hrsg., 1987).: Inhaltserschließung von Massendaten. Zur Wirksamkeit informationslinguistischer Verfahren am Beispiel des Deutschen Patentinformationssystems. Hildesheim et al.: Olms
Kuhlen, R. (1990).: Abstracts - Abstracting - intellektuelle und maschinelle Verfahren. In: Buder/Rehfeld/Seeger (Hrsg., 1990), Band 1, 90-121
Luckhardt, H.-D. (1987).: Der Transfer in der Maschinellen Sprachübersetzung. Sprache und Information Band 18. Tübingen: Niemeyer
- (1992).: Thesauri für die Maschinelle Übersetzung. In: H.H. Zimmermann, H.-D. Luckhardt, A. Schulz (Hrsg., 1992). Mensch und Maschine - Informationelle Schnittstellen der Kommunikation. Schriften zur Informationswissenschaft Band 7 Konstanz: Universitätsverlag
Lustig, G. (Hrsg., 1986).: Automatische Indexierung zwischen Forschung und Anwendung. Hildesheim et al.: Olms
Maly, Frank (1990).: Zur Leistungsbewertung automatischer Indexierungsverfahren. Ms. Abschlußarbeit. Lehrinstitut für Dokumentation (LID). Frankfurt
Panyr, J. (1986).: Automatische Klassifikation und Information Retrieval. Tübingen: Niemeyer
Panyr, J.; H.H. Zimmermann (1989).: Information Retrieval: Aktive Systeme und Entwicklungen. In: Batori/Lenders/Putschke Hrsg., 1989), 696-708
Salton, G.; M.J. McGill (1987).: Information Retrieval. Hamburg et al.
Schwarz, C.; G. Thurmair (Hrsg., 1986).: Informationslinguistische Texterschließung. Hildesheim et al.: Olms
Wersig, G. (1985).: Thesaurus-Leitfaden. Eine Einführung in das Thesaurus-Prinzip in Theorie und Praxis. München et al.: K.G. Saur
Zimmermann, H.H. (1979).: Ansätze einer realistischen automatischen Indexierung unter Verwendung linguistischer Verfahren. In: Kuhlen (1979), 311-338
Zimmermann, H.H.; E. Kroupa; G.C. Keil (Hrsg., 1983).: CTX - Ein Verfahren zur computergestützten Texterschließung. Forschungsbericht ID 83-006 Information und Dokumentation des MFT. Karlsruhe: FIZ Karlsruhe. Auch in: Veröffentlichungen der Fachrichtung Informationswissenschaft. Saarbrücken: Universität des Saarlandes
Zimmermann, H.H. (Hrsg., 1987).: Der Transfer informationslinguistischer Technologien am Beispiel von CTX und ITS. Veröffentlichungen der FR Informationswissenschaft. Saarbrücken: Universität des Saarlandes

.Zum Inhaltsverzeichnis dieses Exkurses
.Zurück zum Kapitel "Informatisierung"
.Zurück zum Kapitel "Beispielhafte Fragestellungen"
.Zurück zum Hauptscript
..Zurück zur Infowiss-Homepage
...Zurück zur Server-Homepage

Contact: Dr. Heinz-Dirk Luckhardt (updated on 28-Maerz-1996, meta tags added on 11-July-2000)