Please use this identifier to cite or link to this item: doi:10.22028/D291-25354
Title: Eine Übersicht über Information Retrieval (IR) und NLP-Verfahren zur Klassifikation von Texten
Author(s): Wenzel, Claudia
Hoch, Rainer
Language: German
Year of Publication: 1994
SWD key words: Künstliche Intelligenz
Free key words: iInformation retrieval
natürlichsprachliche Verarbeitung
Dokumentanalyse
Textklassifikation
Robustheit
artificial intelligence
DDC notations: 004 Computer science, internet
Publikation type: Report
Abstract: Die vorliegende Arbeit soll einen kurzen Überblick über gängige Ansätze aus dem Information Retrieval (IR) und der Natürlichsprachlichen Verarbeitung (NLP) zur Informationsextraktion geben. Diese Untersuchung wurde primär mit dem Ziel durchgeführt, statistische und wissensbasierte Techniken auf ihre Einsetzbarkeit zur Klassifikation von Texten zu evaluieren. Wir unterscheiden zwischen statistischen, regelbasierten, konzeptbasierten, probabilistischen sowie konnektionistischen Verfahren und stellen exemplarisch hierfür bekannte Systeme vor. Sowohl Information Retrieval- als auch NLP-Systeme gehen von korrekten ASCII-Texten als Eingabe aus. Diese Voraussetzung gilt jedoch in der Dokumentanalyse nicht. Nach dem optischen Abtasten eines Dokuments, der Strukturanalyse und der nachfolgenden Texterkennung treten Wortalternativen mit Erkennungswahrscheinlichkeiten auf, die bei der partiellen inhaltlichen Analyse, d. h. der Informationsextraktion aus Texten, berücksichtigt werden müssen. Deshalb gehen wir am Schluß der Arbeit darauf ein, inwieweit die oben genannten Verfahren prinzipiell auf die Dokumentanalyse übertragbar sind. Vorab soll betont werden, daß die vorliegende Studie zwei im Rahmen des ALV-Projektes am DFKI entwickelte Prototypen zur inhaltsbasierten Klassifikation von Dokumenten motiviert: einer verwendet statistische Methoden zur automatischen Indexierung; der andere beruht auf einem Regelinterpreter, der die bewerteten Worthypothesen als Evidenzen für Konzepte durch ein hierarchisches Netzwerk propagiert.
Link to this record: urn:nbn:de:bsz:291-scidok-55359
hdl:20.500.11880/25410
http://dx.doi.org/10.22028/D291-25354
Series name: Document / Deutsches Forschungszentrum für Künstliche Intelligenz : D [ISSN 0946-0098]
Series volume: 94-07
Date of registration: 8-Nov-2013
Faculty: SE - Sonstige Einrichtungen
Department: SE - DFKI Deutsches Forschungszentrum für Künstliche Intelligenz
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
D_94_07.pdf16,91 MBAdobe PDFView/Open


Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.