Please use this identifier to cite or link to this item:
doi:10.22028/D291-25354
Title: | Eine Übersicht über Information Retrieval (IR) und NLP-Verfahren zur Klassifikation von Texten |
Author(s): | Wenzel, Claudia Hoch, Rainer |
Language: | German |
Year of Publication: | 1994 |
SWD key words: | Künstliche Intelligenz |
Free key words: | iInformation retrieval natürlichsprachliche Verarbeitung Dokumentanalyse Textklassifikation Robustheit artificial intelligence |
DDC notations: | 004 Computer science, internet |
Publikation type: | Report |
Abstract: | Die vorliegende Arbeit soll einen kurzen Überblick über gängige Ansätze aus dem Information Retrieval (IR) und der Natürlichsprachlichen Verarbeitung (NLP) zur Informationsextraktion geben. Diese Untersuchung wurde primär mit dem Ziel durchgeführt, statistische und wissensbasierte Techniken auf ihre Einsetzbarkeit zur Klassifikation von Texten zu evaluieren. Wir unterscheiden zwischen statistischen, regelbasierten, konzeptbasierten, probabilistischen sowie konnektionistischen Verfahren und stellen exemplarisch hierfür bekannte Systeme vor. Sowohl Information Retrieval- als auch NLP-Systeme gehen von korrekten ASCII-Texten als Eingabe aus. Diese Voraussetzung gilt jedoch in der Dokumentanalyse nicht. Nach dem optischen Abtasten eines Dokuments, der Strukturanalyse und der nachfolgenden Texterkennung treten Wortalternativen mit Erkennungswahrscheinlichkeiten auf, die bei der partiellen inhaltlichen Analyse, d. h. der Informationsextraktion aus Texten, berücksichtigt werden müssen. Deshalb gehen wir am Schluß der Arbeit darauf ein, inwieweit die oben genannten Verfahren prinzipiell auf die Dokumentanalyse übertragbar sind. Vorab soll betont werden, daß die vorliegende Studie zwei im Rahmen des ALV-Projektes am DFKI entwickelte Prototypen zur inhaltsbasierten Klassifikation von Dokumenten motiviert: einer verwendet statistische Methoden zur automatischen Indexierung; der andere beruht auf einem Regelinterpreter, der die bewerteten Worthypothesen als Evidenzen für Konzepte durch ein hierarchisches Netzwerk propagiert. |
Link to this record: | urn:nbn:de:bsz:291-scidok-55359 hdl:20.500.11880/25410 http://dx.doi.org/10.22028/D291-25354 |
Series name: | Document / Deutsches Forschungszentrum für Künstliche Intelligenz : D [ISSN 0946-0098] |
Series volume: | 94-07 |
Date of registration: | 8-Nov-2013 |
Faculty: | SE - Sonstige Einrichtungen |
Department: | SE - DFKI Deutsches Forschungszentrum für Künstliche Intelligenz |
Collections: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Files for this record:
File | Description | Size | Format | |
---|---|---|---|---|
D_94_07.pdf | 16,91 MB | Adobe PDF | View/Open |
Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.