Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-25354
Titel: Eine Übersicht über Information Retrieval (IR) und NLP-Verfahren zur Klassifikation von Texten
Verfasser: Wenzel, Claudia
Hoch, Rainer
Sprache: Deutsch
Erscheinungsjahr: 1994
SWD-Schlagwörter: Künstliche Intelligenz
Freie Schlagwörter: iInformation retrieval
natürlichsprachliche Verarbeitung
Dokumentanalyse
Textklassifikation
Robustheit
artificial intelligence
DDC-Sachgruppe: 004 Informatik
Dokumentart : Report (Bericht)
Kurzfassung: Die vorliegende Arbeit soll einen kurzen Überblick über gängige Ansätze aus dem Information Retrieval (IR) und der Natürlichsprachlichen Verarbeitung (NLP) zur Informationsextraktion geben. Diese Untersuchung wurde primär mit dem Ziel durchgeführt, statistische und wissensbasierte Techniken auf ihre Einsetzbarkeit zur Klassifikation von Texten zu evaluieren. Wir unterscheiden zwischen statistischen, regelbasierten, konzeptbasierten, probabilistischen sowie konnektionistischen Verfahren und stellen exemplarisch hierfür bekannte Systeme vor. Sowohl Information Retrieval- als auch NLP-Systeme gehen von korrekten ASCII-Texten als Eingabe aus. Diese Voraussetzung gilt jedoch in der Dokumentanalyse nicht. Nach dem optischen Abtasten eines Dokuments, der Strukturanalyse und der nachfolgenden Texterkennung treten Wortalternativen mit Erkennungswahrscheinlichkeiten auf, die bei der partiellen inhaltlichen Analyse, d. h. der Informationsextraktion aus Texten, berücksichtigt werden müssen. Deshalb gehen wir am Schluß der Arbeit darauf ein, inwieweit die oben genannten Verfahren prinzipiell auf die Dokumentanalyse übertragbar sind. Vorab soll betont werden, daß die vorliegende Studie zwei im Rahmen des ALV-Projektes am DFKI entwickelte Prototypen zur inhaltsbasierten Klassifikation von Dokumenten motiviert: einer verwendet statistische Methoden zur automatischen Indexierung; der andere beruht auf einem Regelinterpreter, der die bewerteten Worthypothesen als Evidenzen für Konzepte durch ein hierarchisches Netzwerk propagiert.
Link zu diesem Datensatz: urn:nbn:de:bsz:291-scidok-55359
hdl:20.500.11880/25410
http://dx.doi.org/10.22028/D291-25354
Schriftenreihe: Document / Deutsches Forschungszentrum für Künstliche Intelligenz : D [ISSN 0946-0098]
Band: 94-07
SciDok-Publikation: 8-Nov-2013
Fakultät: Sonstige Einrichtungen
Fachrichtung: SE - DFKI Deutsches Forschungszentrum für Künstliche Intelligenz
Fakultät / Institution:SE - Sonstige Einrichtungen

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
D_94_07.pdf16,91 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.