Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen:
doi:10.22028/D291-43885
Titel: | Automatische Schlagwortvergabe aus der SWD für Repositorien |
VerfasserIn: | Herb, Ulrich Rösener, Christoph |
Sprache: | Deutsch |
Erscheinungsjahr: | 2008 |
DDC-Sachgruppe: | 020 Bibliotheks- und Informationswissenschaft |
Dokumenttyp: | Sonstiges |
Abstract: | This presentation discusses the development and implementation of an automated keyword assignment system using the SWD (Schlagwortnormdatei) for repositories. It highlights challenges with manual indexing, such as inconsistencies and inefficiencies, and proposes an automated approach to improve metadata quality. The AUTINDEX system leverages linguistic and statistical analysis of abstracts, free keywords, and titles to generate accurate SWD-based suggestions. The talk also explores the benefits of this system, including enhanced searchability, streamlined submission processes, and reduced workload for repository managers. Future plans for further development and integration are also outlined. Die Saarländische Universitäts- und Landesbibliothek (SULB) betreibt zwei Open-Access-Server: SciDok, den Wissenschaftserver der Universität des Saarlandes (http://scidok.sulb.uni-saarland.de) und PsyDok, den Volltextserver der Virtuellen Fachbibliothek Psychologie (http://psydok.sulb.uni-saarland.de). Beide Server basieren auf der an der Universität Stuttgart entwickelten Software OPUS. OPUS ist die in Deutschland am weitesten verbreitete Software zum Betrieb von Volltextservern. Bei der Veröffentlichung werden Dokumente in aller Regel von den Wissenschaftlern selbst in einem Metadatenformular beschrieben und zusammen mit dem Volltext auf den Server übertragen. Nach Überprüfung durch Bibliothekare werden die Dokumente freigeschaltet. Wissenschaftler tun sich mit dem Ausfüllen des Metadatenformulars schwer. Als besonders hinderlich erweist sich dabei das Feld „Kontrollierte Schlagworte“, über welches das Dokument mit Schlagworten aus der Schlagwort-Norm-Datei (SWD) beschrieben werden soll. Trotz Verlinkung zu einer Online-Oberfläche des Bibliotheks-Service-Zentrums Baden-Württemberg (BSZ) zur Vergabe der SWD-Schlagworte bestehen Probleme: Wissenschaftler wählen meist zu grobe oder sogar falsche Schlagworte, da ihnen die SWD nicht vertraut ist. Dies erfordert aufwändiges Nachbearbeiten der Verschlagwortung durch die SULB. Für ein exaktes Retrieval wäre es sinnvoll, wenn die Wissenschaftler selbst eine trennscharfe Verschlagwortung vornehmen würden, da sie selbst den Inhalt der Dokumente am besten beschreiben können. Dies bedarf einer technischen Unterstützung. Ideal wäre eine in den Veröffentlichungs- und Überprüfungsprozess eingebundene Funktionalität, die Wissenschaftler und Bibliothekare mit einer automatischen Verschlagwortung unterstützt. Innerhalb eines von der SULB und dem Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes (IAI) beantragten Projekts soll ein System entwickelt werden, welches in der Lage ist, für einen beliebigen Text automatisch Schlagwörter zu vergeben. Als Grundlage wird dabei die SWD verwendet. Das System soll nur solche Schlagwörter vergeben, die in der SWD enthalten sind. Anschließend soll dieses System in die Open-Access-Server der SULB eingebunden werden. Dabei ist ein sog. “postprocessing”-Verfahren durch die Autoren geplant, d.h. der Autor erhält vom System eine Vorschlagsliste (sog. 'Pickliste') von automatisch ausgewählten Schlagwörtern, aus der er dann die seiner Meinung nach treffendsten auswählt. Ein solches System fördert zum einen die Akzeptanz der Autoren gegenüber der Vergabe von Schlagwörtern aus der SWD und führt somit zu einer besseren Verschlagwortung und Wiederauffindbarkeit der Dokumente. Zum anderen verhindert ein solches System die falsche Verschlagwortung von Publikationen durch Schlagwörter, die nicht in der SWD enthalten sind. Linguistik Als grundlegende Technik für ein solches System ist eine Lösung mit linguistischer Intelligenz vorgesehen. Zunächst wird der jeweilige Text durch eine morphosyntaktische bzw. semantische Analysekomponente vollständig analysiert. Dabei wird für die im Text vorkommenden Wörter die Grundform (Zitatform) und die Wortklasse (Substantiv, Verb, Adjektiv usw.) erzeugt. Weiterhin liefert die morphosyntaktische Analysekomponente Flexionsinformationen (Kasus, Numerus, Genus, Tempus, Person – je nach Wortart), sowie die Wortstruktur, d.h. die Zerlegung des Wortes in seine Bestandteile. Die semantische Analysekomponente liefert bei sog. Bedeutungswörtern zusätzlich eine semantische Klassifikation. Die Dokumente werden anschließend mit diesen errechneten Merkmalsstrukturen annotiert. Danach werden unter Berücksichtigung der SWD die zutreffenden Schlagwörter berechnet. Dies geschieht anhand eines komplexen Gewichtungsmechanismus, der sowohl statistische als auch linguistische bzw. informationswissenschaftliche Verfahren anwendet. Neben statistischen Auswertungen (Häufigkeit eines Wortes, Position im Text etc.) werden dabei auch die o.g. semantischen Feature-Strukturen berücksichtigt. Dabei wird ein Wort anhand seiner semantischen Klassifikaton im Hinblick auf den gesamtsemantischen Kontext des jeweiligen Dokuments betrachtet. Dieser Wert fließt später mit in die Gewichtung ein. Somit errechnet das System ausschließlich Schlagwörter, die für den jeweiligen Text wirklich repräsentativ sind. |
Link zu diesem Datensatz: | urn:nbn:de:bsz:291--ds-438857 hdl:20.500.11880/39265 http://dx.doi.org/10.22028/D291-43885 |
Datum des Eintrags: | 4-Jan-2025 |
Bemerkung/Hinweis: | Bibliothekartag 2008, Mannheim, Germany |
Fakultät: | ZE - Zentrale Einrichtungen |
Fachrichtung: | ZE - Saarländische Universitäts- und Landesbibliothek |
Professur: | ZE - Sonstige |
Sammlung: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Dateien zu diesem Datensatz:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
Ulrich Herb - Christop Roesener - 2008 - Automatische Schlagwortvergabe aus der SWD für Repositorien.pdf | 55,08 kB | Adobe PDF | Öffnen/Anzeigen |
Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.