Advancing semantic understanding in multilingual and multimodal contexts

Zhang, Miaoran

Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-47441

Titel:	Advancing semantic understanding in multilingual and multimodal contexts
VerfasserIn:	Zhang, Miaoran
Sprache:	Englisch
Erscheinungsjahr:	2025
DDC-Sachgruppe:	004 Informatik 400 Sprache, Linguistik
Dokumenttyp:	Dissertation
Abstract:	Human beings possess a remarkable ability to understand the meaning of messages and conversations by leveraging their knowledge of language and contextual cues. However, for natural language processing (NLP) systems, accurately capturing semantic information in texts remains a significant challenge. This challenge stems from the inherent complexity of human language, such as linguistic ambiguity and long-range dependencies, and becomes even more pronounced in low-resource languages with limited data. Furthermore, language does not exist in isolation -- it is often intertwined with other modalities. To develop NLP systems for real-world applications, it is crucial to effectively encode and model semantic information in dynamic multilingual and multimodal scenarios. In this dissertation, we present a series of studies to enhance the semantic understanding of NLP systems across diverse tasks. First, we investigate the key factors that influence word embedding learning in multiple languages. By systematically evaluating the effects of the learning algorithm, corpus size, and training parameters, we provide actionable insights to generate high-quality word representations. Next, we introduce a novel method to learn sentence embeddings by exploiting visual and textual information via a multimodal contrastive objective. This approach demonstrates significant performance improvements on semantic similarity tasks and offers a versatile technique for integrating multimodal data into text representation learning. Third, we develop a framework to predict semantic relatedness for under-represented languages, addressing data scarcity through data augmentation and facilitating effective cross-lingual transfer using adapters. Finally, we examine the impact of few-shot demonstrations in in-context learning across a wide range of languages and tasks that require nuanced semantic understanding, revealing that their impact may have been overestimated in prior work and is highly context-dependent. Overall, these studies combine technical innovations with in-depth analysis, facilitating the development of more robust, multilingual, and multimodal intelligent systems. Menschen verfügen über die bemerkenswerte Fähigkeit, die Bedeutung von Botschaften und Gesprächen zu verstehen, indem sie ihr Wissen über Sprache und kontextuelle Hinweise nutzen. Für Systeme zur Verarbeitung natürlicher Sprache (NLP) bleibt die genaue Erfassung semantischer Informationen in Texten jedoch eine große Herausforderung. Diese Herausforderung ergibt sich aus der inhärenten Komplexität der menschlichen Sprache, wie z. B. sprachlicher Mehrdeutigkeit und weitreichenden Abhängigkeiten, und wird bei Sprachen mit geringen Ressourcen und begrenzten Daten noch deutlicher. Darüber hinaus existiert Sprache nicht isoliert, sondern ist oft mit anderen Modalitäten verflochten. Um NLP-Systeme für reale Anwendungen zu entwickeln, ist es entscheidend, semantische Informationen in dynamischen mehrsprachigen und multimodalen Szenarien effektiv zu kodieren und zu modellieren. In dieser Dissertation stellen wir eine Reihe von Studien vor, die das semantische Verständnis von NLP-Systemen bei verschiedenen Aufgaben verbessern sollen. Zunächst untersuchen wir die Schlüsselfaktoren, die das Lernen von Wort-Embeddings in mehreren Sprachen beeinflussen. Durch die systematische Bewertung der Auswirkungen des Lernalgorithmus, der Korpusgröße und der Trainingsparameter liefern wir umsetzbare Erkenntnisse zur Generierung hochwertiger Wortdarstellungen. Als Nächstes stellen wir eine neuartige Methode zum Lernen von Satz-Embeddings vor, bei der visuelle und textuelle Informationen über ein multimodales kontrastives Ziel genutzt werden. Dieser Ansatz zeigt signifikante Leistungsverbesserungen bei Aufgaben zur semantischen Ähnlichkeit und bietet eine vielseitige Technik zur Integration multimodaler Daten in das Lernen von Textdarstellungen. Drittens entwickeln wir ein Framework zur Vorhersage der semantischen Verwandtschaft für unterrepräsentierte Sprachen, das Datenknappheit durch Datenvergrößerung behebt und einen effektiven sprachübergreifenden Transfer mithilfe von Adaptern ermöglicht. Schließlich untersuchen wir die Auswirkungen von Few-Shot-Demonstrationen beim kontextbezogenen Lernen über eine Vielzahl von Sprachen und Aufgaben hinweg, die ein nuanciertes semantisches Verständnis erfordern, und zeigen, dass ihre Auswirkungen in früheren Arbeiten möglicherweise überschätzt wurden und in hohem Maße kontextabhängig sind. Insgesamt verbinden diese Studien technische Innovationen mit eingehenden Analysen und erleichtern so die Entwicklung robusterer, mehrsprachiger und multimodaler intelligenter Systeme.
Link zu diesem Datensatz:	urn:nbn:de:bsz:291--ds-474416 hdl:20.500.11880/41620 http://dx.doi.org/10.22028/D291-47441
Erstgutachter:	Klakow, Dietrich
Tag der mündlichen Prüfung:	23-Mär-2026
Datum des Eintrags:	28-Apr-2026
Drittmittel / Förderung:	Deutsche Forschungsgemeinschaft (DFG)
Fördernummer:	Project-ID 232722074 - SFB 1102
Fakultät:	MI - Fakultät für Mathematik und Informatik
Fachrichtung:	MI - Informatik
Professur:	MI - Keiner Professur zugeordnet
Sammlung:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:

Datei	Beschreibung	Größe	Format
PhD_Thesis_Miaoran_final.pdf		3,7 MB	Adobe PDF	Öffnen/Anzeigen

Export: BibTex Statistik anzeigen

Diese Ressource wurde unter folgender Copyright-Bestimmung veröffentlicht: Lizenz von Creative Commons