Natural language processing for African languages

Adelani, David Ifeoluwa

Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-40305

Titel:	Natural language processing for African languages
Alternativtitel:	NLP for African languages
VerfasserIn:	Adelani, David Ifeoluwa
Sprache:	Englisch
Erscheinungsjahr:	2022
DDC-Sachgruppe:	004 Informatik 400 Sprache, Linguistik 600 Technik
Dokumenttyp:	Dissertation
Abstract:	Recent advances in pre-training of word embeddings and language models leverage large amounts of unlabelled texts and self-supervised learning to learn distributed representations that have significantly improved the performance of deep learning models on a large variety of natural language processing tasks. Similarly, multilingual variants of these models have been developed from web-crawled multilingual resources like Wikipedia and Common crawl. However, there are some drawbacks to building these multilingual representation models. First, the models only include few low-resource languages in the training corpus, and additionally, the texts of these languages are often noisy or of low quality texts. Second, their performance on downstream NLP tasks is difficult to evaluate because of the absence of labelled datasets, therefore, they are typically only evaluated on English and other high-resource languages. In this dissertation, we focus on languages spoken in Sub-Saharan Africa where all the indigenous languages in this region can be regarded as low-resourced in terms of the availability of labelled data for NLP tasks and unlabelled data found on the web. We analyse the noise in the publicly available corpora, and curate a high-quality corpus, demonstrating that the quality of semantic representations learned in word embeddings does not only depend on the amount of data but on the quality of pre-training data. We demonstrate empirically the limitations of word embeddings, and the opportunities the multilingual pre-trained language model (PLM) offers especially for languages unseen during pre-training and low-resource scenarios. We further study how to adapt and specialize multilingual PLMs to unseen African languages using a small amount of monolingual texts. To address the under-representation of the African languages in NLP research, we developed large scale human-annotated labelled datasets for 21 African languages in two impactful NLP tasks: named entity recognition and machine translation. We conduct an extensive empirical evaluation using state-of-the-art methods across supervised, weakly-supervised, and transfer learning settings. In order to advance the progress of NLP for African languages, future work should focus on expanding benchmark datasets for African languages in other important NLP tasks like part of speech tagging, sentiment analysis, hate speech detection, and question answering. Another direction is to focus on development of Africa-centric PLMs. Lastly, research on speech that involves developing corpora and techniques that require zero or few paired speech-text data would be very essential for the survival of many under-resourced African languages. Jüngste Fortschritte beim Pre-Training von Worteinbettungen und neuronalen Sprachmodellen nutzen große Mengen nicht gelabelter Texte und selbstüberwachtes Lernen zum Erlernen verteilter Repräsentationen, die die Leistung von Deep-Learning-Modellen bei einer Vielzahl von Aufgaben zur Verarbeitung natürlicher Sprache erheblich verbessert haben. In ähnlicher Weise wurden mehrsprachige Varianten dieser Modelle auf der Grundlage von mehrsprachigen Ressourcen aus dem Internet wie Wikipedia und Common Crawl entwickelt. Die Entwicklung dieser mehrsprachigen Repräsentationsmodelle birgt jedoch einige Nachteile. Erstens enthalten die Modelle nur wenige Sprachen mit geringen Ressourcen im Trainingskorpus, und außerdem sind die Texte dieser Sprachen oft von geringer Qualität. Zweitens ist ihre Leistung bei nachgelagerten NLP-Aufgaben schwer zu bewerten, da es keine gelabelten Datensätze gibt, weshalb sie nur für Englisch und andere Sprachen mit hohen Ressourcen bewertet werden. In dieser Dissertation konzentrieren wir uns auf Sprachen, die in Afrika südlich der Sahara gesprochen werden. Alle einheimischen Sprachen in dieser Region können als ressourcenarm angesehen werden, was die Verfügbarkeit von gelabelten Daten für NLP-Aufgaben und von nicht gelabelten Daten aus dem Internet angeht. Wir analysieren das Rauschen in den öffentlich zugänglichen Korpora und kuratieren ein qualitativ hochwertiges Korpus, um zu zeigen, dass die Qualität der semantischen Repräsentationen, die mit Worteinbettungen gelernt werden, nicht nur von der Menge der Daten, sondern auch von der Qualität der Trainingsdaten abhängt. Wir demonstrieren empirisch die Grenzen von Worteinbettungen und die Möglichkeiten, die mehrsprachige vortrainierte Sprachmodell (PLM) bietet.Wir konzentrieren uns hierbei insbesondere auf Sprachen, die kein Bestandteil der Trainingsdaten sind, sowie auf Szenarien mit geringen Mengen an gelabelten Daten. Darüber hinaus untersuchen wir, wie man mehrsprachige vortrainierte Sprachmodelle an für sie unbekannte afrikanische Sprachen anpassen und spezialisieren kann, indem man eine kleine Menge von Texten in der jeweiligen Sprache verwendet. Um der Unterrepräsentation afrikanischer Sprachen in der NLP-Forschung entgegenzuwirken haben wir große, von Menschen gelabelte Datensätze für 21 afrikanische Sprachen in zwei wichtigen NLP-Aufgaben entwickelt: Eigennamenerkennung und maschinelle Übersetzung; und führen eine umfassende empirische Evaluierung von modernsten Methoden des Überwachten-, Schwach-Überwachten- und Transfer Lernens durch. Um den Fortschritt von NLP für afrikanische Sprachen weiter voranzutreiben, sollte sich die zukünftige Arbeit auf die Erweiterung von Benchmark-Datensätzen für afrikanische Sprachen in anderen wichtigen NLP-Aufgaben wie der des Part-of-Speech-Tagging, der Sentiment- Analyse, der Erkennung von Hassreden und der Beantwortung von Fragen konzentrieren. Ein weiterer Bereich ist die Entwicklung von afrikazentrierten vortrainierten Sprachmodellen. Schließlich wäre die Erstellung von Korpora sowie die Erforschung und Entwicklung von Techniken, die keine oder nur wenige Sprach- oder Textdaten benötigen, sehr wichtig für das Überleben vieler afrikanischer Sprachen mit geringen Ressourcen.
Link zu diesem Datensatz:	urn:nbn:de:bsz:291--ds-403051 hdl:20.500.11880/36297 http://dx.doi.org/10.22028/D291-40305
Erstgutachter:	Klakow, Dietrich
Tag der mündlichen Prüfung:	27-Jun-2023
Datum des Eintrags:	22-Aug-2023
Fördernummer:	3081705, 833635
EU-Projektnummer:	info:eu-repo/grantAgreement/EC/H2020/833635/EU//ROXANNE
Fakultät:	MI - Fakultät für Mathematik und Informatik P - Philosophische Fakultät
Fachrichtung:	P - Sprachwissenschaft und Sprachtechnologie
Professur:	P - Prof. Dr. Dietrich Klakow
Sammlung:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:

Datei	Beschreibung	Größe	Format
DavidAdelani_Thesis_10_08_2023.pdf	Dissertation for David Adelani	2,26 MB	Adobe PDF	Öffnen/Anzeigen

Export: BibTex Statistik anzeigen

Diese Ressource wurde unter folgender Copyright-Bestimmung veröffentlicht: Lizenz von Creative Commons