Please use this identifier to cite or link to this item:
doi:10.22028/D291-45047
Title: | A representation learning based approach to the study of translationese |
Author(s): | Dutta Chowdhury, Koel |
Language: | English |
Year of Publication: | 2024 |
DDC notations: | 004 Computer science, internet 400 Language, linguistics 500 Science 600 Technology |
Publikation type: | Dissertation |
Abstract: | Translated texts exhibit systematic linguistic differences compared to original texts in the same language. These differences are referred to as translationese, and can be categorised as either source language dependent or universal. Basic research on translationese aims to understand and characterise the language-specific and language-independent aspects of translationese. Additionally, translationese has practical implications in the context of natural language processing tasks that involve translation. Translationese effects can cause biased results in a variety of cross-lingual tasks. Therefore, understanding, analysing and mitigating translationese is crucial for improving the accuracy and effectiveness of cross-lingual natural language processing. Focusing on representation learning, this dissertation addresses both foundational as well as practical aspects of translationese. Our first task is to investigate the effectiveness of representation learning-based methods in mono- and multilingual translationese classification. Traditional manual featureengineering based methods for translationese classification may result in potentially partial, non-exhaustive linguistic features and often require linguistic annotation tools. In contrast, our approach involves developing a suite of representation-learning methods based on word embeddings, eliminating the need for manual feature engineering. Our experiments demonstrate superior performance, outperforming previous traditional hand-crafted linguistically inspired feature-selection methods for translationese classification on a wide range of tasks. Translationese artifacts have been found to exert a substantial influence on diverse downstream tasks involving translated data. Therefore, to mitigate the impact of translationese on downstream tasks, we propose a new approach: translationese debiasing. Our research is the first to adapt the Iterative Null Space Projection (INLP) algorithm, originally designed to mitigate gender attributes, to translationese-induced bias in both word and sentence embedding spaces. Additionally, we develop two techniques for debiasing translationese at the word level representations. We confirm the effectiveness of our debiasing approach by comparing the classification performance before and after debiasing on the translationese classification task. Additionally, we demonstrate the practical utility of our debiasing method by applying it to a natural language inference task involving translated data, where we observed improved accuracy as a result of reduced translation-induced bias. Next, we address the foundational question of whether translationese signals can be observed in semantic word embedding spaces and, if so, what practical implications this observation may have. To this end, we propose a novel approach for unsupervised tracking of translationese in semantic spaces, which does not rely on explicit linguistic labels. Our method is based on graph-isomorphism approaches that examine departures from isomorphism between embedding spaces built from original language data and translations into this language. By comparing the normalised distances between these spaces, we are able to identify systematic evidence of translationese. Specifically, we find that as isomorphism weakens, the linguistic distance between etymologically distant language families increases, providing evidence that translationese signals are linked to source language interference. Following this, we show that the proposed methods are robust under a variety of training conditions, encompassing data size, type, and choice of word embedding models. Additionally, our findings indicate our methods are language-independent, in the sense that they can be applied to multiple languages and are not limited to a specific language or language family. We extend the work on unsupervised tracking of translationese in semantic spaces to evaluate the impact of domain in translationese data. Translationese signals are subtle and may compete with other signals in the data, particularly those related to domain. To address this, we mask domain information by applying our graph-isomorphism methods to different delexicalized representations using various views, including words, parts of speech, semantic tags, and synsets. Our results demonstrate that while source-language interference is most pronounced in lexicalised embeddings (word), it is also present in delexicalised views. This indicates that our lexicalised findings are not only the result of possible topic differences between original and translated texts. Additionally, we show that, regardless of the level of linguistic representation, language family ties with characteristics similar to linguistically motivated phylogenetic trees can be inferred from the degree of departures from isomorphism, using all combinations of original target language and translations into this target language from different source languages. Finally, we explore whether the graph-based divergence from isomorphism in embeddings can serve as a viable proxy for surprisal at the the level of surface texts. To do this, we explicitly compute the correlation between (a) differences in surface string entropy of original vs. translated data computed by language models trained on originally authored data and (b) divergence from isomorphism between embedding spaces computed on the same text data. Our results show a positive correlation between these two measures with a higher departure from isomorphism between embedding spaces corresponding to a greater difference in surface entropy. Additionally, similar to the findings of graph-based divergence from isomorphism between embedding spaces where higher divergence from isomorphism implicitly indicates higher linguistic distance in terms of language families and, supposedly, surface structural linguistic distance between languages — our entropy-based findings demonstrate that the observed differences in surface string representations between the original and translated datasets also correspond, at a higher level, with the surface structural linguistic distance between the source languages themselves. These results establish an explicit link between our two measures: divergence from isomorphism between original and translated embedding spaces and entropy differences of the surface strings of the same text data. Übersetzte Texte weisen im Vergleich zu Originaltexten in derselben Sprache systematische sprachliche Unterschiede auf, die zu einer einzigartigen Teilsprache mit eigenen Unterscheidungsmerkmalen führen. Diese Unterschiede werden als Translationese (Gellerstam, 1986) bezeichnet und können entweder als ausgangssprachabhängig oder universell kategorisiert werden. Es ist wichtig zu beachten, dass Translationese keine eigenständige Sprache ist, sondern vielmehr eine Reihe von sprachlichen Merkmalen (Baker et al., 1993; Toury, 1980), die übersetzte Texte von denen unterscheiden, die ursprünglich in der Zielsprache geschrieben wurden. Verschiedene Faktoren tragen zu den Unterschieden zwischen den Originaltexten und übersetzten Texten bei, von denen viele unter die Kategorie der universellen Merkmale der Übersetzung fallen. Zu diesen universellen Merkmalen gehören die Vereinfachung, d. h. die Vereinfachung komplexer Ausgangsstrukturen in der Zielsprache, die Standardisierung, d. h. die Neigung, sich eng an die Normen der Zielsprache zu halten, und die Explizierung, d. h. die Verdeutlichung impliziter Ausgangsstrukturen in der Zielsprache. Im Gegensatz zu diesen übersetzerischen Universalien spiegelt die Interferenz den Einfluss der Ausgangssprache auf das Übersetzungsprodukt wider. Interferenz ist von Natur aus ein sprachpaarspezifisches Phänomen, bei dem isomorphe Strukturen, die Ausgangs- und Zielsprache gemeinsam haben, einander leicht ersetzen können. Dies verdeutlicht den zugrunde liegenden sprachübergreifenden Einfluss der Ausgangssprache auf das Übersetzungsergebnis. Nach dieser Definition wird das Übersetzen als eine besondere Form der sprachübergreifenden Sprachvarietät betrachtet, die einen Sonderfall innerhalb der breiteren Landschaft des Sprachkontakts darstellt. Trotz des beträchtlichen Umfangs der Forschung zu verschiedenen sprachübergreifenden Sprachvarietäten gibt es eine auffällige Lücke, wenn es um die spezifische Untersuchung des Translationese geht. Bisherige Studien haben sich vor allem auf zwei Aspekte konzentriert, nämlich auf die Identifizierung charakteristischer Merkmale von Übersetzungen und auf die Klassifizierung von Translationese, wobei sorgfältige korpusbasierte Studien (Baker et al., 1993) verwendet wurden, die Unterschiede in der Verteilung linguistischer Merkmale zwischen Originalen und übersetzten Texten aufzeigen, oder klassifikationsbasierte Ansätze bei denen ein Klassifikator trainiert wird und dann Merkmalsbedeutungsmaße verwendet werden, um darauf zu schließen, welche Merkmale bei der Klassifizierung von Übersetzungen besonders wichtig sind (Rabinovich and Wintner, 2015; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Die praktischen Implikationen von Translationswissenschaft gehen jedoch über die Identifizierung linguistischer Merkmale und die Klassifizierung hinaus. Die ausgeprägten sprachlichen Unterschiede, die zwischen Originaltexten und übersetzten Texten in derselben Sprache zu beobachten sind, lassen sich im Großen und Ganzen entweder als quellsprachenabhängig oder als universell klassifizieren. Die Durchführung von Grundlagenforschung zum Translationese ist wichtig, da sie wertvolle Einblicke sowohl in sprachspezifische als auch in sprachunabhängige Aspekte dieses sprachlichen Phänomens liefert. Die Grundlagenforschung ermöglicht ein tieferes Verständnis der zugrundeliegenden Muster und Strukturen, die das Translationese definieren, sowie der Variationen, die in verschiedenen Sprachen und Sprachfamilien beobachtet werden. Es ist jedoch auch wichtig, eine bestehende Lücke in der Erforschung des Translationese zu schließen. Translationese hat spürbare Auswirkungen auf verschiedene sprachübergreifende Aufgaben der natürlichen Sprachverarbeitung (NLP), was zu verzerrten Ergebnissen und verminderter oder künstlich aufgeblähter Leistung führen kann. Daher ist die Untersuchung und Abschwächung von Translationese für die Verbesserung der Genauigkeit und Effektivität dieser Aufgaben von entscheidender Bedeutung. Die Abschwächung von Translationese ist bisher ein wenig erforschtes Gebiet. Ein wichtiger Teil der in dieser Arbeit vorgestellten Forschung besteht darin, diese Lücke zu schließen. In dieser Arbeit konzentrieren wir uns auf das Repräsentationslernen als einen umfassenden Ansatz, um sowohl die grundlegenden als auch die praktischen Aspekte von Translationese zu behandeln. Mit dieser Forschungsarbeit wollen wir einen Beitrag zum breiteren Feld der sprachübergreifenden Sprachstudien leisten und eine bestehende Lücke im Verständnis und in der Behebung von Translationese schließen. Zunächst befassen wir uns mit den praktischen Aspekten von Translationese. Frühere Studien haben gezeigt dass die Verwendung verschiedener manuell erstellter Merkmale für überwachtes Lernen für die Klassifizierung von Translationese effektiv sein kann (Avner, Ordan, and Wintner, 2016; Baroni and Bernardini, 2005; Rabinovich, Ordan, and Wintner, 2017; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Dies hat sich als nützlich für eine Vielzahl von Aufgaben erwiesen, wie z. B. die Analyse von Übersetzungsstrategien (Lapshinova- Koltunski, 2015), die Untersuchung der Merkmale (Koppel and Ordan, 2011; Rubino, Lapshinova-Koltunski, and Genabith, 2016) von Translationese oder die Bewertung von maschinellen Übersetzungssystemen (Graham, Haddow, and Koehn, 2019; Zhang and Toral, 2019). In Anlehnung an diese Forschungslinie in der Erforschung des Translationese, konzentrieren wir uns auf zwei praktische Aufgaben: (i) mehrsprachige Klassifizierung von Translationese, und (ii) wir schlagen eine neue Aufgabe vor, nämlich die Milderung von Translationese-Artefakten. Im Rahmen von (i) entwerfen, entwickeln und evaluieren wir verschiedene Repräsentationslernansätze zur Klassifikation mehrsprachigen Translationese und vergleichende sie mit klassischen manuellen, auf Feature-Engineering basierenden Ansätzen für dieselben Daten. In (ii) führen wir die neue Aufgabe ein, Translationese Artefakte aus latenten Repräsentationsräumen zu entfernen. Dies bezieht sich auf den Prozess der Entfernung oder die Reduzierung des Einflusses von Artefakten auf die gelernten Repräsentationen von Texten, um die Eigenschaften der Originaltexte besser wiederzugeben. Translationese wurde als eine Reihe von spezifischen linguistischen Merkmalen und Konventionen charakterisiert, die Übersetzungen von Originaltexten unterscheiden (Baker et al., 1993; Teich, 2003; Toury, 1979). Frühere bahnbrechende Forschungen zur automatischen Klassifizierung von Übersetzungen (Baroni and Bernardini, 2005; Koppel and Ordan, 2011) verwendeten traditionelle, handgefertigte, linguistisch inspirierte, auf Features basierende, überwachte maschinelle Lernansätze, um Klassifikatoren zu trainieren. Häufig wurden Feature-Ranking-Methoden verwendet, um herauszufinden, welche der Features wichtige Indikatoren für Translationese sind (Avner, Ordan, and Wintner, 2016; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Manuelle, linguistisch inspirierte, auf Feature- Engineering basierende Ansätze haben den Vorteil, dass die verwendeten Merkmale (und ihre Rangfolge) für menschliche Experten leicht zu interpretieren sind. Es gibt jedoch einige Gründe, warum es problematisch sein kann, sich bei der überwachten Klassifizierung von Übersetzungen auf manuell erstellte linguistische Merkmale zu verlassen. Eines der Hauptprobleme bei diesem Ansatz ist, dass die manuell erstellten Merkmale möglicherweise nicht vollständig sind und nicht alle wichtigen Unterscheidungsmerkmale der Eingabedaten während des Trainings erfassen. Dies liegt daran, dass die Merkmale auf linguistischen Intuitionen beruhen und möglicherweise nicht alle möglichen Variationen in den Eingabedaten berücksichtigen. Darüber hinaus erfordert die Annotation linguistischer Daten in großem Umfang (automatische) Annotationswerkzeuge, und die Beschaffung linguistischer Annotationswerkzeuge, wie Tokenisierer, Tagger, morphologische Analysatoren, NERs, Chunkers, Parser usw., kann für viele Sprachen eine Herausforderung darstellen (insbesondere für Sprachen mit geringen Ressourcen), was den Nutzen dieses Ansatzes einschränkt. Darüber hinaus ist die automatische Annotation im großen Maßstab immer verrauscht, und die Merkmale können sprach- oder linguistiktheoriespezifisch sein. Teilweise als Reaktion auf die Beschränkungen der von der linguistischen Theorie inspirierten Merkmale wurden in früheren Arbeiten auch einfache lexikalisierte Merkmale wie Wort-Token und Zeichen-N-Gramme (Avner, Ordan, and Wintner, 2016) oder Merkmale auf der Grundlage von Zählmodellen, Informationsdichte, Überraschung und Komplexität für die Textklassifizierung, insbesondere bei der Bewertung der Übersetzungsqualität, untersucht. Diese Merkmale dienen als Indikatoren für Translationese sowohl von ursprünglich verfassten als auch von manuell übersetzten Texten (Rubino, Lapshinova-Koltunski, and Genabith, 2016). Diese Forschung stützt sich jedoch auf diskrete zählbasierte Ansätze, die Wörter als diskrete Einheiten behandeln, was zu begrenzten Möglichkeiten der Kontextmodellierung führt. In dieser Arbeit erforschen wir einen alternativen Ansatz zur Klassifizierung von mehrsprachigem Translationese, ohne uns auf manuelles Feature Engineering zu verlassen, was uns dazu motiviert, unsere erste Forschungsfrage zu formulieren. RQ1: Inwieweit können Techniken des Repräsentationslernens, wie z. B. Einbettungen, übersetzte und nicht übersetzte Texte ohne vorherige linguistische Annahmen unterscheiden? Der erste Beitrag dieser Dissertation in Kapitel 3 besteht darin, eine Reihe von auf Repräsentationslernen basierenden Methoden zu entwerfen, zu implementieren und zu evaluieren, so dass die manuelle Erstellung von Merkmalen überflüssig wird. Auf Merkmalen und Repräsentationen basierende Lernmethoden werden in erster Linie von Faktoren wie den Daten, der Aufgabe und dem Lerner beeinflusst, ohne sich auf vorherige linguistische Annahmen oder Vorurteile zu stützen. Dies steht im Gegensatz zu linguistisch inspirierten, handgefertigten Feature-Engineering-Ansätzen, die keine Garantie dafür bieten, dass die Features und Repräsentationen vollständig sind. Daher wollen wir die Ergebnisse, die mit auf Repräsentationslernen basierendenAnsätzen für die Klassifikation mehrsprachiger Übersetzungen erzielt werden, mit denen unserer früheren klassischen, auf manuellem Feature-Engineering basierenden Ansätze vergleichen, die linguistisch informierte Methoden und automatische Annotationswerkzeuge für dieselben Daten verwenden, um RQ1 zu behandeln. In Kapitel 3 zeigen wir, dass bereits statisch eingebettete, auf Repräsentationslernen basierende Ansätze handgefertigte, linguistisch inspirierte Feature-Selection- Methoden für die Übersetzungsklassifikation bei einer Vielzahl von Aufgaben übertreffen. Darüber hinaus führen wir Experimente mit einer Reihe von Ausgangs-/Zielspachenkombinationen in ein- und mehrsprachigen Umgebungen durch, die belegen, dass auf Repräsentationslernen basierende Methoden bei der Generalisierung auf verschiedene mehrsprachige Aufgaben effektiver sind. Darüber hinaus vergleichen wir unsere Ansätze mit sprachübergreifende neuronalen Ansätzen auf denselben Daten und heben hervor, dass die Klassifizierung von Übersetzungen tiefe neuronale Modelle mit starker Kontextmodellierung erfordert, um optimale Ergebnisse zu erzielen. Übersetzungsartefakte üben einen erheblichen Einfluss auf verschiedene nachgelagerte Aufgaben aus, die mit Übersetzung zu tun haben. In jüngster Zeit wurde die Aufmerksamkeit auf den Einfluss von Translationese auf Bewertungsmetriken gelenkt (Graham, Haddow, and Koehn, 2019; Toral, 2019; Zhang and Toral, 2019). Edunov et al. (2020) and Freitag, Caswell, and Roy (2019) identifizierten Translationese als eine signifikante Quelle für die Diskrepanz zwischen BLEU-Scores (Papineni et al., 2002) und menschlichen Bewertungen. Die Auswirkung der Übersetzungssprache in den Testsätzen ist mit der Auswirkung in den Trainingsdaten (Bogoychev and Sennrich, 2019; Kurokawa, Goutte, and Isabelle, 2009; Lembersky, Ordan, and Wintner, 2012; Riley et al., 2020a) verbunden, unterscheidet sich aber von dieser. Daher ist es für die Verbesserung der Genauigkeit und Effektivität von sprachübergreifendem NLP von entscheidender Bedeutung, Translationese in der Übersetzungsausgabe zu verstehen, zu analysieren und vor allem abzuschwächen. Dies führt uns zur Formulierung unserer nächsten Forschungsfrage. RQ2:Ist es möglich, Übersetzungsartefakte effektiv abzuschwächen? Bis heute ist diese wichtige Forschungsfrage unteruntersucht. Die RQ2 zu adressieren, ist der zweite Beitrag, den die Dissertation liefert. Wir präsentieren einen Ansatz zur Minderung der negativen Auswirkungen von Translationese auf sprachübergreifende Aufgaben. Um dies zu erreichen, schlagen wir einen neuen Ansatz vor: Translationese-Debiasing. Wir entwerfen, implementieren und evaluieren diesen Ansatz, der auf latenten Repräsentationen arbeitet. Durch die Reduzierung der Effekte von Translationese auf nachgelagerte Aufgaben zielt dieser Ansatz darauf ab, die Genauigkeit und Wirksamkeit der überlingualen natürlichen Sprachverarbeitung zu verbessern. Um dieses Ziel zu erreichen, passen wir den Iterativen Nullraumprojektionsalgorithmus (Ravfogel et al., 2020), der ursprünglich zur Reduzierung von Geschlechtsattributen in neuronalen Repräsentationen entwickelt wurde, an übersetzungsbedingte Verzerrungen in Wort- und Satzeinbettungsräumen an. Zusätzlich entwickeln wir zwei Techniken zum Debiasing von Übersetzungsfehlern auf der Wortebene. Wir evaluieren unseren Ansatz, indem wir die Klassifizierungsleistung von Übersetzungsfehlern vorund nach dem Debiasing vergleichen, und stellen erwartungsgemäß eine geringere Genauigkeit als Folge fest. Darüber hinaus evaluieren wir die Auswirkungen des Debiasing von Übersetzungsartefakten auf die extrinsische Aufgabe der Natural Language Inference (NLI) in zwei verschiedenen Datenumgebungen. Unsere Ergebnisse zeigen, dass das entzerrte Modell in der Lage ist, die Beziehungen zwischen den Sätzen in der Inferenzaufgabe besser zu erhalten und genauere Inferenzen zu produzieren. Im zweiten Teil befasst sich die Dissertation mit grundlegenden Fragen zum Tranlationese, einschließlich der Frage, ob die Signale des Translationese in semantischen Worteinbettungsräumen beobachtet werden können und welche praktischen Auswirkungen dies hat. Übersetzte Texte weisen häufig Muster von Interferenzen in aus Ausgangssprache auf, wobei Merkmale des Ausgangstextes auf den Zieltext übertragen werden Teich, 2003; Toury, 1980. Während frühere Studien mit Hilfe von überwachter Klassifikation und Feature-Engineering (Baroni and Bernardini, 2005; Koppel and Ordan, 2011; Rabinovich, Ordan, and Wintner, 2017) systematische Belege für Translationese in übersetzten Texten aufzeigen konnten, sind die Auswirkungen von Translationese auf semantische Räume noch weitgehend unerforscht. Wir entwerfen, implementieren und evaluieren einen strukturierten und nicht überwachten Ansatz zur Erkennung von Translationese in semantischen Räumen ohne die Notwendigkeit expliziter linguistischer Annotationen. Unser Ansatz verfolgt drei Ziele: erstens die Identifizierung von Translationese-Effekten in semantischen Repräsentationen von Texten; zweitens die Entwicklung einer unüberwachten Methode zur Erkennung dieser Effekte ohne menschliche Annotation; und drittens die Bewertung, ob mögliche Domänenunterschiede für einige unserer Ergebnisse verantwortlich sein könnten. Um diese Ziele zu erreichen, konzentrieren wir uns auf zwei primäre Aufgaben: (i) das Aufspüren von Translationese in semantischen Räumen (ii) die Untersuchung des Einflusses der Domäne auf diese Aufgabe. Die charakteristischen Merkmale übersetzter Texte werden traditionell in zwei Hauptkategorien eingeteilt: Eigenschaften, die sich aus der Interferenz der Ausgangssprache ergeben, und universelle Merkmale, die sich aus der Übersetzung als kommunikativem Prozess selbst ergeben. Frühere Studien verwenden eine Kombination aus lexikalischen und syntaktischen Merkmalen, um zu zeigen, dass Spuren der Ausgangssprache oder shining-through (Teich, 2003) in Übersetzungen sichtbar bleiben. Dies ist darauf zurückzuführen, dass lexikalische und syntaktische Merkmale Hinweise auf die Ausgangssprache eines übersetzten Textes geben können (z. B. Wortstellung, grammalische Strukturen). Während lexikalische und syntaktische Merkmale für die Identifizierung bestimmter Merkmale von Translationese nützlich sein können, ist es wichtig, Translationese zu identifizieren, ohne dass eine explizite Kennzeichnung oder Überwachung erforderlich ist. So können beispielsweise bestimmte Muster oder Strukturen im semantischen Raum eines übersetzten Textes auf Translationese hinweisen, auch wenn sie nicht direkt mit spezifischen lexikalischen oder syntaktischen Merkmalen übereinstimmen. Dies führt uns zu der nächsten Forschungsfrage. RQ3:Ist es möglich, Translationese in semantischen Räumen in einer unüberwachten Weise auf zu spüren?Um diese Frage zu beantworten, führt der dritte Beitrag dieser Dissertation eine neue Forschungsrichtung ein: das Aufspüren von Translationese-Signalen in einem semantischen Raum, ohne dass eine explizite Kennzeichnung oder Überwachung erforderlich ist. Im Gegensatz zu früheren Arbeiten, die sich auf überwachte Klassifikation und Feature-Engineering stützten, um Translationese zu identifizieren, ist unser Ansatz völlig unbeaufsichtigt und basiert auf einem Schlüsselkonzept: dem Begriff des Isomorphismus. Das Isomorphie-Prinzip besagt, dass Sprachen ein hohes Maß an Übereinstimmung zwischen Bedeutung und Form auf einer Eins-zu-Eins-Basis aufweisen (Barone, 2016). Im Zusammenhang mit der Erkennung von Translationese in semantischen Räumen würde Isomorphie bedeuten, dass der semantische Raum, der aus den Originaldaten der Zielsprache erstellt wurde, derselbe sein sollte wie der Raum, der aus den Übersetzungen in diese Sprache erstellt wurde, und zwar in Bezug auf die Art und Weise, wie die Wörter innerhalb des Einbettungsraums miteinander verbunden sind. Unser Ziel ist es, Translationese auf der Grundlage von Abweichungen von der Graphen-Isomorphie nachzuvollziehen, wobei die ursprüngliche Zielsprache und die Übersetzungen in diese Zielsprache als Graphenstrukturen in den semantischen Räumen dargestellt werden. Die Abweichungen von der Isomorphie zwischen diesen Graphen deuten auf systematische Anzeichen von Translationese hin. Insbesondere stellen wir fest, dass mit abnehmender Isomorphie der linguistische Abstand zwischen etymologisch weit entfernten Sprachfamilien zunimmt, was den Nachweis erbringt, dass die durch die Abweichung von der Isomorphie erkannten Translationese Signale mit der Interferenz der Ausgangssprache verbunden sind. Unsere Ergebnisse sind vergleichbar mit früheren Ansätzen, die auf oberflächlichen Merkmalen wie Wörtern, n-Grammen oder Parser-Ausgaben basieren. Anschließend zeigen wir, dass die vorgeschlagenen Methoden unter einer Vielzahl von Trainingsbedingungen robust sind, die die Datengröße, den Datentyp und die Wahl der Worteinbettungsmodelle umfassen. Außerdem zeigen unsere Ergebnisse, dass unsere Methoden sprachunabhängig sind, in dem in dem Sinne, dass sie auf mehrere Sprachen angewendet werden können und nicht auf eine bestimmte Sprache oder Sprachfamilie beschränkt sind. Schließlich setzen wir das Aufspüren von Translationese in semantischen Räumen fort und reduzieren dabei die Auswirkungen möglicher unterschiedlicher Domänen in übersetzten und ursprünglichen Daten, indem wir verschiedene Sichten auf die Daten verwenden (Wörter, PoS, Synsets und semantische Tags). Im vorangegangenen Kapitel haben wir gezeigt, dass Translationese-Signale in semantischen Worteinbettungsräumen, die aus übersetzten und Originaldaten erstellt wurden, erkannt werden können, aber es bleibt unklar, ob die Signale wirklich auf Translationese hinweisen oder ob sie von anderen Faktoren beeinflusst werden, wie z.B. von möglichen thematischen oder Domänen Unterschieden zwischen dem Original und übersetzten Texten. Translationese Signale sind subtil und können mit anderen Signalen in den Daten konkurrieren, insbesondere mit denen, die Spezifika von Domänen zusammenhängen. Dies veranlasst uns zu unserer letzten Forschungsfrage. RQ4: Inwieweit lassen sich die in der Antwort auf RQ3 beobachteten Ergebnisse auf Domänenunterschiede zwischen Original und übersetztem Text zurückführen, im Gegensatzzu echten Translationese Signalen? Unser vierter Beitrag in Kapitel 6 untersucht das Zusammenspiel verschiedener linguistischer Repräsentationen (lexikalisch, morphologisch und syntaktisch) und die Frage, ob die Maskierung lexikalischer Informationen und die dadurch bedingte Verringerung potenzieller Domänensignale die Aufgabe der unüberwachten Rückverfolgung von Übersetzungen in semantischen Räumen beeinflussen, um RQ4 anzugehen. Bei der Analyse von übersetzten Daten, die Texte enthalten, die aus mehreren Quellen (z. B. aus entfernten Sprachen wie Deutsch und Bulgarisch) in dieselbe Zielsprache (z. B. Englisch) übersetzt wurden, können die Ergebnisse unserer Analyse des semantischen Raums durch Domänenunterschiede in den Daten verzerrt werden und nicht durch eigentliche Tranlationese-Signale wie die Ausgangssprachen der Übersetzungen bedingt sein. Um dies zu berücksichtigen, maskieren wir lexikalische Domäneninformationen in den Daten. Bei diesem Ansatz werden entlexikalisierte Darstellungen verwendet, die Wörter durch Wortarten (Parts of Speech, PoS), semantische Tags oder Synsets ersetzen. Durch die Anwendung unserer Graph-Isomorphismus-Methoden auf diese Darstellungen können wir bestimmte linguistische Merkmale (wie morphologische Informationen oder einfache syntaktische Konfigurationen - PoS-Sequenzen) erfassen und den Einfluss domänenspezifischer lexikalischer Merkmale (insbesondere des Vokabulars) auf die Analyse von Übersetzungen minimieren. Unsere Ergebnisse zeigen, dass delexikalisierte Darstellungen (PoS, Synsets oder semantische Tags) immer noch erhebliche Interferenzen mit der Ausgangssprache aufweisen. Dies deutet darauf hin, dass die lexikalisierten Ergebnisse auf der niedrigsten Abstraktionsebene (d. h. Wörter) nicht nur auf mögliche Unterschiede in der Domäne zwischen Original- und Translationese Text zurückzuführen sind. Insgesamt ist dies ein Beleg dafür, dass morphologische und einfache syntaktische Repräsentationen in den Daten auch Translationese Signale enthalten. Um das unüberwachte Aufspüren von Translationese Signalen in semantischen Räumen zu bewerten, untersuchen wir außerdem, inwieweit es möglich ist, die Sprachphylogenie oder die genetischen Beziehungen zwischen Sprachen mit diesen delexikalisierten Repräsentationen zu clustern. Wir zeigen, dass unabhängig von der Ebene der sprachlichen Repräsentation aus den Isomorphieabständen Familenverbindungen der Sprachen mit ähnlichen Eigenschaften wie linguistisch motivierte phylogenetische Bäume abgeleitet werden können, wobei alle Kombinationen von ursprünglicher Zielsprache und Übersetzungen in diese Zielsprache aus verschiedenen Ausgangssprachen verwendet werden. Im vorigen Kapitel haben wir einige implizite Hinweise darauf gegeben, dass die Abweichung von der Isomorphie zwischen Einbettungsräumen auf strukturelle Oberflächenunterschiede zwischen Sprachfamilien hinweisen, die wir aus der linguistischen Literatur kennen. Eine größere Abweichung von der Isomorphie zwischen Einbettungsräumen deutet auf eine größere sprachliche Distanz in Bezug auf von Sprachfamilien und damit auf einen vermeintlich oberflächlichen strukturellen linguistischen Abstand (z. B. Morphologie, Syntax) zwischen Sprachen, wie sie in der linguistischen Literatur beschrieben werden. Dies wird in Kapitel 6 indirekt durchdie POS-Experimente (und die anderen verschiedenen Ansichten) gezeigt die von lexikalischen Informationen in der ursprünglichen und übersetzerischen Einbettung abstrahieren Experimente, bei denen maskierte Ansichten (POS usw.) immer noch vernünftige Unterschiede in der Isomorphie zwischen den Einbettungsräumen im Original und in der Übersetzung zeigen, und darauf aufbauend phylogenetische Stammbaumergebnisse. Dies wirft die Frage auf, ob es explizite Beweise für den Zusammenhang zwischen Einbettungen und strukturellen Oberflächenunterschieden gibt, was uns dazu veranlasst, unsere letzte Forschungsfrage zu formulieren. RQ5: Inwieweit kann graphbasierte Divergenz von Isomorphie in Einbettungsräumen als Proxy für Surprisal auf der Ebene von Oberflächentexten dienen? Wir behandeln RQ5 als den fünften Beitrag dieser Dissertation. Um dieser Frage nachzugehen, berechnen wir die Korrelation zwischen (a) Unterschieden in der Oberflächenstringentropie von Original- und übersetzten Daten, die von Sprachmodellen berechnet werden, die auf Originaldaten trainiert wurden, und (b) der Abweichung von der Isomorphie zwischen Einbettungsräumen, die auf denselben Textdaten berechnet werden. Unsere Ergebnisse zeigen eine Korrelation zwischen diesen beiden Maßen, d. h. eine größere Abweichung von der Isomorphie zwischen Einbettungsräumen entspricht einem größeren Unterschied in der Oberflächenentropie. Dies stellt eine direkte Verbindung zwischen dem Einbettungsraum und der Darstellung von Oberflächenstrings her, wobei letztere durch die Entropie des Sprachmodells gemessen wird. Darüber hinaus zeigen unsere Ergebnisse, dass Übersetzungen in dieselbe Zielsprache aus strukturell unterschiedlichen Ausgangssprachen im Allgemeinen höhere Entropieunterschiede aufweisen, während solche aus strukturell ähnlichen Ausgangssprachen geringere Unterschiede aufweisen. Diese Ergebnisse spiegeln die Muster wider, die bei der Divergenz von Isomorphie zwischen Einbettungsräumen beobachtet wurden, wo Übersetzungen aus strukturell stärker divergierenden Sprachen zu einer größeren Divergenz bei der Isomorphie führen. Diese Ergebnisse stellen explizit eine Verbindung zwischen unseren beiden Messgrößen her: der Isomorphiedivergenz zwischen Original- und übersetzten Einbettungsräumen und den Entropieunterschieden in den Oberflächenstrings derselben Textdaten. |
Link to this record: | urn:nbn:de:bsz:291--ds-450478 hdl:20.500.11880/40059 http://dx.doi.org/10.22028/D291-45047 |
Advisor: | van Genabith, Josef |
Date of oral examination: | 6-Jun-2024 |
Date of registration: | 28-May-2025 |
Faculty: | P - Philosophische Fakultät |
Department: | P - Sprachwissenschaft und Sprachtechnologie |
Professorship: | P - Prof. Dr. Josef van Genabith |
Collections: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Files for this record:
File | Description | Size | Format | |
---|---|---|---|---|
Thesis_Final_Upload.pdf | 3,36 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License