Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-44106
Titel: Exploring paraphrasing for enhancing speech perception in noisy environments
VerfasserIn: Chingacham, Anupama
Sprache: Englisch
Erscheinungsjahr: 2024
DDC-Sachgruppe: 004 Informatik
310 Allgemeine Statistiken
Dokumenttyp: Dissertation
Abstract: This thesis addresses the challenge of speech perception in noisy environments, where echoes, reverberations and background noise can distort communication. It proposes using paraphrases, instead of acoustic modifications, to improve speech intelligibility in noise without causing signal distortions. The first study investigates the effectiveness of replacing words with synonyms in noisy conditions, finding that it can enhance word recognition by up to 37% in high-noise environments. The second study expands on this by exploring sentential paraphrases, showing that choosing the right paraphrase can improve intelligibility by 33%. It also develops a paraphrase ranking model that outperforms baseline models in identifying the most intelligible paraphrases. The final study examines how Large Language Models (LLMs) can generate both semantically equivalent and acoustically intelligible paraphrases. It reveals that while LLMs struggle to improve acoustic intelligibility in standard setups, a post-processing approach called "prompt-and-select" yields better results. Overall, the thesis contributes two new human-annotated datasets, an approach to generate unlimited synthetic data, and a novel framework for generating noise-robust speech, offering a promising direction for developing speech generation systems that adapt to noisy environments.
Im Falle von Sprachsignalverzerrungen durch Echos, Nachhall oder Hintergrundgeräusche, wie zum Beispiel in einem belebten Café, kann das Zuhören selbst für Personen mit normalem Hörvermögen eine Herausforderung darstellen. Wenn Lärm das Zuhören behindert, kann die Bedeutung einer Nachricht, die der Hörer wahrnimmt, von der vom Sprecher beabsichtigten Bedeutung abweichen. Das kann zu Missverständnissen oder in extremen Fällen sogar zu Kommunikationsabbrüchen führen. Im Gegensatz zu menschlichen Sprechern, die ihre Sprechweise an die Hörschwierigkeiten ihres Gesprächspartners anpassen können, sind die derzeitigen Sprachdialogsysteme nur begrenzt in der Lage, geräuschrobuste Sprache zu produzieren. Die meisten algorithmischen Lösungen zur Synthese geräuschrobuster Sprache basieren auf akustischen Modifikationen, die nicht in allen Fällen von Vorteil sind, da sie zu Signalverzerrungen führen können, die die Natürlichkeit oder Qualität der synthetisierten Sprache beeinträchtigen. In dieser Arbeit wird eine alternative Strategie zur Verbesserung der Sprachwahrnehmung bei Störgeräuschen vorgeschlagen, die keine Signalverzerrungen mit sich bringt: die Verwendung von Paraphrasen. Geräusche wirken sich unterschiedlich auf verschiedene lexikalische Einheiten aus - einige sind geräuschresistenter, während andere anfälliger für Fehlwahrnehmungen sind. Daher ist die Verwendung von Paraphrasen keine Garantie für eine bessere Sprachwahrnehmung. Wenn die lexikalischen Einheiten, die zur Umschreibung verwendet werden, in einer Hörsituation ähnlich wahrgenommen werden wie die ursprüngliche Formulierung, stellen sie keine Verbesserung dar. Daher zielt die erste Studie in dieser Arbeit darauf ab, ein besseres Verständnis dafür zu erlangen, ob und inwieweit eine einfache, aber weit verbreitete Paraphrasierungsstrategie - die lexikalische Ersetzung durch Synonyme - Wortfehlwahrnehmungen im Lärm reduzieren kann. Es wurden Hörexperimente durchgeführt, um die Wahrnehmungsunterschiede zwischen Synonymen im Lärm zu erfassen. Die Analyse des zu diesem Zweck neu erstellten Datensatzes – Synonyms-in-Noise (SiN) – ergab, dass das Ersetzen einer lexikalischen Einheit durch ein Synonym mit geringerem Risiko, falsch verstanden zu werden, die Worterkennung in einer stark verrauschten Umgebung (z.B. bei Babble Noise mit einem Signal-Rausch-Verhältnis von −5 dB) um bis zu 37% verbessern kann. Außerdem wurde ein Modellierungsexperiment durchgeführt, um den beobachteten Gewinn an Verständlichkeit zu erklären. Die Ergebnisse zeigen, dass der Verständlichkeitsgewinn bei geringem und mittlerem Lärm auf die linguistischen Merkmale von Synonymen zurückzuführen ist, während der Gewinn bei starkem Lärm hauptsächlich von akustischen Merkmale bestimmt wird. Um allgemeinere Arten von Umschreibungen zu berücksichtigen, konzentriert sich die zweite Studie der Arbeit auf Satzumschreibungen und ihre Auswirkungen auf die Verständlichkeit der gesamten Äußerung. In weiteren Hörexperimenten wurden Satzparaphrasen verglichen und ein neuer Datensatz namens Paraphrasesin- Noise (PiN) erstellt. Es wurde festgestellt, dass sich die Verständlichkeitswerte von verschiedenen Satzparaphrasen auch unter stark verrauschten Bedingungen signifikant unterscheiden und die Wahl der richtigen Paraphrase innerhalb eines Paares einen Gesamtgewinn an Verständlichkeit von bis zu 33% bewirken kann. Darüber hinaus wurde in der Studie ein verständlichkeitsorientiertes Paraphrasen- Ranking-Modell vorgeschlagen, um die verständlichsten Paraphrasen anhand ihrer linguistischen und akustischen Merkmale korrekt zu identifizieren. Das vorgeschlagene Modell übertraf beide Basismodelle (Zufalls- und Mehrheitsmodell) und erreichte mit 67% die höchste Verständlichkeit bei starkem Rauschen. Die abschließende Studie dieser Arbeit zielt darauf ab, akustisch besser verständliche Paraphrasen zu generieren, die potenziell nützlich sein könnten, um geräuschadaptive Sprachdialogsysteme zu entwickeln. Wir evaluieren, inwieweit moderne Textgenerierungsmodelle wie Large Language Models (LLMs) Texte produzieren können, die sowohl textuelle Anforderungen (z.B. semantische Äquivalenz) als auch nicht-textuelle Anforderungen (z.B. akustische Verständlichkeit) erfüllen. Die Ergebnisse der Studie zeigen, dass LLMs in Standard-Prompting-Setups Schwierigkeiten haben, die akustische Verständlichkeit zu verbessern und gleichzeitig die semantische Äquivalenz effektiv zu erhalten. Außerdem wurde festgestellt, dass der vorgeschlagene Nachbearbeitungsansatz - prompt-and-select – besser abschneidet als fein abgestimmte Modelle, wenn es darum geht, Paraphrasen zu erzeugen, die akustisch besser verständlich sind. Zusammenfassend lässt sich sagen, dass in dieser Arbeit das Potenzial der Paraphrasierung zur Verbesserung der Sprachwahrnehmung im Lärm untersucht wurde. Als Ergebnis haben wir zwei neue Datensätze erstellt und einen neuen Rahmen für die Synthese von geräuschrobuster Sprache vorgeschlagen, der keine Signalverzerrungen verursacht.
Link zu diesem Datensatz: urn:nbn:de:bsz:291--ds-441062
hdl:20.500.11880/39676
http://dx.doi.org/10.22028/D291-44106
Erstgutachter: Klakow, Dietrich
Demberg, Vera
Tag der mündlichen Prüfung: 9-Dez-2024
Datum des Eintrags: 17-Feb-2025
Drittmittel / Förderung: DeutscheForschungsgemeinschaft (DFG, German Research Foundation) – Project-ID 232722074 – SFB1102.
Fakultät: MI - Fakultät für Mathematik und Informatik
P - Philosophische Fakultät
Fachrichtung: MI - Informatik
Professur: MI - Prof. Dr. Vera Demberg
P - Prof. Dr. Dietrich Klakow
Sammlung:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:
Datei Beschreibung GrößeFormat 
PhD_Thesis_AnupamaChingacham_SciDok.pdfDissertation2,26 MBAdobe PDFÖffnen/Anzeigen


Diese Ressource wurde unter folgender Copyright-Bestimmung veröffentlicht: Lizenz von Creative Commons Creative Commons