Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen:
doi:10.22028/D291-23128
Titel: | Statistical signal processing techniques for robust speech recognition |
Alternativtitel: | Statistische Signalverarbeitungsmethoden für Robuste Spracherkennung |
VerfasserIn: | Faubel, Friedrich |
Sprache: | Englisch |
Erscheinungsjahr: | 2013 |
Kontrollierte Schlagwörter: | Signalverarbeitung Statistik Sprachverarbeitung Geräuschminderung Objektverfolgung Rekonstruktion |
Freie Schlagwörter: | statistical signal processing speech recognition speech feature enhancement missing feature reconstruction |
DDC-Sachgruppe: | 620 Ingenieurwissenschaften und Maschinenbau |
Dokumenttyp: | Dissertation |
Abstract: | Automatic speech recognition is becoming increasingly more important, with commercial applications such as call steering, dictation or voice-enabled personal assistance systems. Although successful in many respects, the performance of such systems can significantly degrade in noisy environment such as a crowded restaurant. This is due to the fact that noise introduces a mismatch between the clean speech features, which the ASR system has been trained with, and the noisy speech features that are encountered in the operational environment.
This dissertation tries to mitigate the degradation in performance using two principally different approaches: speech feature enhancement (SFE) techniques, which minimize the mismatch between clean and noisy features, and missing feature reconstruction (MFR) techniques, which infer the values of noise-corrupted frequency bins from non-corrupted ones. Particular contributions include (1) a phase-averaged model of how noise corrupts clean speech features, (2) better noise estimation with a Monte Carlo variant of the expectation maximization algorithm, (3) an adaptive level of detail transform that allows for more accurate transformations of Gaussian random variables, and (4) a bounded conditional mean imputation technique.
In addition to the above, it is shown that both SFE and MFR techniques can be derived within the same mathematical framework, just using different models of how noise corrupts clean speech features. Automatische Spracherkennung nimmt einen zusehends wichtigeren Stellenwert ein. Kommerzielle Anwendungen beinhalten Call Steering, Diktieren und sprachgesteuerte Assistenzsysteme. Obwohl derartige Anwendungen durchaus erfolgreich sein können, so leiden sie doch an der Tatsache, dass sich die Spracherkennungsgenauigkeit in geräuschbehafteten Umgebungen verschlechtert. Das rührt daher, dass Hintergrundgeräusche eine Unstimmigkeit zwischen klaren Sprachmerkmalen im Training und geräsuchbehafteten Merkmalen im Einsatz verursachen. Diese Dissertation untersucht zwei verschiedene Herangehensweisen an dieses Problem: Methoden zur Sprachmerkmalsverstärkung (SMV), welche Unstimmigkeiten zwischen Merkmalen minimieren, und Methoden zur Vervollständigung fehlender Merkmale (VFM), welche stark geräuschgestörte Frequenzen mittels weniger gestörter Frequenzen restaurieren. Spezifische Beiträge umfassen: (1) ein phasengemitteltes Modell dafür, wie Geräusche klare Sprachmerkmale korrumpieren, (2) verbesserte Geräuschschätzung durch einen Monte Carlo Expectation Maximization Algorithmus, (3) genauere Transformationen gaußscher Zufallsvariablen durch einen adaptiven Detailgrad, (4) eine Vervollständigungstechnik, die auf dem beschränkten, bedingten Mittelwert beruht. Zusätzlich zu obigem wird gezeigt, dass SMV und VFM Methoden sich im gleichen mathematischen Rahmenwerk herleiten lassen, nur eben unter Verwendung verschiedener Modelle für die Korrumpierung von Sprachmerkmalen. |
Link zu diesem Datensatz: | urn:nbn:de:bsz:291-scidok-64375 hdl:20.500.11880/23184 http://dx.doi.org/10.22028/D291-23128 |
Erstgutachter: | Klakow, Dietrich |
Tag der mündlichen Prüfung: | 19-Jun-2015 |
Datum des Eintrags: | 8-Mär-2016 |
Fakultät: | NT - Naturwissenschaftlich- Technische Fakultät |
Fachrichtung: | NT - Systems Engineering |
Ehemalige Fachrichtung: | bis SS 2016: Fachrichtung 7.4 - Mechatronik |
Sammlung: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Dateien zu diesem Datensatz:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
Dissertation_Faubel_2013.pdf | 12,72 MB | Adobe PDF | Öffnen/Anzeigen |
Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.