Please use this identifier to cite or link to this item: doi:10.22028/D291-23128
Title: Statistical signal processing techniques for robust speech recognition
Other Titles: Statistische Signalverarbeitungsmethoden für Robuste Spracherkennung
Authors: Faubel, Friedrich
Language: English
Issue Date: 2013
SWD key words: Signalverarbeitung
Statistik
Sprachverarbeitung
Geräuschminderung
Objektverfolgung
Rekonstruktion
Free key words: statistical signal processing
speech recognition
speech feature enhancement
missing feature reconstruction
DDC groups: 620 Engineering and machine engineering
Publikation type: Doctoral Thesis
Abstract: Automatic speech recognition is becoming increasingly more important, with commercial applications such as call steering, dictation or voice-enabled personal assistance systems. Although successful in many respects, the performance of such systems can significantly degrade in noisy environment such as a crowded restaurant. This is due to the fact that noise introduces a mismatch between the clean speech features, which the ASR system has been trained with, and the noisy speech features that are encountered in the operational environment. This dissertation tries to mitigate the degradation in performance using two principally different approaches: speech feature enhancement (SFE) techniques, which minimize the mismatch between clean and noisy features, and missing feature reconstruction (MFR) techniques, which infer the values of noise-corrupted frequency bins from non-corrupted ones. Particular contributions include (1) a phase-averaged model of how noise corrupts clean speech features, (2) better noise estimation with a Monte Carlo variant of the expectation maximization algorithm, (3) an adaptive level of detail transform that allows for more accurate transformations of Gaussian random variables, and (4) a bounded conditional mean imputation technique. In addition to the above, it is shown that both SFE and MFR techniques can be derived within the same mathematical framework, just using different models of how noise corrupts clean speech features.
Automatische Spracherkennung nimmt einen zusehends wichtigeren Stellenwert ein. Kommerzielle Anwendungen beinhalten Call Steering, Diktieren und sprachgesteuerte Assistenzsysteme. Obwohl derartige Anwendungen durchaus erfolgreich sein können, so leiden sie doch an der Tatsache, dass sich die Spracherkennungsgenauigkeit in geräuschbehafteten Umgebungen verschlechtert. Das rührt daher, dass Hintergrundgeräusche eine Unstimmigkeit zwischen klaren Sprachmerkmalen im Training und geräsuchbehafteten Merkmalen im Einsatz verursachen. Diese Dissertation untersucht zwei verschiedene Herangehensweisen an dieses Problem: Methoden zur Sprachmerkmalsverstärkung (SMV), welche Unstimmigkeiten zwischen Merkmalen minimieren, und Methoden zur Vervollständigung fehlender Merkmale (VFM), welche stark geräuschgestörte Frequenzen mittels weniger gestörter Frequenzen restaurieren. Spezifische Beiträge umfassen: (1) ein phasengemitteltes Modell dafür, wie Geräusche klare Sprachmerkmale korrumpieren, (2) verbesserte Geräuschschätzung durch einen Monte Carlo Expectation Maximization Algorithmus, (3) genauere Transformationen gaußscher Zufallsvariablen durch einen adaptiven Detailgrad, (4) eine Vervollständigungstechnik, die auf dem beschränkten, bedingten Mittelwert beruht. Zusätzlich zu obigem wird gezeigt, dass SMV und VFM Methoden sich im gleichen mathematischen Rahmenwerk herleiten lassen, nur eben unter Verwendung verschiedener Modelle für die Korrumpierung von Sprachmerkmalen.
URI: urn:nbn:de:bsz:291-scidok-64375
hdl:20.500.11880/23184
http://dx.doi.org/10.22028/D291-23128
Advisor: Klakow, Dietrich
Date of oral examination: 19-Jun-2015
Date issued: 8-Mar-2016
Faculty: NT - Naturwissenschaftlich- Technische Fakultät
Institute: NT - Systems Engineering
Former Institute: bis SS 2016: Fachrichtung 7.4 - Mechatronik
Appears in Collections:SciDok - Elektronische Dokumente der UdS

Files in This Item:
File Description SizeFormat 
Dissertation_Faubel_2013.pdf12,72 MBAdobe PDFView/Open


Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.