Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-23194
Titel: Blind speech separation in distant speech recognition front-end processing
Verfasser: Mahdian Toroghi, Rahil
Sprache: Englisch
Erscheinungsjahr: 2016
SWD-Schlagwörter: Automatische Spracherkennung
Erweiterung
Sprachsignal
Freie Schlagwörter: Fern-Spracherkennung
Trennung von Sprachquellen
distant speech recognition
blind speech separation
DDC-Sachgruppe: 004 Informatik
Dokumentart : Dissertation
Kurzfassung: Distant Speech Recognition is motivated by several applications, such as handsfree devices, and conference recordings. Performance of the speech recognition in a closed area significantly degrades due to noise and reverberation. Multimicrophone processing can alleviate the impacts of reverberation and noise specially if they are employed in a known geometry as a microphone array. The main problem being addressed in this dissertation is the separation of multiple speech sources in a reverberant and noisy environment. The contributions of this thesis particularly include, (1) an enhancement system which outperforms the state-of-the-art, (2) A new auditory perception-based filter, which could be optimized based on the data statistics and significantly improves the intelligibility score, (3) a new separation filter, which removes the coherent parts of one signal from a contrasting one, and minimizes the mutual information between them, (4) incorporation of a linear-prediction based dereverberation in a structure, that converts the echoic condition of the problem into anechoic, and enables us to exploit rich techniques which have been developed in the field of Sparse Component Analysis (SCA). By using it, we could achieve a high performance with a very simple structure, even without sophisticated post processors. Moreover, it enables us to localize multiple sources in a reverberant environment or assist the common source localization methods in such a harsh condition.
Fern-Spracherkennung wird von mehreren Anwendungen wie etwa Freisprecheinrichtungen und Konferenzaufzeichnungen motiviert. Die Qualität von Spracherkennung in einem geschlossenen Bereich verschlechtert sich erheblich durch Lärm und Nachhall. Multi-Mikrofon-Verarbeitung kann die Auswirkungen von Rauschen und Nachhall lindern, speziell wenn sie in einer bekannten Umgebung als Mikrofonarray eingesetzt wird. Das Hauptproblem, das in dieser Arbeit behandelt wird, ist die Trennung von mehreren Sprachquellen in einer nachhallenden und lauten Umgebung. Die Beiträge dieser Arbeit umfassen insbesondere: (1) ein Verstärkungssystem, das den Stand der Technik übertrifft, (2) ein neuer auf Hörwahrnehmung basierender Filter, der auf Grundlage von Datenstatistiken optimiert wurde und die Sprachverständlichkeit verbessert, (3) ein neuer Trennfilter, der die zusammenhängenden Teile eines Signals von kontrastierenden trennt und die gegenseitige Information zwischen ihnen minimiert, (4) Einbau einer auf linearer Vorhersage basierenden Enthallung in eine Struktur, welche einen echohaltigen Zustand des Problems in einen echofreien überführt und es ermöglicht, leistungsstarke Techniken zu nutzen, die auf dem Gebiet der Sparse Component Analysis entwickelt wurden. Damit konnte eine hohe Leistung mit einer sehr einfachen Struktur und ohne aufwändige Nachverarbeitung erreicht werden. Zudem wird es möglich, mehrere Quellen in einer halligen Umgebung zu lokalisieren.
Link zu diesem Datensatz: urn:nbn:de:bsz:291-scidok-66868
hdl:20.500.11880/23250
http://dx.doi.org/10.22028/D291-23194
Erstgutachter: Klakow, Dietrich
Tag der mündlichen Prüfung: 10-Nov-2016
SciDok-Publikation: 18-Nov-2016
Fakultät: Fakultät 7 - Naturwissenschaftlich-Technische Fakultät II
Fachrichtung: NT - Systems Engineering
Ehemalige Fachrichtung: bis SS 2016: Fachrichtung 7.4 - Mechatronik
Fakultät / Institution:NT - Naturwissenschaftlich- Technische Fakultät

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
PhD_Thesis_RahilMahdian.pdf11,92 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.