Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-27237
Titel: A dynamic deep learning approach for intonation modeling
Verfasser: Tombini, Francesco
Sprache: Englisch
Erscheinungsjahr: 2018
Erscheinungsort: Saarbrücken
DDC-Sachgruppe: 600 Technik
Dokumentart : Examensarbeiten (Diplom / Master / Staatsexamen etc.)
Kurzfassung: Intonation plays a crucial role in making synthetic speech sound more natural. However, intonation modeling largely remains an open question. In my thesis, the interpolated F0 is parameterized dynamically by means of sign values, encoding the direction of pitch change, and corresponding quantized magnitude values, encoding the amount of pitch change in such direction. The sign and magnitude values are used for the training of a dedicated neural network. The proposed methodology is evaluated and compared to a state-of-the-art DNN-based TTS system. To this end, a segmental synthesizer was implemented to normalize the effect of the spectrum. The synthesizer uses the F0 and linguistic features to predict the spectrum, aperiodicity, and voicing information. The proposed methodology performs as well as the reference system, and we observe a trend for native speakers to prefer the proposed intonation model.
Link zu diesem Datensatz: urn:nbn:de:bsz:291-scidok-ds-272375
hdl:20.500.11880/27120
http://dx.doi.org/10.22028/D291-27237
SciDok-Publikation: 16-Jul-2018
Fakultät: P - Philosophische Fakultät
Fachrichtung: P - Sprachwissenschaft und Sprachtechnologie
Fakultät / Institution:P - Philosophische Fakultät

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
thesis_latex.pdf960,56 kBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.