Ondřej Kočí

Master's thesis

Prosodic feature extraction and singing voice synthesis with an End-to-end Neural network model sequence

Extrakce prozódických vlastností a syntéza zpěvu pomocí end-to-end sekvence neurálních modulů
Abstract:
Prozódie je neodmyslitelnou vlastností lidského hlasu. Většina dostupných hlasových syntetizátorů ji však ignoruje, či využívá pouze její průměrnou reprezentaci pro generaci umělého hlasu. Tato práce navrhuje nový prototyp složený z end-to-end sekvence modelů, který je založen na architektuře hlubokých neuronových sítí. S využitím Mellotronu (Rafael Valle et al. 2019), Tacotronu (Yuxuan Wang et al …more
Abstract:
Prosody is an intrinsic aspect of human speech. However, most popular speech synthesizers ignore it or only use its average representation when synthesizing artificial voices. This thesis proposes a new End-to-End model sequence prototype based on the Deep Neural Network architecture. Utilizing Mellotron (Rafael Valle et al. 2019), Tacotron (Yuxuan Wang et al. 2017), WaveGlow (Ryan Prenger et al. 2018 …more
 
 
Language used: English
Date on which the thesis was submitted / produced: 1. 5. 2022

Thesis defence

  • Date of defence: 2. 6. 2022
  • Supervisor: Jan Mittner
  • Reader: Petr Polák

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • autentizovaným zaměstnancům ze stejné školy/fakulty
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Vysoká škola ekonomická v Praze
https://vskp.vse.cz/eid/86021