Ondřej Kočí

Diplomová práce

Prosodic feature extraction and singing voice synthesis with an End-to-end Neural network model sequence

Extrakce prozódických vlastností a syntéza zpěvu pomocí end-to-end sekvence neurálních modulů
Anotace:
Prozódie je neodmyslitelnou vlastností lidského hlasu. Většina dostupných hlasových syntetizátorů ji však ignoruje, či využívá pouze její průměrnou reprezentaci pro generaci umělého hlasu. Tato práce navrhuje nový prototyp složený z end-to-end sekvence modelů, který je založen na architektuře hlubokých neuronových sítí. S využitím Mellotronu (Rafael Valle et al. 2019), Tacotronu (Yuxuan Wang et al …více
Abstract:
Prosody is an intrinsic aspect of human speech. However, most popular speech synthesizers ignore it or only use its average representation when synthesizing artificial voices. This thesis proposes a new End-to-End model sequence prototype based on the Deep Neural Network architecture. Utilizing Mellotron (Rafael Valle et al. 2019), Tacotron (Yuxuan Wang et al. 2017), WaveGlow (Ryan Prenger et al. 2018 …více
 
 
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 1. 5. 2022

Obhajoba závěrečné práce

  • Obhajoba proběhla 2. 6. 2022
  • Vedoucí: Jan Mittner
  • Oponent: Petr Polák

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • autentizovaným zaměstnancům ze stejné školy/fakulty
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Vysoká škola ekonomická v Praze
https://vskp.vse.cz/eid/86021