Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
yamaha_vocaloid [2020/04/20 23:45] Daniel Kamp |
yamaha_vocaloid [2022/10/26 15:55] (current) |
||
---|---|---|---|
Line 53: | Line 53: | ||
Vocaloid 4 werd in oktober 2014 uitgebracht en introduceerde een aantal nieuwe parameters voor de vocale synthese, waaronder Growl en Cross-Synthesis. Daarnaast kwam er de mogelijkheid om de pitch van gebruikersinvoer te renderen, zodat de instant playback een stuk meer als het uiteindelijke resultaat klinkt. Voor Vocaloid 4 werden 86 voicebanks geproduceerd. | Vocaloid 4 werd in oktober 2014 uitgebracht en introduceerde een aantal nieuwe parameters voor de vocale synthese, waaronder Growl en Cross-Synthesis. Daarnaast kwam er de mogelijkheid om de pitch van gebruikersinvoer te renderen, zodat de instant playback een stuk meer als het uiteindelijke resultaat klinkt. Voor Vocaloid 4 werden 86 voicebanks geproduceerd. | ||
- | //Vocaloid 5// | + | //Vocaloid 5// \\ |
Vocaloid 5 is de nieuwste release in de Vocaloid-serie. V5 werd uitgebracht op 12 juli 2018 en heeft onder andere een nieuwe interface, een phrase library, audio-effecten, vier basisstemmen en nog veel meer. Voor Vocaloid 5 zijn tot nu toe 12 voicebanks uitgebracht. | Vocaloid 5 is de nieuwste release in de Vocaloid-serie. V5 werd uitgebracht op 12 juli 2018 en heeft onder andere een nieuwe interface, een phrase library, audio-effecten, vier basisstemmen en nog veel meer. Voor Vocaloid 5 zijn tot nu toe 12 voicebanks uitgebracht. | ||
===== Hoe werkt Vocaloid? ===== | ===== Hoe werkt Vocaloid? ===== | ||
+ | Hier wordt de werking beschreven zoals deze beschreven wordt in een conference paper uit 2010, geschreven door Hideki Kenmochi ((https://www.isca-speech.org/archive/int_singing_2010/papers/isi0_001.pdf)). Deze technologie wordt waarschijnlijk nog steeds in meer of mindere mate gebruikt in de huidige VOCALOID-software. De afbeeldingen zijn afkomstig uit dit conference paper. | ||
+ | |||
+ | Input van tekst en melodie gebeurt in VOCALOID middels een ietwat aangepaste pianoroll-editor. In deze editor kan naast toonhoogte en -duur ook tekst worden ingevoerd. Verder kunnen verschillende parameters, zoals vibrato, opening van de mond, pitch bends en vele anderen, makkelijk worden aangepast. Deze editor wordt in de research papers //Score Editor// genoemd. | ||
+ | |||
+ | {{:newvocaloideditor.jpg?600|}} \\ | ||
+ | //De Score Editor in VOCALOID 2/3/4// | ||
+ | |||
+ | {{:vocaloidcomponents.jpg?600|}} \\ | ||
+ | //Globaal overzicht van de verschillende onderdelen van de VOCALOID-synthesizer// | ||
+ | |||
+ | Zoals in dit diagram te zien is, wordt eerst op basis van gebruikersinvoer uit de Score Editor een zogenaamde //Synthesis Score// gegenereerd. Hiermee kunnen samples uit de //Singer Library// geselecteerd worden aan de hand van de fonetische “hapjes” van de ingevoerde tekst, de zogeheten //phonemes//. Deze samples worden vervolgens verwerkt in een DSP-applicatie, waar de vocale synthese plaatsvindt. | ||
+ | |||
+ | {{:vocaloidsynthengine.jpg?600|}} \\ | ||
+ | //Signal processing die plaatsvindt in VOCALOID 2// | ||
+ | |||
+ | In de Synthesis Engine wordt eerst middels FFT de pitch van de te gebruiken sample geanalyseerd. Deze wordt vervolgens vergeleken met de target pitch uit de Score Editor om een ratio te berekenen die gebruikt wordt om de pitch van de sample te schalen naar de gewenste toonhoogte. | ||
+ | |||
+ | {{:sampleconcatenation.png?600|}} \\ | ||
+ | //Sample-timing voor de zin “Singing a song”// | ||
+ | |||
+ | Ook wordt aan de hand van de Synthesis Score een timing mapping gemaakt van de verschillende phonemes. Hiervoor wordt waarschijnlijk een Hidden Markov Model gebruikt als algoritme om de tijdsverdeling te bepalen. De ruimte tussen de verschillende samples wordt vervolgens geïnterpoleerd, zodat de samples in elkaar overlopen en verschillen in timbre niet of nauwelijks hoorbaar zijn. Het resultaat van deze synthese wordt vervolgens voor de gebruiker afgespeeld en kan worden geëxporteerd als WAV-bestand. | ||
+ | |||
===== Vergelijkbare programma's ===== | ===== Vergelijkbare programma's ===== |