Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
yamaha_vocaloid [2020/04/20 23:44] Daniel Kamp |
yamaha_vocaloid [2022/10/26 15:55] (current) |
||
---|---|---|---|
Line 30: | Line 30: | ||
Alle systemen die we tot nu toe behandeld hebben, zijn bedoeld voor spraak in plaats van zang, en daar is een goede reden voor: dit soort systemen hebben een hele duidelijke commerciële toepassing. Text-to-speech machines zijn de omroepers op stations, de simpelste versie ervan zitten in pratend kinderspeelgoed en ze geven een stem aan mensen die vanwege een handicap niet kunnen praten. Totdat muziekgigant Yamaha Vocaloid uitbracht waren er echter nog geen spraaksynthesizers die puur bedoeld waren voor muzikale doeleinden. | Alle systemen die we tot nu toe behandeld hebben, zijn bedoeld voor spraak in plaats van zang, en daar is een goede reden voor: dit soort systemen hebben een hele duidelijke commerciële toepassing. Text-to-speech machines zijn de omroepers op stations, de simpelste versie ervan zitten in pratend kinderspeelgoed en ze geven een stem aan mensen die vanwege een handicap niet kunnen praten. Totdat muziekgigant Yamaha Vocaloid uitbracht waren er echter nog geen spraaksynthesizers die puur bedoeld waren voor muzikale doeleinden. | ||
===== Geschiedenis en evolutie van Vocaloid ===== | ===== Geschiedenis en evolutie van Vocaloid ===== | ||
- | **Vroege ontwikkeling** | + | **Vroege ontwikkeling** \\ |
In 2000 startte Hideki Kenmochi van YAMAHA’s Advanced System Development Center een onderzoeksgroep aan de Pompeu Fabra-universiteit in Barcelona. Deze groep werd ondersteund door YAMAHA en onderzocht de mogelijkheden van “//Singing Voice Synthesis Combining Excitation plus Resonance and Sinusoidal plus Residual Models//”. De resultaten van dit onderzoek werden in 2001 in een paper gepubliceerd ((https://quod.lib.umich.edu/cgi/p/pod/dod-idx/singing-voice-synthesis-combining-excitation-plus-resonance.pdf?c=icmc;idno=bbp2372.2001.093;format=pdf)) en vormden de basis voor wat in 2004 door YAMAHA als commercieel product zou worden uitgebracht onder de naam VOCALOID. Bij dit onderzoek baseerde het team zich op een combinatie van eerder onderzochte modellen: EpR (Excitation plus Resonance, [Childers, 1994]) en SpR (Sinusoidal plus Residual representation, verkregen door SMS-analyse [Serra, 1990]). De werking hiervan wordt behandeld onder “Hoe werkt VOCALOID”. | In 2000 startte Hideki Kenmochi van YAMAHA’s Advanced System Development Center een onderzoeksgroep aan de Pompeu Fabra-universiteit in Barcelona. Deze groep werd ondersteund door YAMAHA en onderzocht de mogelijkheden van “//Singing Voice Synthesis Combining Excitation plus Resonance and Sinusoidal plus Residual Models//”. De resultaten van dit onderzoek werden in 2001 in een paper gepubliceerd ((https://quod.lib.umich.edu/cgi/p/pod/dod-idx/singing-voice-synthesis-combining-excitation-plus-resonance.pdf?c=icmc;idno=bbp2372.2001.093;format=pdf)) en vormden de basis voor wat in 2004 door YAMAHA als commercieel product zou worden uitgebracht onder de naam VOCALOID. Bij dit onderzoek baseerde het team zich op een combinatie van eerder onderzochte modellen: EpR (Excitation plus Resonance, [Childers, 1994]) en SpR (Sinusoidal plus Residual representation, verkregen door SMS-analyse [Serra, 1990]). De werking hiervan wordt behandeld onder “Hoe werkt VOCALOID”. | ||
- | **Eerste release** | + | **Eerste release** \\ |
- | + | Op de Musikmesse 2003 liet YAMAHA voor het eerst een (zeer basic) demo zien van de op dat moment in ontwikkeling zijnde VOCALOID-software. Paul White, die aanwezig was bij de presentatie, schreef in Sound On Sound: “Within minutes, the computer was singing like a professional!” ((https://www.soundonsound.com/people/its-not-over-until-fat-computer-sings)). Deze eerste versie van de software had een pianoroll-interface voor de invoer van noten. Daarop konden uit een library ook articulaties, vibrato’s e.d. toegepast worden. \\ | |
- | Op de Musikmesse 2003 liet YAMAHA voor het eerst een (zeer basic) demo zien van de op dat moment in ontwikkeling zijnde VOCALOID-software. Paul White, die aanwezig was bij de presentatie, schreef in Sound On Sound: “Within minutes, the computer was singing like a professional!” ((https://www.soundonsound.com/people/its-not-over-until-fat-computer-sings)). Deze eerste versie van de software had een pianoroll-interface voor de invoer van noten. Daarop konden uit een library ook articulaties, vibrato’s e.d. toegepast worden. | + | {{:vocaloideditor.jpg?600|}} \\ |
- | {{:vocaloideditor.jpg?600|}} | + | |
//De interface van de eerste VOCALOID Editor.// | //De interface van de eerste VOCALOID Editor.// | ||
Bij deze versie van VOCALOID werden in eerste instantie twee stemmen geleverd: Leon en Lola, die beiden in het Engels zongen. Deze stemmen werden geproduceerd door het Britse Zero-G en gedistribueerd door Crypton Future Media Inc (Sapporo, Japan). Later werden aan de line-up Miriam (Zero-G), Meiko en Kaito (YAMAHA, Crypton) toegevoegd. | Bij deze versie van VOCALOID werden in eerste instantie twee stemmen geleverd: Leon en Lola, die beiden in het Engels zongen. Deze stemmen werden geproduceerd door het Britse Zero-G en gedistribueerd door Crypton Future Media Inc (Sapporo, Japan). Later werden aan de line-up Miriam (Zero-G), Meiko en Kaito (YAMAHA, Crypton) toegevoegd. | ||
- | **Ontvangst** | + | **Ontvangst** \\ |
De reviews over VOCALOID waren gemengd. Het programma sleepte verscheidene awards binnen (2005 Electronic Musician Editor's Choice Award, G.A.N.G. Award voor “Best New Audio Technology), maar reviews, zoals die van Sound On Sound ((https://www.soundonsound.com/reviews/yamaha-vocaloid-leon-lola)) waren wat gematigd. | De reviews over VOCALOID waren gemengd. Het programma sleepte verscheidene awards binnen (2005 Electronic Musician Editor's Choice Award, G.A.N.G. Award voor “Best New Audio Technology), maar reviews, zoals die van Sound On Sound ((https://www.soundonsound.com/reviews/yamaha-vocaloid-leon-lola)) waren wat gematigd. | ||
- | **Ontwikkeling sinds VOCALOID 1** | + | **Ontwikkeling sinds VOCALOID 1** \\ |
- | + | //Vocaloid 2// \\ | |
- | //Vocaloid 2// | + | |
Vier jaar na de eerste versie van het programma kwam YAMAHA met Vocaloid 2, een grote upgrade ten opzichte van de vorige uitgave. Naast een volledig nieuwe interface werd ook de synthese-engine aangepast, waardoor in plaats van enkel de analyse van menselijke stemmen te gebruiken, nu gesamplede menselijke stemmen de sound source vormden. Met de release van Vocaloid 2 werden ook nieuwe stemmen geïntroduceerd. Op 29 juli 2007 bracht het Zweedse PowerFX “Sweet Ann” uit, de eerste voicebank voor Vocaloid 2. Een maand later, op 31 augustus, kwam Crypton Future Media met het grote keerpunt in de geschiedenis van de Vocaloid-synthesizer, namelijk Hatsune Miku. Tot dat moment waren Vocaloid-stemmen een anonieme “stem uit een doosje”, vooral bedoeld als instrument. Hier kwam echter verandering in met de release van Miku, die in de markt werd gezet als character. Deze zet van Crypton sloeg aan en in haar eerste jaar op de markt werd Miku 40000 keer verkocht (ongeveer 300 stuks per week) ((https://en.wikipedia.org/wiki/Vocaloid_2)). In totaal werden voor de Vocaloid 2-engine 35 voicebanks geproduceerd, waarvan vijf Engels en 17 Japans. | Vier jaar na de eerste versie van het programma kwam YAMAHA met Vocaloid 2, een grote upgrade ten opzichte van de vorige uitgave. Naast een volledig nieuwe interface werd ook de synthese-engine aangepast, waardoor in plaats van enkel de analyse van menselijke stemmen te gebruiken, nu gesamplede menselijke stemmen de sound source vormden. Met de release van Vocaloid 2 werden ook nieuwe stemmen geïntroduceerd. Op 29 juli 2007 bracht het Zweedse PowerFX “Sweet Ann” uit, de eerste voicebank voor Vocaloid 2. Een maand later, op 31 augustus, kwam Crypton Future Media met het grote keerpunt in de geschiedenis van de Vocaloid-synthesizer, namelijk Hatsune Miku. Tot dat moment waren Vocaloid-stemmen een anonieme “stem uit een doosje”, vooral bedoeld als instrument. Hier kwam echter verandering in met de release van Miku, die in de markt werd gezet als character. Deze zet van Crypton sloeg aan en in haar eerste jaar op de markt werd Miku 40000 keer verkocht (ongeveer 300 stuks per week) ((https://en.wikipedia.org/wiki/Vocaloid_2)). In totaal werden voor de Vocaloid 2-engine 35 voicebanks geproduceerd, waarvan vijf Engels en 17 Japans. | ||
- | //Vocaloid 3// | + | //Vocaloid 3// \\ |
Op 21 oktober 2011 bracht YAMAHA Vocaloid 3 uit. Deze upgrade omvatte veel verbeteringen aan het syntheseproces en ondersteunde drie nieuwe talen: Chinees, Koreaans en Spaans. Vocaloid 3 werd als eerste Vocaloid-editor los verkocht. Bij vorige releases was de editor namelijk steeds inbegrepen bij voicebanks. Bij de release werden ook vier nieuwe voicebanks uitgebracht: Mew (Japans), SeeU (Koreaans, Japans), Megpoid (Japans) en VY1v3 (Japans). | Op 21 oktober 2011 bracht YAMAHA Vocaloid 3 uit. Deze upgrade omvatte veel verbeteringen aan het syntheseproces en ondersteunde drie nieuwe talen: Chinees, Koreaans en Spaans. Vocaloid 3 werd als eerste Vocaloid-editor los verkocht. Bij vorige releases was de editor namelijk steeds inbegrepen bij voicebanks. Bij de release werden ook vier nieuwe voicebanks uitgebracht: Mew (Japans), SeeU (Koreaans, Japans), Megpoid (Japans) en VY1v3 (Japans). | ||
- | //Vocaloid 4// | + | //Vocaloid 4// \\ |
Vocaloid 4 werd in oktober 2014 uitgebracht en introduceerde een aantal nieuwe parameters voor de vocale synthese, waaronder Growl en Cross-Synthesis. Daarnaast kwam er de mogelijkheid om de pitch van gebruikersinvoer te renderen, zodat de instant playback een stuk meer als het uiteindelijke resultaat klinkt. Voor Vocaloid 4 werden 86 voicebanks geproduceerd. | Vocaloid 4 werd in oktober 2014 uitgebracht en introduceerde een aantal nieuwe parameters voor de vocale synthese, waaronder Growl en Cross-Synthesis. Daarnaast kwam er de mogelijkheid om de pitch van gebruikersinvoer te renderen, zodat de instant playback een stuk meer als het uiteindelijke resultaat klinkt. Voor Vocaloid 4 werden 86 voicebanks geproduceerd. | ||
- | //Vocaloid 5// | + | //Vocaloid 5// \\ |
Vocaloid 5 is de nieuwste release in de Vocaloid-serie. V5 werd uitgebracht op 12 juli 2018 en heeft onder andere een nieuwe interface, een phrase library, audio-effecten, vier basisstemmen en nog veel meer. Voor Vocaloid 5 zijn tot nu toe 12 voicebanks uitgebracht. | Vocaloid 5 is de nieuwste release in de Vocaloid-serie. V5 werd uitgebracht op 12 juli 2018 en heeft onder andere een nieuwe interface, een phrase library, audio-effecten, vier basisstemmen en nog veel meer. Voor Vocaloid 5 zijn tot nu toe 12 voicebanks uitgebracht. | ||
===== Hoe werkt Vocaloid? ===== | ===== Hoe werkt Vocaloid? ===== | ||
+ | Hier wordt de werking beschreven zoals deze beschreven wordt in een conference paper uit 2010, geschreven door Hideki Kenmochi ((https://www.isca-speech.org/archive/int_singing_2010/papers/isi0_001.pdf)). Deze technologie wordt waarschijnlijk nog steeds in meer of mindere mate gebruikt in de huidige VOCALOID-software. De afbeeldingen zijn afkomstig uit dit conference paper. | ||
+ | |||
+ | Input van tekst en melodie gebeurt in VOCALOID middels een ietwat aangepaste pianoroll-editor. In deze editor kan naast toonhoogte en -duur ook tekst worden ingevoerd. Verder kunnen verschillende parameters, zoals vibrato, opening van de mond, pitch bends en vele anderen, makkelijk worden aangepast. Deze editor wordt in de research papers //Score Editor// genoemd. | ||
+ | |||
+ | {{:newvocaloideditor.jpg?600|}} \\ | ||
+ | //De Score Editor in VOCALOID 2/3/4// | ||
+ | |||
+ | {{:vocaloidcomponents.jpg?600|}} \\ | ||
+ | //Globaal overzicht van de verschillende onderdelen van de VOCALOID-synthesizer// | ||
+ | |||
+ | Zoals in dit diagram te zien is, wordt eerst op basis van gebruikersinvoer uit de Score Editor een zogenaamde //Synthesis Score// gegenereerd. Hiermee kunnen samples uit de //Singer Library// geselecteerd worden aan de hand van de fonetische “hapjes” van de ingevoerde tekst, de zogeheten //phonemes//. Deze samples worden vervolgens verwerkt in een DSP-applicatie, waar de vocale synthese plaatsvindt. | ||
+ | |||
+ | {{:vocaloidsynthengine.jpg?600|}} \\ | ||
+ | //Signal processing die plaatsvindt in VOCALOID 2// | ||
+ | |||
+ | In de Synthesis Engine wordt eerst middels FFT de pitch van de te gebruiken sample geanalyseerd. Deze wordt vervolgens vergeleken met de target pitch uit de Score Editor om een ratio te berekenen die gebruikt wordt om de pitch van de sample te schalen naar de gewenste toonhoogte. | ||
+ | |||
+ | {{:sampleconcatenation.png?600|}} \\ | ||
+ | //Sample-timing voor de zin “Singing a song”// | ||
+ | |||
+ | Ook wordt aan de hand van de Synthesis Score een timing mapping gemaakt van de verschillende phonemes. Hiervoor wordt waarschijnlijk een Hidden Markov Model gebruikt als algoritme om de tijdsverdeling te bepalen. De ruimte tussen de verschillende samples wordt vervolgens geïnterpoleerd, zodat de samples in elkaar overlopen en verschillen in timbre niet of nauwelijks hoorbaar zijn. Het resultaat van deze synthese wordt vervolgens voor de gebruiker afgespeeld en kan worden geëxporteerd als WAV-bestand. | ||
+ | |||
===== Vergelijkbare programma's ===== | ===== Vergelijkbare programma's ===== |