Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
yamaha_vocaloid [2020/04/20 13:07]
Elmer Makkinga [Vergelijkbare programma's]
yamaha_vocaloid [2022/10/26 15:55] (current)
Line 30: Line 30:
 Alle systemen die we tot nu toe behandeld hebben, zijn bedoeld voor spraak in plaats van zang, en daar is een goede reden voor: dit soort systemen hebben een hele duidelijke commerciële toepassing. Text-to-speech machines zijn de omroepers op stations, de simpelste versie ervan zitten in pratend kinderspeelgoed en ze geven een stem aan mensen die vanwege een handicap niet kunnen praten. Totdat muziekgigant Yamaha Vocaloid uitbracht waren er echter nog geen spraaksynthesizers die puur bedoeld waren voor muzikale doeleinden. Alle systemen die we tot nu toe behandeld hebben, zijn bedoeld voor spraak in plaats van zang, en daar is een goede reden voor: dit soort systemen hebben een hele duidelijke commerciële toepassing. Text-to-speech machines zijn de omroepers op stations, de simpelste versie ervan zitten in pratend kinderspeelgoed en ze geven een stem aan mensen die vanwege een handicap niet kunnen praten. Totdat muziekgigant Yamaha Vocaloid uitbracht waren er echter nog geen spraaksynthesizers die puur bedoeld waren voor muzikale doeleinden.
 ===== Geschiedenis en evolutie van Vocaloid ===== ===== Geschiedenis en evolutie van Vocaloid =====
 +**Vroege ontwikkeling** \\
 +In 2000 startte Hideki Kenmochi van YAMAHA’s Advanced System Development Center een onderzoeksgroep aan de Pompeu Fabra-universiteit in Barcelona. Deze groep werd ondersteund door YAMAHA en onderzocht de mogelijkheden van “//​Singing Voice Synthesis Combining Excitation plus Resonance and Sinusoidal plus Residual Models//​”. De resultaten van dit onderzoek werden in 2001 in een paper gepubliceerd ((https://​quod.lib.umich.edu/​cgi/​p/​pod/​dod-idx/​singing-voice-synthesis-combining-excitation-plus-resonance.pdf?​c=icmc;​idno=bbp2372.2001.093;​format=pdf)) en vormden de basis voor wat in 2004 door YAMAHA als commercieel product zou worden uitgebracht onder de naam VOCALOID. Bij dit onderzoek baseerde het team zich op een combinatie van eerder onderzochte modellen: EpR (Excitation plus Resonance, [Childers, 1994]) en SpR (Sinusoidal plus Residual representation,​ verkregen door SMS-analyse [Serra, 1990]). De werking hiervan wordt behandeld onder “Hoe werkt VOCALOID”.
 +
 +**Eerste release** \\
 +Op de Musikmesse 2003 liet YAMAHA voor het eerst een (zeer basic) demo zien van de op dat moment in ontwikkeling zijnde VOCALOID-software. Paul White, die aanwezig was bij de presentatie,​ schreef in Sound On Sound: “Within minutes, the computer was singing like a professional!” ((https://​www.soundonsound.com/​people/​its-not-over-until-fat-computer-sings)). Deze eerste versie van de software had een pianoroll-interface voor de invoer van noten. Daarop konden uit een library ook articulaties,​ vibrato’s e.d. toegepast worden. \\
 +{{:​vocaloideditor.jpg?​600|}} \\
 +//De interface van de eerste VOCALOID Editor.//
 +
 +Bij deze versie van VOCALOID werden in eerste instantie twee stemmen geleverd: Leon en Lola, die beiden in het Engels zongen. Deze stemmen werden geproduceerd door het Britse Zero-G en gedistribueerd door Crypton Future Media Inc (Sapporo, Japan). Later werden aan de line-up Miriam (Zero-G), Meiko en Kaito (YAMAHA, Crypton) toegevoegd.
 +
 +**Ontvangst** \\
 +De reviews over VOCALOID waren gemengd. Het programma sleepte verscheidene awards binnen (2005 Electronic Musician Editor'​s Choice Award, G.A.N.G. Award voor “Best New Audio Technology),​ maar reviews, zoals die van Sound On Sound ((https://​www.soundonsound.com/​reviews/​yamaha-vocaloid-leon-lola)) waren wat gematigd.
 +
 +**Ontwikkeling sinds VOCALOID 1** \\
 +//Vocaloid 2// \\
 +Vier jaar na de eerste versie van het programma kwam YAMAHA met Vocaloid 2, een grote upgrade ten opzichte van de vorige uitgave. Naast een volledig nieuwe interface werd ook de synthese-engine aangepast, waardoor in plaats van enkel de analyse van menselijke stemmen te gebruiken, nu gesamplede menselijke stemmen de sound source vormden. Met de release van Vocaloid 2 werden ook nieuwe stemmen geïntroduceerd. Op 29 juli 2007 bracht het Zweedse PowerFX “Sweet Ann” uit, de eerste voicebank voor Vocaloid 2. Een maand later, op 31 augustus, kwam Crypton Future Media met het grote keerpunt in de geschiedenis van de Vocaloid-synthesizer,​ namelijk Hatsune Miku. Tot dat moment waren Vocaloid-stemmen een anonieme “stem uit een doosje”, vooral bedoeld als instrument. Hier kwam echter verandering in met de release van Miku, die in de markt werd gezet als character. Deze zet van Crypton sloeg aan en in haar eerste jaar op de markt werd Miku 40000 keer verkocht (ongeveer 300 stuks per week) ((https://​en.wikipedia.org/​wiki/​Vocaloid_2)). In totaal werden voor de Vocaloid 2-engine 35 voicebanks geproduceerd,​ waarvan vijf Engels en 17 Japans.
 +
 +//Vocaloid 3// \\
 +Op 21 oktober 2011 bracht YAMAHA Vocaloid 3 uit. Deze upgrade omvatte veel verbeteringen aan het syntheseproces en ondersteunde drie nieuwe talen: Chinees, Koreaans en Spaans. Vocaloid 3 werd als eerste Vocaloid-editor los verkocht. Bij vorige releases was de editor namelijk steeds inbegrepen bij voicebanks. Bij de release werden ook vier nieuwe voicebanks uitgebracht:​ Mew (Japans), SeeU (Koreaans, Japans), Megpoid (Japans) en VY1v3 (Japans).
 +
 +//Vocaloid 4// \\
 +Vocaloid 4 werd in oktober 2014 uitgebracht en introduceerde een aantal nieuwe parameters voor de vocale synthese, waaronder Growl en Cross-Synthesis. Daarnaast kwam er de mogelijkheid om de pitch van gebruikersinvoer te renderen, zodat de instant playback een stuk meer als het uiteindelijke resultaat klinkt. Voor Vocaloid 4 werden 86 voicebanks geproduceerd.
 +
 +//Vocaloid 5// \\
 +Vocaloid 5 is de nieuwste release in de Vocaloid-serie. V5 werd uitgebracht op 12 juli 2018 en heeft onder andere een nieuwe interface, een phrase library, audio-effecten,​ vier basisstemmen en nog veel meer. Voor Vocaloid 5 zijn tot nu toe 12 voicebanks uitgebracht.
  
 ===== Hoe werkt Vocaloid? ===== ===== Hoe werkt Vocaloid? =====
 +Hier wordt de werking beschreven zoals deze beschreven wordt in een conference paper uit 2010, geschreven door Hideki Kenmochi ((https://​www.isca-speech.org/​archive/​int_singing_2010/​papers/​isi0_001.pdf)). Deze technologie wordt waarschijnlijk nog steeds in meer of mindere mate gebruikt in de huidige VOCALOID-software. De afbeeldingen zijn afkomstig uit dit conference paper.
 +
 +Input van tekst en melodie gebeurt in VOCALOID middels een ietwat aangepaste pianoroll-editor. In deze editor kan naast toonhoogte en -duur ook tekst worden ingevoerd. Verder kunnen verschillende parameters, zoals vibrato, opening van de mond, pitch bends en vele anderen, makkelijk worden aangepast. Deze editor wordt in de research papers //Score Editor// genoemd.
 +
 +{{:​newvocaloideditor.jpg?​600|}} \\
 +//De Score Editor in VOCALOID 2/3/4//
 +
 +{{:​vocaloidcomponents.jpg?​600|}} \\
 +//Globaal overzicht van de verschillende onderdelen van de VOCALOID-synthesizer//​
 +
 +Zoals in dit diagram te zien is, wordt eerst op basis van gebruikersinvoer uit de Score Editor een zogenaamde //Synthesis Score// gegenereerd. Hiermee kunnen samples uit de //Singer Library// geselecteerd worden aan de hand van de fonetische “hapjes” van de ingevoerde tekst, de zogeheten //​phonemes//​. Deze samples worden vervolgens verwerkt in een DSP-applicatie,​ waar de vocale synthese plaatsvindt.
 +
 +{{:​vocaloidsynthengine.jpg?​600|}} \\
 +//Signal processing die plaatsvindt in VOCALOID 2//
 +
 +In de Synthesis Engine wordt eerst middels FFT de pitch van de te gebruiken sample geanalyseerd. Deze wordt vervolgens vergeleken met de target pitch uit de Score Editor om een ratio te berekenen die gebruikt wordt om de pitch van de sample te schalen naar de gewenste toonhoogte.
 +
 +{{:​sampleconcatenation.png?​600|}} \\
 +//​Sample-timing voor de zin “Singing a song”//
 +
 +Ook wordt aan de hand van de Synthesis Score een timing mapping gemaakt van de verschillende phonemes. Hiervoor wordt waarschijnlijk een Hidden Markov Model gebruikt als algoritme om de tijdsverdeling te bepalen. De ruimte tussen de verschillende samples wordt vervolgens geïnterpoleerd,​ zodat de samples in elkaar overlopen en verschillen in timbre niet of nauwelijks hoorbaar zijn. Het resultaat van deze synthese wordt vervolgens voor de gebruiker afgespeeld en kan worden geëxporteerd als WAV-bestand.
 +
  
 ===== Vergelijkbare programma'​s ===== ===== Vergelijkbare programma'​s =====
Line 54: Line 101:
 Naast CeVIO en UTAU zijn er meer programma’s die erg lijken op Vocaloid. **Synthesizer V** en **DeepVocal** zijn relatief nieuw, de laatste kun je zien als makkelijker te gebruiken versie van UTAU die echter nog niet zo’n actieve community heeft. Synth V is redelijk makkelijk te gebruiken, heeft een solide Engelse voicebank genaamd Eleanor Forte en een zeer genereuze gratis proefperiode. Beide programma’s zijn echter minder volwassen dan Vocaloid en CeVIO. Dan zijn er ook nog **Cantor**, dat gelijktijdig uitkwam met Vocaloid maar sinds 2007 niet meer geupdate wordt; **Cadencii**,​ eigenlijk een frontend voor UTAU; **NIAONiao**,​ eigenlijk een Chinese versie van UTAU; **Emvoice**,​ een nieuwkomer die cloud-computing gebruikt en momenteel nog bijzonder saai klinkt; teveel om op te noemen en zeker teveel om hier allemaal uitgebreid te behandelen((https://​vocaloid.fandom.com/​wiki/​Technology_directory_for_other_synthesizers)). ​ Deze programma’s hebben allemaal globaal dezelfde functie als Vocaloid, CeVIO en UTAU en werken op ongeveer dezelfde manier. Naast CeVIO en UTAU zijn er meer programma’s die erg lijken op Vocaloid. **Synthesizer V** en **DeepVocal** zijn relatief nieuw, de laatste kun je zien als makkelijker te gebruiken versie van UTAU die echter nog niet zo’n actieve community heeft. Synth V is redelijk makkelijk te gebruiken, heeft een solide Engelse voicebank genaamd Eleanor Forte en een zeer genereuze gratis proefperiode. Beide programma’s zijn echter minder volwassen dan Vocaloid en CeVIO. Dan zijn er ook nog **Cantor**, dat gelijktijdig uitkwam met Vocaloid maar sinds 2007 niet meer geupdate wordt; **Cadencii**,​ eigenlijk een frontend voor UTAU; **NIAONiao**,​ eigenlijk een Chinese versie van UTAU; **Emvoice**,​ een nieuwkomer die cloud-computing gebruikt en momenteel nog bijzonder saai klinkt; teveel om op te noemen en zeker teveel om hier allemaal uitgebreid te behandelen((https://​vocaloid.fandom.com/​wiki/​Technology_directory_for_other_synthesizers)). ​ Deze programma’s hebben allemaal globaal dezelfde functie als Vocaloid, CeVIO en UTAU en werken op ongeveer dezelfde manier.
  
-**Piapro Studio** is een interessant geval: dit is een programma van Crypton Future Media, die de meeste populaire Vocaloid voicebanks zoals Hatsune Miku, Kaito en Megurine Luka maken. Het maakt onderhuids gebruik van de engine van Vocaloid 4 en is dus eigenlijk Vocaloid in een ander jasje ((https://​vocaloid.fandom.com/​wiki/​Piapro_Studio#​cite_note-FAQusage-2))((https://​piaprostudio.com/?​p=5201&​lang=en)). Nog interessanter is **Piapro Studio for NT** (Newtype), een compleet nieuw door Cypton Future Media ontwikkeld programma dat niet meer gebaseerd is op Vocaloid. ​ Het zou oorspronkelijk uitkomen in Maart samen met de nieuwe voicebank Hatsune Miku NT, maar dit is inmiddels verzet naar Augustus ((https://​piapro.fandom.com/​wiki/​Piapro_Studio_for_NT)). Wij vinden het spannend.+**Piapro Studio** is een interessant geval: dit is een programma van Crypton Future Media, die de meeste populaire Vocaloid voicebanks zoals Hatsune Miku, Kaito en Megurine Luka maken. Het maakt onderhuids gebruik van de engine van Vocaloid 4 en is dus eigenlijk Vocaloid in een ander jasje ((https://​vocaloid.fandom.com/​wiki/​Piapro_Studio#​cite_note-FAQusage-2))((https://​piaprostudio.com/?​p=5201&​lang=en)). Nog interessanter is **Piapro Studio for NT** (Newtype), een compleet nieuw door Cypton Future Media ontwikkeld programma dat niet meer gebaseerd is op Vocaloid. ​ Het zou oorspronkelijk uitkomen in Maart samen met de nieuwe voicebank Hatsune Miku NT, maar dit is inmiddels verzet naar Augustus((https://​piapro.fandom.com/​wiki/​Piapro_Studio_for_NT)). Wij vinden het spannend.
  
 Plogue Art et Technologie is een Frans bedrijf dat degenen onder ons die veel met virtuele orkestratie bezig zijn misschien wel kennen van de VST-plugin Sforzando. Ze zijn echter ook veel bezig met vocale synthese. ​ In 2015 brachten ze **Chipspeech** uit, een soort ode in VST-vorm aan de oude spraaksynthesizers die we bij het hoofdstuk over de geschiedenis der vocale synthese hebben behandeld. Er zitten emulaties in van de Voder, John Kelly’s IBM 704, DECTalk, S.A.M. en nog een aantal andere spraaksynthesizers die we niet hebben behandeld zoals de Votrax SC-01 en STSPEECH.TOS voor de Atari ST((https://​www.plogue.com/​products/​chipspeech.html)).\\ Plogue Art et Technologie is een Frans bedrijf dat degenen onder ons die veel met virtuele orkestratie bezig zijn misschien wel kennen van de VST-plugin Sforzando. Ze zijn echter ook veel bezig met vocale synthese. ​ In 2015 brachten ze **Chipspeech** uit, een soort ode in VST-vorm aan de oude spraaksynthesizers die we bij het hoofdstuk over de geschiedenis der vocale synthese hebben behandeld. Er zitten emulaties in van de Voder, John Kelly’s IBM 704, DECTalk, S.A.M. en nog een aantal andere spraaksynthesizers die we niet hebben behandeld zoals de Votrax SC-01 en STSPEECH.TOS voor de Atari ST((https://​www.plogue.com/​products/​chipspeech.html)).\\
Line 60: Line 107:
 //Plogue Chipspeech//​ \\ //Plogue Chipspeech//​ \\
  
-Het is erg cool dat je nu met Chipspeech toegang hebt tot al deze oude spraaksynthesizers en ze kan laten zingen, iets wat voor de originele apparaten vaak moeilijk zo niet onmogelijk was, door er simpelweg midinoten tegenaan te gooien. Daarnaast kunnen de stemmen ook zo getweaked worden dat ze kunnen fungeren als lead synths of pads. Er is zelfs al een semi-virale meme mee gemaakt en als iets kenmerkend is voor een capabele spraaksynthesizers is dat het wel.\\ +Het is erg cool dat je nu met Chipspeech toegang hebt tot al deze oude spraaksynthesizers en ze kan laten zingen, iets wat voor de originele apparaten vaak moeilijk zo niet onmogelijk was, door er simpelweg midinoten tegenaan te gooien. Daarnaast kunnen de stemmen ook zo getweaked worden dat ze kunnen fungeren als lead synths of pads. Er is zelfs al een semi-virale meme mee gemaakt en als iets kenmerkend is voor capabele spraaksynthesizers is dat het wel.\\ 
-{{youtube>​v1K4EAXe2oo?​medium}}\\ +{{youtube>​v1K4EAXe2oo?​medium}} 
-//Dit nummer is gemaakt met de voicebank Bert Gotrax in Chipspeech.//​\\+//Dit nummer is gemaakt met de voicebank Bert Gotrax in Chipspeech.//​ 
 Dat Chipspeech als VST-plugin bestaat lijkt een groot voordeel, maar in de praktijk is dat juist erg onhandig. De tekst die je Chipspeech opgeeft is nameljk niet gesynchroniseerd met een bepaalde tijdcode in je DAW en loopt gaat elke keer dat je op play drukt gewoon verder waar het gebleven was. Om die synchronisatie voor elkaar te krijgen moet je in de weer met midi CC automatisering of keyswitches en zelfs dan kun je alleen aparte regels synchroniseren en geen individuele woorden. Chipspeech werkt bovendien in realtime, wat leuk is voor een performance maar ervoor zorgt dat de transities tussen klanken slordig kunnen worden omdat het programma niet kan anticiperen op wat er na de huidige noot komt. Plogue heeft ook **Alter/​Ego** gemaakt, een gratis VST met een vergelijkbare interface en werkwijze als Chipspeech maar bedoeld voor meer realistische vocals. Dat Chipspeech als VST-plugin bestaat lijkt een groot voordeel, maar in de praktijk is dat juist erg onhandig. De tekst die je Chipspeech opgeeft is nameljk niet gesynchroniseerd met een bepaalde tijdcode in je DAW en loopt gaat elke keer dat je op play drukt gewoon verder waar het gebleven was. Om die synchronisatie voor elkaar te krijgen moet je in de weer met midi CC automatisering of keyswitches en zelfs dan kun je alleen aparte regels synchroniseren en geen individuele woorden. Chipspeech werkt bovendien in realtime, wat leuk is voor een performance maar ervoor zorgt dat de transities tussen klanken slordig kunnen worden omdat het programma niet kan anticiperen op wat er na de huidige noot komt. Plogue heeft ook **Alter/​Ego** gemaakt, een gratis VST met een vergelijkbare interface en werkwijze als Chipspeech maar bedoeld voor meer realistische vocals.
  
Line 69: Line 117:
 //Realivox. Oh kuh moh kuh mee mehn yoo ehl. Screenshot uit een demo van Realitone.//​ //Realivox. Oh kuh moh kuh mee mehn yoo ehl. Screenshot uit een demo van Realitone.//​
  
-Ook leuk is **Sinsy**, een zangsynthesizer gebaseerd op een //Hidden Markov model//​((https://​www.aclweb.org/​anthology/​O13-5005.pdf)) en //deep learning//. Je kan op de [[http://​www.sinsy.jp/​|Sinsy website]] bladmuziek in de vorm van een musicxml bestand uploaden, compleet met lyrics, en Sinsy maakt er dan zelf zang van.+Als laatste willen we ook **Sinsy** ​even benoemen, een zangsynthesizer gebaseerd op een //Hidden Markov model//​((https://​www.aclweb.org/​anthology/​O13-5005.pdf)) en //deep learning// ​die uitkwam in 2015((http://​sinsy.sourceforge.net/​readme_sinsy.php)). Je kan op de [[http://​www.sinsy.jp/​|Sinsy website]] bladmuziek in de vorm van een musicxml bestand uploaden, compleet met lyrics, en Sinsy maakt er dan zelf zang van.
  
 ===== Tuning: de struggle van vocalsynth producers ===== ===== Tuning: de struggle van vocalsynth producers =====