Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
yamaha_vocaloid [2020/04/20 13:03]
Elmer Makkinga
yamaha_vocaloid [2022/10/26 15:55] (current)
Line 6: Line 6:
 Als medewerker van Bell Telephone Laboratories,​ wat later Nokia Bell Labs werd, begon Homer Dudley in 1928 met het ontwikkelen van de Vocoder. Dit was oorspronkelijk een apparaat dat de menselijke stem kon analyseren, deconstrueren en vervolgens weer in elkaar kon zetten((https://​muse.jhu.edu/​article/​491050/​summary)). De manier waarop we dat tegenwoordig in de muziek gebruiken is in feite door de reconstructie te doen op basis van een andere geluidsbron. Als medewerker van Bell Telephone Laboratories,​ wat later Nokia Bell Labs werd, begon Homer Dudley in 1928 met het ontwikkelen van de Vocoder. Dit was oorspronkelijk een apparaat dat de menselijke stem kon analyseren, deconstrueren en vervolgens weer in elkaar kon zetten((https://​muse.jhu.edu/​article/​491050/​summary)). De manier waarop we dat tegenwoordig in de muziek gebruiken is in feite door de reconstructie te doen op basis van een andere geluidsbron.
  
-In 1939 werd de Vocoder gepatenteerd en datzelfde jaar werden er op de wereldtentoonstelling in New York demonstraties gegeven met een verwant apparaat: de Voder, tevens ontworpen door Dudley. De Voder was de eerste elektronische //​speech-synthesizer//​ en in de handen van Helen Harper, professioneel Voder-operateur,​ kon het verstaanbare zinnen voortbrengen en zelfs liedjes zingen((https://​www.youtube.com/​watch?​v=5hyI_dM5cGo)). +In 1939 werd de Vocoder gepatenteerd en datzelfde jaar werden er op de wereldtentoonstelling in New York demonstraties gegeven met een verwant apparaat: de Voder, tevens ontworpen door Dudley. De Voder was de eerste elektronische //​speech-synthesizer//​ en in de handen van Helen Harper, professioneel Voder-operateur,​ kon het verstaanbare zinnen voortbrengen en zelfs liedjes zingen((https://​www.youtube.com/​watch?​v=5hyI_dM5cGo)). ​\\
 {{youtube>​5hyI_dM5cGo?​medium}} {{youtube>​5hyI_dM5cGo?​medium}}
  
 Het onderliggende principe van de Voder lijkt op //​concatenation synthesis//,​ het principe achter Vocaloid. Dit is het achter elkaar plakken van korte samples van verschillende geluiden. De Voder synthetiseerde deze samples echter zelf  met behulp van //formant synthesis// (het gebruik van bandpass filters op specifieke frequenties om het geluid van een klinker na te bootsen) en in plaats van dat een computerprogramma bepaalde hoe ze achter elkaar geplakt moesten worden, werd dat live door een operateur gedaan. \\ Het onderliggende principe van de Voder lijkt op //​concatenation synthesis//,​ het principe achter Vocaloid. Dit is het achter elkaar plakken van korte samples van verschillende geluiden. De Voder synthetiseerde deze samples echter zelf  met behulp van //formant synthesis// (het gebruik van bandpass filters op specifieke frequenties om het geluid van een klinker na te bootsen) en in plaats van dat een computerprogramma bepaalde hoe ze achter elkaar geplakt moesten worden, werd dat live door een operateur gedaan. \\
 {{:​vodercircuit.png?​600|}} \\ {{:​vodercircuit.png?​600|}} \\
-//schematische ​weergave van het circuit van de Voder// \\+//Schematische ​weergave van het circuit van de Voder.// \\
  
 Bell labs presenteerde in 1961 een nieuwe doorbraak: John Kelly Jr, Carol Lochbaum en Lou Gerstman waren erin geslaagd met een IBM 704 computer een spraaksynthesizer te maken en deze vervolgens het liedje Daisy Bell te laten zingen((https://​books.google.nl/​books?​id=ZISTvI4vVPsC&​pg=PA11&​lpg=PA11&​dq=bell+labs+Carol+Lockbaum&​redir_esc=y&​hl=nl#​v=onepage&​q=bell%20labs%20Carol%20Lockbaum&​f=false))((https://​www.youtube.com/​watch?​v=41U78QP8nBk)). Dit was overigens de inspiratie voor de kwaadaardige supercomputer HAL 9000 in //2001: A Space Odyssey//. De eerste volledige Engelse text-to-speech machine, een apparaat dat ingevoerde tekst direct kan omzetten in spraak, werd daarna in 1968 Japan ontwikkeld door een team van het Nationaal Elektrotechnisch Laboratorium onder leiding van Noriko Umeda((http://​amhistory.si.edu/​archives/​speechsynthesis/​dk_785.htm)). Bell labs presenteerde in 1961 een nieuwe doorbraak: John Kelly Jr, Carol Lochbaum en Lou Gerstman waren erin geslaagd met een IBM 704 computer een spraaksynthesizer te maken en deze vervolgens het liedje Daisy Bell te laten zingen((https://​books.google.nl/​books?​id=ZISTvI4vVPsC&​pg=PA11&​lpg=PA11&​dq=bell+labs+Carol+Lockbaum&​redir_esc=y&​hl=nl#​v=onepage&​q=bell%20labs%20Carol%20Lockbaum&​f=false))((https://​www.youtube.com/​watch?​v=41U78QP8nBk)). Dit was overigens de inspiratie voor de kwaadaardige supercomputer HAL 9000 in //2001: A Space Odyssey//. De eerste volledige Engelse text-to-speech machine, een apparaat dat ingevoerde tekst direct kan omzetten in spraak, werd daarna in 1968 Japan ontwikkeld door een team van het Nationaal Elektrotechnisch Laboratorium onder leiding van Noriko Umeda((http://​amhistory.si.edu/​archives/​speechsynthesis/​dk_785.htm)).
  
 Een text-to-speech machine is tevens wat de aan ALS lijdende wetenschapper Stephen Hawking zijn kenmerkende stem gaf. Dit apparaat was de DECTalk uit 1984, gebaseerd op onderzoek van Dennis H. Klatt en tevens gemodelleerd naar zijn eigen stem((https://​livingwithdisability.info/​history-speech-synthesisers/​)). ​ De DECTalk engine wordt ook gebruikt voor de chatfunctie van NASA’s videogame Moonbase Alpha uit 2010 en dit groeide zelfs uit tot een bescheiden meme. Als je ooit, verdwaald in het content-moeras van YouTube, een cover van een liedje uit een anime gezongen door een primitieve computerstem met een bijbehorende video vol astronautenpakken bent tegengekomen was de zanger hoogstwaarschijnlijk de DECTalk engine uit Moonbase Alpha((https://​www.youtube.com/​watch?​v=EdRYthkSwvI&​list=PL4xjmEIMzieI9kiDfh6s2dFt5cSnP9wdc&​index=9&​t=0s)). Dit zijn high-effort memes: zang programmeren in DECTalk is namelijk geen sinecure. ​ In tegenstelling tot normale spraak, die gewoon ingetypt kan worden, moet zang ingevoerd worden in fonemen: fonetische representaties van lettergrepen die in het geval van DECTalk-berichten gekoppeld moesten worden aan de nootduur en toonhoogte((https://​web.archive.org/​web/​20190403184858/​https://​forum.facepunch.com/​f/​general/​bjvjx/​DECtalk-The-Famous-Singing-Speech-Synthesizer-of-The-80s/​1/​)). Het liedje “Happy Birthday” moest daardoor op deze manier ingeprogrammeerd worden: \\ Een text-to-speech machine is tevens wat de aan ALS lijdende wetenschapper Stephen Hawking zijn kenmerkende stem gaf. Dit apparaat was de DECTalk uit 1984, gebaseerd op onderzoek van Dennis H. Klatt en tevens gemodelleerd naar zijn eigen stem((https://​livingwithdisability.info/​history-speech-synthesisers/​)). ​ De DECTalk engine wordt ook gebruikt voor de chatfunctie van NASA’s videogame Moonbase Alpha uit 2010 en dit groeide zelfs uit tot een bescheiden meme. Als je ooit, verdwaald in het content-moeras van YouTube, een cover van een liedje uit een anime gezongen door een primitieve computerstem met een bijbehorende video vol astronautenpakken bent tegengekomen was de zanger hoogstwaarschijnlijk de DECTalk engine uit Moonbase Alpha((https://​www.youtube.com/​watch?​v=EdRYthkSwvI&​list=PL4xjmEIMzieI9kiDfh6s2dFt5cSnP9wdc&​index=9&​t=0s)). Dit zijn high-effort memes: zang programmeren in DECTalk is namelijk geen sinecure. ​ In tegenstelling tot normale spraak, die gewoon ingetypt kan worden, moet zang ingevoerd worden in fonemen: fonetische representaties van lettergrepen die in het geval van DECTalk-berichten gekoppeld moesten worden aan de nootduur en toonhoogte((https://​web.archive.org/​web/​20190403184858/​https://​forum.facepunch.com/​f/​general/​bjvjx/​DECtalk-The-Famous-Singing-Speech-Synthesizer-of-The-80s/​1/​)). Het liedje “Happy Birthday” moest daardoor op deze manier ingeprogrammeerd worden: \\
-<​code>​ +<​code>​ [:phoneme on]
-[:phoneme on]+
 [hxae<​300,​10>​piy<​300,​10>​ brr<​600,​12>​th<​100>​dey<​600,​10>​ tuw<​600,​15>​ yu<​1200,​14>​_<​120>​] [hxae<​300,​10>​piy<​300,​10>​ brr<​600,​12>​th<​100>​dey<​600,​10>​ tuw<​600,​15>​ yu<​1200,​14>​_<​120>​]
 [hxae<​300,​10>​piy<​300,​10>​ brr<​600,​12>​th<​100>​dey<​600,​10>​ tuw<​600,​17>​ yu<​1200,​15>​_<​120>​] [hxae<​300,​10>​piy<​300,​10>​ brr<​600,​12>​th<​100>​dey<​600,​10>​ tuw<​600,​17>​ yu<​1200,​15>​_<​120>​]
 [hxae<​300,​10>​piy<​300,​10>​ [hxae<​300,​10>​piy<​300,​10>​
 brr<​600,​22>​th<​100>​dey<​600,​19>​dih<​600,​15>​rdeh<​600,​14>​ktao<​600,​12>​k_<​120>​_<​120>​] brr<​600,​22>​th<​100>​dey<​600,​19>​dih<​600,​15>​rdeh<​600,​14>​ktao<​600,​12>​k_<​120>​_<​120>​]
-[hxae<​300,​20>​piy<​300,​20>​ brr<​600,​19>​th<​100>​dey<​600,​15>​ tuw<​600,​17>​ yu<​1200,​15>​] +[hxae<​300,​20>​piy<​300,​20>​ brr<​600,​19>​th<​100>​dey<​600,​15>​ tuw<​600,​17>​ yu<​1200,​15>​] </​code>​
-</​code> ​\\+
 //De fonemen// hxae //en// piy //vormen hier dus samen het woord “happy”,​ vervolgens eerst de duur van de klank in milliseconden en daarna het nootnummer.//​ //De fonemen// hxae //en// piy //vormen hier dus samen het woord “happy”,​ vervolgens eerst de duur van de klank in milliseconden en daarna het nootnummer.//​
  
Line 33: Line 30:
 Alle systemen die we tot nu toe behandeld hebben, zijn bedoeld voor spraak in plaats van zang, en daar is een goede reden voor: dit soort systemen hebben een hele duidelijke commerciële toepassing. Text-to-speech machines zijn de omroepers op stations, de simpelste versie ervan zitten in pratend kinderspeelgoed en ze geven een stem aan mensen die vanwege een handicap niet kunnen praten. Totdat muziekgigant Yamaha Vocaloid uitbracht waren er echter nog geen spraaksynthesizers die puur bedoeld waren voor muzikale doeleinden. Alle systemen die we tot nu toe behandeld hebben, zijn bedoeld voor spraak in plaats van zang, en daar is een goede reden voor: dit soort systemen hebben een hele duidelijke commerciële toepassing. Text-to-speech machines zijn de omroepers op stations, de simpelste versie ervan zitten in pratend kinderspeelgoed en ze geven een stem aan mensen die vanwege een handicap niet kunnen praten. Totdat muziekgigant Yamaha Vocaloid uitbracht waren er echter nog geen spraaksynthesizers die puur bedoeld waren voor muzikale doeleinden.
 ===== Geschiedenis en evolutie van Vocaloid ===== ===== Geschiedenis en evolutie van Vocaloid =====
 +**Vroege ontwikkeling** \\
 +In 2000 startte Hideki Kenmochi van YAMAHA’s Advanced System Development Center een onderzoeksgroep aan de Pompeu Fabra-universiteit in Barcelona. Deze groep werd ondersteund door YAMAHA en onderzocht de mogelijkheden van “//​Singing Voice Synthesis Combining Excitation plus Resonance and Sinusoidal plus Residual Models//​”. De resultaten van dit onderzoek werden in 2001 in een paper gepubliceerd ((https://​quod.lib.umich.edu/​cgi/​p/​pod/​dod-idx/​singing-voice-synthesis-combining-excitation-plus-resonance.pdf?​c=icmc;​idno=bbp2372.2001.093;​format=pdf)) en vormden de basis voor wat in 2004 door YAMAHA als commercieel product zou worden uitgebracht onder de naam VOCALOID. Bij dit onderzoek baseerde het team zich op een combinatie van eerder onderzochte modellen: EpR (Excitation plus Resonance, [Childers, 1994]) en SpR (Sinusoidal plus Residual representation,​ verkregen door SMS-analyse [Serra, 1990]). De werking hiervan wordt behandeld onder “Hoe werkt VOCALOID”.
 +
 +**Eerste release** \\
 +Op de Musikmesse 2003 liet YAMAHA voor het eerst een (zeer basic) demo zien van de op dat moment in ontwikkeling zijnde VOCALOID-software. Paul White, die aanwezig was bij de presentatie,​ schreef in Sound On Sound: “Within minutes, the computer was singing like a professional!” ((https://​www.soundonsound.com/​people/​its-not-over-until-fat-computer-sings)). Deze eerste versie van de software had een pianoroll-interface voor de invoer van noten. Daarop konden uit een library ook articulaties,​ vibrato’s e.d. toegepast worden. \\
 +{{:​vocaloideditor.jpg?​600|}} \\
 +//De interface van de eerste VOCALOID Editor.//
 +
 +Bij deze versie van VOCALOID werden in eerste instantie twee stemmen geleverd: Leon en Lola, die beiden in het Engels zongen. Deze stemmen werden geproduceerd door het Britse Zero-G en gedistribueerd door Crypton Future Media Inc (Sapporo, Japan). Later werden aan de line-up Miriam (Zero-G), Meiko en Kaito (YAMAHA, Crypton) toegevoegd.
 +
 +**Ontvangst** \\
 +De reviews over VOCALOID waren gemengd. Het programma sleepte verscheidene awards binnen (2005 Electronic Musician Editor'​s Choice Award, G.A.N.G. Award voor “Best New Audio Technology),​ maar reviews, zoals die van Sound On Sound ((https://​www.soundonsound.com/​reviews/​yamaha-vocaloid-leon-lola)) waren wat gematigd.
 +
 +**Ontwikkeling sinds VOCALOID 1** \\
 +//Vocaloid 2// \\
 +Vier jaar na de eerste versie van het programma kwam YAMAHA met Vocaloid 2, een grote upgrade ten opzichte van de vorige uitgave. Naast een volledig nieuwe interface werd ook de synthese-engine aangepast, waardoor in plaats van enkel de analyse van menselijke stemmen te gebruiken, nu gesamplede menselijke stemmen de sound source vormden. Met de release van Vocaloid 2 werden ook nieuwe stemmen geïntroduceerd. Op 29 juli 2007 bracht het Zweedse PowerFX “Sweet Ann” uit, de eerste voicebank voor Vocaloid 2. Een maand later, op 31 augustus, kwam Crypton Future Media met het grote keerpunt in de geschiedenis van de Vocaloid-synthesizer,​ namelijk Hatsune Miku. Tot dat moment waren Vocaloid-stemmen een anonieme “stem uit een doosje”, vooral bedoeld als instrument. Hier kwam echter verandering in met de release van Miku, die in de markt werd gezet als character. Deze zet van Crypton sloeg aan en in haar eerste jaar op de markt werd Miku 40000 keer verkocht (ongeveer 300 stuks per week) ((https://​en.wikipedia.org/​wiki/​Vocaloid_2)). In totaal werden voor de Vocaloid 2-engine 35 voicebanks geproduceerd,​ waarvan vijf Engels en 17 Japans.
 +
 +//Vocaloid 3// \\
 +Op 21 oktober 2011 bracht YAMAHA Vocaloid 3 uit. Deze upgrade omvatte veel verbeteringen aan het syntheseproces en ondersteunde drie nieuwe talen: Chinees, Koreaans en Spaans. Vocaloid 3 werd als eerste Vocaloid-editor los verkocht. Bij vorige releases was de editor namelijk steeds inbegrepen bij voicebanks. Bij de release werden ook vier nieuwe voicebanks uitgebracht:​ Mew (Japans), SeeU (Koreaans, Japans), Megpoid (Japans) en VY1v3 (Japans).
 +
 +//Vocaloid 4// \\
 +Vocaloid 4 werd in oktober 2014 uitgebracht en introduceerde een aantal nieuwe parameters voor de vocale synthese, waaronder Growl en Cross-Synthesis. Daarnaast kwam er de mogelijkheid om de pitch van gebruikersinvoer te renderen, zodat de instant playback een stuk meer als het uiteindelijke resultaat klinkt. Voor Vocaloid 4 werden 86 voicebanks geproduceerd.
 +
 +//Vocaloid 5// \\
 +Vocaloid 5 is de nieuwste release in de Vocaloid-serie. V5 werd uitgebracht op 12 juli 2018 en heeft onder andere een nieuwe interface, een phrase library, audio-effecten,​ vier basisstemmen en nog veel meer. Voor Vocaloid 5 zijn tot nu toe 12 voicebanks uitgebracht.
  
 ===== Hoe werkt Vocaloid? ===== ===== Hoe werkt Vocaloid? =====
 +Hier wordt de werking beschreven zoals deze beschreven wordt in een conference paper uit 2010, geschreven door Hideki Kenmochi ((https://​www.isca-speech.org/​archive/​int_singing_2010/​papers/​isi0_001.pdf)). Deze technologie wordt waarschijnlijk nog steeds in meer of mindere mate gebruikt in de huidige VOCALOID-software. De afbeeldingen zijn afkomstig uit dit conference paper.
 +
 +Input van tekst en melodie gebeurt in VOCALOID middels een ietwat aangepaste pianoroll-editor. In deze editor kan naast toonhoogte en -duur ook tekst worden ingevoerd. Verder kunnen verschillende parameters, zoals vibrato, opening van de mond, pitch bends en vele anderen, makkelijk worden aangepast. Deze editor wordt in de research papers //Score Editor// genoemd.
 +
 +{{:​newvocaloideditor.jpg?​600|}} \\
 +//De Score Editor in VOCALOID 2/3/4//
 +
 +{{:​vocaloidcomponents.jpg?​600|}} \\
 +//Globaal overzicht van de verschillende onderdelen van de VOCALOID-synthesizer//​
 +
 +Zoals in dit diagram te zien is, wordt eerst op basis van gebruikersinvoer uit de Score Editor een zogenaamde //Synthesis Score// gegenereerd. Hiermee kunnen samples uit de //Singer Library// geselecteerd worden aan de hand van de fonetische “hapjes” van de ingevoerde tekst, de zogeheten //​phonemes//​. Deze samples worden vervolgens verwerkt in een DSP-applicatie,​ waar de vocale synthese plaatsvindt.
 +
 +{{:​vocaloidsynthengine.jpg?​600|}} \\
 +//Signal processing die plaatsvindt in VOCALOID 2//
 +
 +In de Synthesis Engine wordt eerst middels FFT de pitch van de te gebruiken sample geanalyseerd. Deze wordt vervolgens vergeleken met de target pitch uit de Score Editor om een ratio te berekenen die gebruikt wordt om de pitch van de sample te schalen naar de gewenste toonhoogte.
 +
 +{{:​sampleconcatenation.png?​600|}} \\
 +//​Sample-timing voor de zin “Singing a song”//
 +
 +Ook wordt aan de hand van de Synthesis Score een timing mapping gemaakt van de verschillende phonemes. Hiervoor wordt waarschijnlijk een Hidden Markov Model gebruikt als algoritme om de tijdsverdeling te bepalen. De ruimte tussen de verschillende samples wordt vervolgens geïnterpoleerd,​ zodat de samples in elkaar overlopen en verschillen in timbre niet of nauwelijks hoorbaar zijn. Het resultaat van deze synthese wordt vervolgens voor de gebruiker afgespeeld en kan worden geëxporteerd als WAV-bestand.
 +
  
 ===== Vergelijkbare programma'​s ===== ===== Vergelijkbare programma'​s =====
Line 45: Line 89:
 De bekendste tegenhanger van Vocaloid is **UTAU**, een tevens Japans shareware programma. De naam is afkomstig van het werkwoord “zingen” en jullie hebben het allemaal zeker een keer in actie gehoord: de inmiddels prehistorische meme Nyan Cat wordt namelijk gezongen door de UTAUloid (zo heet een UTAU voicebank in de volksmond) Momo Momone (of eigenlijk is de versie die een meme geworden is een cover met Momo Momone van het nummer //​Nyanyanyanyanyanyanya!//​ dat oorspronkelijk gezongen werd door Hatsune Miku, maar laten we het niet te ingewikkeld maken). UTAU bestaat al sinds 2008 en het was vanaf het begin af aan al gratis((http://​utau.wiki/​utau)),​ sterker nog: je kan er zelf een voicebank van je eigen stem voor maken! Het is ook mogelijk voor gebruikers om hun eigen plugins te programmeren voor UTAU en die te delen met de rest van de wereld, dit zijn geen effect-plugins zoals delay of reverb, maar plugins die de algehele functionaliteit van het programma verbeteren. Dit alles is wat UTAU vooral in Japan populair programma heeft gemaakt. De bekendste tegenhanger van Vocaloid is **UTAU**, een tevens Japans shareware programma. De naam is afkomstig van het werkwoord “zingen” en jullie hebben het allemaal zeker een keer in actie gehoord: de inmiddels prehistorische meme Nyan Cat wordt namelijk gezongen door de UTAUloid (zo heet een UTAU voicebank in de volksmond) Momo Momone (of eigenlijk is de versie die een meme geworden is een cover met Momo Momone van het nummer //​Nyanyanyanyanyanyanya!//​ dat oorspronkelijk gezongen werd door Hatsune Miku, maar laten we het niet te ingewikkeld maken). UTAU bestaat al sinds 2008 en het was vanaf het begin af aan al gratis((http://​utau.wiki/​utau)),​ sterker nog: je kan er zelf een voicebank van je eigen stem voor maken! Het is ook mogelijk voor gebruikers om hun eigen plugins te programmeren voor UTAU en die te delen met de rest van de wereld, dit zijn geen effect-plugins zoals delay of reverb, maar plugins die de algehele functionaliteit van het programma verbeteren. Dit alles is wat UTAU vooral in Japan populair programma heeft gemaakt.
  
-Het is net als Vocaloid een standalone programma en niet verkrijgbaar als VST, dit is een voordeel, maar we komen later terug op waarom. Net als Vocaloid gebruik je het door in een piano-roll noten op te geven en daar lettergrepen aan te koppelen. Naast de plugins zijn er ook verschillende rendering engines (zogenaamde “resamplers”) verkrijgbaar voor UTAU, die elk andere resultaten opleveren((https://​pepinouo.wixsite.com/​utau/​using-utau)). Over het algemeen klinken UTAUloids wat robotischer en metallischer dan Vocaloids, maar dat betekent er geen verbazingwekkend overtuigende vocals mee gemaakt kunnen worden((https://​www.youtube.com/​watch?​v=hFg3WRqpQmg)). De vele plugins, resamplers en gratis te downloaden voicebanks maken UTAU zo bruikbaar als je zelf bereidt bent het te maken. De keerzijde is echter dat je dat werk er wel echt in moet stoppen, alleen de installatie is al een uitdaging omdat die nooit in het Engels vertaald is. Verder zijn er ook een aantal dingen die je moet doen om de software bruikbaar te maken op een niet-Japanse computer, dat is dus tutorial kijken geblazen. De laatste update van UTAU stamt alweer uit 2013, maar het wordt nog steeds gebruikt: Circus-P, misschien wel de bekendste Engels Vocaloid producer, heeft in 2020 nog een album met enkel UTAU vocals uitgebracht. Een groot deel daarvan wordt gezongen door Aido Ishiame, een UTAUloid gebaseerd op zijn eigen stem. Dit was volgens hem echter wel een pijnlijk process.\\+UTAU is net als Vocaloid een standalone programma en niet verkrijgbaar als VST, dit is een voordeel, maar we komen later terug op waarom. Net als Vocaloid gebruik je het door in een piano-roll noten op te geven en daar lettergrepen aan te koppelen. Naast de plugins zijn er ook verschillende rendering engines (zogenaamde “resamplers”) verkrijgbaar voor UTAU, die elk andere resultaten opleveren((https://​pepinouo.wixsite.com/​utau/​using-utau)). Over het algemeen klinken UTAUloids wat robotischer en metallischer dan Vocaloids, maar dat betekent er geen verbazingwekkend overtuigende vocals mee gemaakt kunnen worden((https://​www.youtube.com/​watch?​v=hFg3WRqpQmg)). De vele plugins, resamplers en gratis te downloaden voicebanks maken UTAU zo bruikbaar als je zelf bereidt bent het te maken. De keerzijde is echter dat je dat werk er wel echt in moet stoppen, alleen de installatie is al een uitdaging omdat die nooit in het Engels vertaald is. Verder zijn er ook een aantal dingen die je moet doen om de software bruikbaar te maken op een niet-Japanse computer, dat is dus tutorial kijken geblazen. De laatste update van UTAU stamt alweer uit 2013, maar het wordt nog steeds gebruikt: Circus-P, misschien wel de bekendste Engels Vocaloid producer, heeft in 2020 nog een album met enkel UTAU vocals uitgebracht. Een groot deel daarvan wordt gezongen door Aido Ishiame, een UTAUloid gebaseerd op zijn eigen stem. Dit was volgens hem echter wel een pijnlijk process.\\
 {{:​circus.png?​600|}} \\ {{:​circus.png?​600|}} \\
 //Circus-P had moeite met UTAU.// \\ //Circus-P had moeite met UTAU.// \\
Line 57: Line 101:
 Naast CeVIO en UTAU zijn er meer programma’s die erg lijken op Vocaloid. **Synthesizer V** en **DeepVocal** zijn relatief nieuw, de laatste kun je zien als makkelijker te gebruiken versie van UTAU die echter nog niet zo’n actieve community heeft. Synth V is redelijk makkelijk te gebruiken, heeft een solide Engelse voicebank genaamd Eleanor Forte en een zeer genereuze gratis proefperiode. Beide programma’s zijn echter minder volwassen dan Vocaloid en CeVIO. Dan zijn er ook nog **Cantor**, dat gelijktijdig uitkwam met Vocaloid maar sinds 2007 niet meer geupdate wordt; **Cadencii**,​ eigenlijk een frontend voor UTAU; **NIAONiao**,​ eigenlijk een Chinese versie van UTAU; **Emvoice**,​ een nieuwkomer die cloud-computing gebruikt en momenteel nog bijzonder saai klinkt; teveel om op te noemen en zeker teveel om hier allemaal uitgebreid te behandelen((https://​vocaloid.fandom.com/​wiki/​Technology_directory_for_other_synthesizers)). ​ Deze programma’s hebben allemaal globaal dezelfde functie als Vocaloid, CeVIO en UTAU en werken op ongeveer dezelfde manier. Naast CeVIO en UTAU zijn er meer programma’s die erg lijken op Vocaloid. **Synthesizer V** en **DeepVocal** zijn relatief nieuw, de laatste kun je zien als makkelijker te gebruiken versie van UTAU die echter nog niet zo’n actieve community heeft. Synth V is redelijk makkelijk te gebruiken, heeft een solide Engelse voicebank genaamd Eleanor Forte en een zeer genereuze gratis proefperiode. Beide programma’s zijn echter minder volwassen dan Vocaloid en CeVIO. Dan zijn er ook nog **Cantor**, dat gelijktijdig uitkwam met Vocaloid maar sinds 2007 niet meer geupdate wordt; **Cadencii**,​ eigenlijk een frontend voor UTAU; **NIAONiao**,​ eigenlijk een Chinese versie van UTAU; **Emvoice**,​ een nieuwkomer die cloud-computing gebruikt en momenteel nog bijzonder saai klinkt; teveel om op te noemen en zeker teveel om hier allemaal uitgebreid te behandelen((https://​vocaloid.fandom.com/​wiki/​Technology_directory_for_other_synthesizers)). ​ Deze programma’s hebben allemaal globaal dezelfde functie als Vocaloid, CeVIO en UTAU en werken op ongeveer dezelfde manier.
  
-**Piapro Studio** is een interessant geval: dit is een programma van Crypton Future Media, die de meeste populaire Vocaloid voicebanks zoals Hatsune Miku, Kaito en Megurine Luka maken. Het maakt onderhuids gebruik van de engine van Vocaloid 4 en is dus eigenlijk Vocaloid in een ander jasje ((https://​vocaloid.fandom.com/​wiki/​Piapro_Studio#​cite_note-FAQusage-2))((https://​piaprostudio.com/?​p=5201&​lang=en)). Nog interessanter is **Piapro Studio for NT** (Newtype), een compleet nieuw door Cypton Future Media ontwikkeld programma dat niet meer gebaseerd is op Vocaloid. ​ Het zou oorspronkelijk uitkomen in Maart samen met de nieuwe voicebank Hatsune Miku NT, maar dit is inmiddels verzet naar Augustus ((https://​piapro.fandom.com/​wiki/​Piapro_Studio_for_NT)). Wij vinden het spannend.+**Piapro Studio** is een interessant geval: dit is een programma van Crypton Future Media, die de meeste populaire Vocaloid voicebanks zoals Hatsune Miku, Kaito en Megurine Luka maken. Het maakt onderhuids gebruik van de engine van Vocaloid 4 en is dus eigenlijk Vocaloid in een ander jasje ((https://​vocaloid.fandom.com/​wiki/​Piapro_Studio#​cite_note-FAQusage-2))((https://​piaprostudio.com/?​p=5201&​lang=en)). Nog interessanter is **Piapro Studio for NT** (Newtype), een compleet nieuw door Cypton Future Media ontwikkeld programma dat niet meer gebaseerd is op Vocaloid. ​ Het zou oorspronkelijk uitkomen in Maart samen met de nieuwe voicebank Hatsune Miku NT, maar dit is inmiddels verzet naar Augustus((https://​piapro.fandom.com/​wiki/​Piapro_Studio_for_NT)). Wij vinden het spannend.
  
 Plogue Art et Technologie is een Frans bedrijf dat degenen onder ons die veel met virtuele orkestratie bezig zijn misschien wel kennen van de VST-plugin Sforzando. Ze zijn echter ook veel bezig met vocale synthese. ​ In 2015 brachten ze **Chipspeech** uit, een soort ode in VST-vorm aan de oude spraaksynthesizers die we bij het hoofdstuk over de geschiedenis der vocale synthese hebben behandeld. Er zitten emulaties in van de Voder, John Kelly’s IBM 704, DECTalk, S.A.M. en nog een aantal andere spraaksynthesizers die we niet hebben behandeld zoals de Votrax SC-01 en STSPEECH.TOS voor de Atari ST((https://​www.plogue.com/​products/​chipspeech.html)).\\ Plogue Art et Technologie is een Frans bedrijf dat degenen onder ons die veel met virtuele orkestratie bezig zijn misschien wel kennen van de VST-plugin Sforzando. Ze zijn echter ook veel bezig met vocale synthese. ​ In 2015 brachten ze **Chipspeech** uit, een soort ode in VST-vorm aan de oude spraaksynthesizers die we bij het hoofdstuk over de geschiedenis der vocale synthese hebben behandeld. Er zitten emulaties in van de Voder, John Kelly’s IBM 704, DECTalk, S.A.M. en nog een aantal andere spraaksynthesizers die we niet hebben behandeld zoals de Votrax SC-01 en STSPEECH.TOS voor de Atari ST((https://​www.plogue.com/​products/​chipspeech.html)).\\
Line 63: Line 107:
 //Plogue Chipspeech//​ \\ //Plogue Chipspeech//​ \\
  
-Het is erg cool dat je nu met Chipspeech toegang hebt tot al deze oude spraaksynthesizers en ze kan laten zingen, iets wat voor de originele apparaten vaak moeilijk zo niet onmogelijk was, door er simpelweg midinoten tegenaan te gooien. Daarnaast kunnen de stemmen ook zo getweaked worden dat ze kunnen fungeren als lead synths of pads. Er is zelfs al een semi-virale meme mee gemaakt en als iets kenmerkend is voor een capabele spraaksynthesizers is dat het wel.\\ +Het is erg cool dat je nu met Chipspeech toegang hebt tot al deze oude spraaksynthesizers en ze kan laten zingen, iets wat voor de originele apparaten vaak moeilijk zo niet onmogelijk was, door er simpelweg midinoten tegenaan te gooien. Daarnaast kunnen de stemmen ook zo getweaked worden dat ze kunnen fungeren als lead synths of pads. Er is zelfs al een semi-virale meme mee gemaakt en als iets kenmerkend is voor capabele spraaksynthesizers is dat het wel.\\ 
-{{youtube>​v1K4EAXe2oo?​medium}}\\ +{{youtube>​v1K4EAXe2oo?​medium}} 
-//Dit nummer is gemaakt met de voicebank Bert Gotrax in Chipspeech.//​\\+//Dit nummer is gemaakt met de voicebank Bert Gotrax in Chipspeech.//​ 
 Dat Chipspeech als VST-plugin bestaat lijkt een groot voordeel, maar in de praktijk is dat juist erg onhandig. De tekst die je Chipspeech opgeeft is nameljk niet gesynchroniseerd met een bepaalde tijdcode in je DAW en loopt gaat elke keer dat je op play drukt gewoon verder waar het gebleven was. Om die synchronisatie voor elkaar te krijgen moet je in de weer met midi CC automatisering of keyswitches en zelfs dan kun je alleen aparte regels synchroniseren en geen individuele woorden. Chipspeech werkt bovendien in realtime, wat leuk is voor een performance maar ervoor zorgt dat de transities tussen klanken slordig kunnen worden omdat het programma niet kan anticiperen op wat er na de huidige noot komt. Plogue heeft ook **Alter/​Ego** gemaakt, een gratis VST met een vergelijkbare interface en werkwijze als Chipspeech maar bedoeld voor meer realistische vocals. Dat Chipspeech als VST-plugin bestaat lijkt een groot voordeel, maar in de praktijk is dat juist erg onhandig. De tekst die je Chipspeech opgeeft is nameljk niet gesynchroniseerd met een bepaalde tijdcode in je DAW en loopt gaat elke keer dat je op play drukt gewoon verder waar het gebleven was. Om die synchronisatie voor elkaar te krijgen moet je in de weer met midi CC automatisering of keyswitches en zelfs dan kun je alleen aparte regels synchroniseren en geen individuele woorden. Chipspeech werkt bovendien in realtime, wat leuk is voor een performance maar ervoor zorgt dat de transities tussen klanken slordig kunnen worden omdat het programma niet kan anticiperen op wat er na de huidige noot komt. Plogue heeft ook **Alter/​Ego** gemaakt, een gratis VST met een vergelijkbare interface en werkwijze als Chipspeech maar bedoeld voor meer realistische vocals.
  
Line 72: Line 117:
 //Realivox. Oh kuh moh kuh mee mehn yoo ehl. Screenshot uit een demo van Realitone.//​ //Realivox. Oh kuh moh kuh mee mehn yoo ehl. Screenshot uit een demo van Realitone.//​
  
-Ook leuk is **Sinsy**, een zangsynthesizer gebaseerd op een //Hidden Markov model//​((https://​www.aclweb.org/​anthology/​O13-5005.pdf)) en //deep learning//. Je kan op de [[http://​www.sinsy.jp/​|Sinsy website]] bladmuziek in de vorm van een musicxml bestand uploaden, compleet met lyrics, en Sinsy maakt er dan zelf zang van.+Als laatste willen we ook **Sinsy** ​even benoemen, een zangsynthesizer gebaseerd op een //Hidden Markov model//​((https://​www.aclweb.org/​anthology/​O13-5005.pdf)) en //deep learning// ​die uitkwam in 2015((http://​sinsy.sourceforge.net/​readme_sinsy.php)). Je kan op de [[http://​www.sinsy.jp/​|Sinsy website]] bladmuziek in de vorm van een musicxml bestand uploaden, compleet met lyrics, en Sinsy maakt er dan zelf zang van.
  
 ===== Tuning: de struggle van vocalsynth producers ===== ===== Tuning: de struggle van vocalsynth producers =====