Differences

This shows you the differences between two versions of the page.

--- yamaha_vocaloid [2020/04/20 12:02]
Elmer Makkinga [Vergelijkbare programma's]
+++ yamaha_vocaloid [2022/10/26 15:55] (current)
@@ Line 2: / Line 2: @@
 {{ :vocaloidbanner.png?600 |}}
 ===== Geschiedenis van vocale synthese =====
-De eerste machines die de menselijke stem na konden zijn al eeuwenoud. Christian Gottlieb Kratzenstein onthulde in 1779 een apparaat met vijf resonerende buizen die elk het geluid van een klinker voortbrachten door erin te blazen<sup>1</sup>. In de decennia hierna werden apparaten gemaakt die het hele spraakkanaal nadeden, compleet met blaasbalg voor de longen<sup>1</sup>. Je zou deze apparaten kunnen zien als vroege physical modelling synthesizers, maar dan zonder elektronica.
+De eerste machines die de menselijke stem na konden zijn al eeuwenoud. Christian Gottlieb Kratzenstein onthulde in 1779 een apparaat met vijf resonerende buizen die elk het geluid van een klinker voortbrachten door erin te blazen((http://research.spa.aalto.fi/publications/theses/lemmetty_mst/chap2.html)). In de decennia hierna werden apparaten gemaakt die het hele spraakkanaal nadeden, compleet met blaasbalg voor de longen((http://research.spa.aalto.fi/publications/theses/lemmetty_mst/chap2.html)). Je zou deze apparaten kunnen zien als vroege physical modelling synthesizers, maar dan zonder elektronica.
-Als medewerker van Bell Telephone Laboratories, wat later Nokia Bell Labs werd, begon Homer Dudley in 1928 met het ontwikkelen van de Vocoder. Dit was oorspronkelijk een apparaat dat de menselijke stem kon analyseren, deconstrueren en vervolgens weer in elkaar kon zetten<sup>2</sup>. De manier waarop we dat tegenwoordig in de muziek gebruiken is in feite door de reconstructie te doen op basis van een andere geluidsbron.
+Als medewerker van Bell Telephone Laboratories, wat later Nokia Bell Labs werd, begon Homer Dudley in 1928 met het ontwikkelen van de Vocoder. Dit was oorspronkelijk een apparaat dat de menselijke stem kon analyseren, deconstrueren en vervolgens weer in elkaar kon zetten((https://muse.jhu.edu/article/491050/summary)). De manier waarop we dat tegenwoordig in de muziek gebruiken is in feite door de reconstructie te doen op basis van een andere geluidsbron.
-In 1939 werd de Vocoder gepatenteerd en datzelfde jaar werden er op de wereldtentoonstelling in New York demonstraties gegeven met een verwant apparaat: de Voder, tevens ontworpen door Dudley. De Voder was de eerste elektronische //speech-synthesizer// en in de handen van Helen Harper, professioneel Voder-operateur, kon het verstaanbare zinnen voortbrengen en zelfs liedjes zingen<sup>3</sup>. Bron drie is een YouTube link naar een demonstratie ervan die zeer het kijken waard is. Het onderliggende principe van de Voder lijkt op //concatenation synthesis//, het principe achter Vocaloid. Dit is het achter elkaar plakken van korte samples van verschillende geluiden. De Voder synthetiseerde deze samples echter zelf  met behulp van //formant synthesis// (het gebruik van bandpass filters op specifieke frequenties om het geluid van een klinker na te bootsen) en in plaats van dat een computerprogramma bepaalde hoe ze achter elkaar geplakt moesten worden, werd dat live door een operateur gedaan.
+In 1939 werd de Vocoder gepatenteerd en datzelfde jaar werden er op de wereldtentoonstelling in New York demonstraties gegeven met een verwant apparaat: de Voder, tevens ontworpen door Dudley. De Voder was de eerste elektronische //speech-synthesizer// en in de handen van Helen Harper, professioneel Voder-operateur, kon het verstaanbare zinnen voortbrengen en zelfs liedjes zingen((https://www.youtube.com/watch?v=5hyI_dM5cGo)). \\
+{{youtube>5hyI_dM5cGo?medium}}
-{{:vodercircuit.png?600|}}
+Het onderliggende principe van de Voder lijkt op //concatenation synthesis//, het principe achter Vocaloid. Dit is het achter elkaar plakken van korte samples van verschillende geluiden. De Voder synthetiseerde deze samples echter zelf  met behulp van //formant synthesis// (het gebruik van bandpass filters op specifieke frequenties om het geluid van een klinker na te bootsen) en in plaats van dat een computerprogramma bepaalde hoe ze achter elkaar geplakt moesten worden, werd dat live door een operateur gedaan. \\
+{{:vodercircuit.png?600|}} \\
+//Schematische weergave van het circuit van de Voder.// \\
-//schematische weergave van het circuit van de Voder//
+Bell labs presenteerde in 1961 een nieuwe doorbraak: John Kelly Jr, Carol Lochbaum en Lou Gerstman waren erin geslaagd met een IBM 704 computer een spraaksynthesizer te maken en deze vervolgens het liedje Daisy Bell te laten zingen((https://books.google.nl/books?id=ZISTvI4vVPsC&pg=PA11&lpg=PA11&dq=bell+labs+Carol+Lockbaum&redir_esc=y&hl=nl#v=onepage&q=bell%20labs%20Carol%20Lockbaum&f=false))((https://www.youtube.com/watch?v=41U78QP8nBk)). Dit was overigens de inspiratie voor de kwaadaardige supercomputer HAL 9000 in //2001: A Space Odyssey//. De eerste volledige Engelse text-to-speech machine, een apparaat dat ingevoerde tekst direct kan omzetten in spraak, werd daarna in 1968 Japan ontwikkeld door een team van het Nationaal Elektrotechnisch Laboratorium onder leiding van Noriko Umeda((http://amhistory.si.edu/archives/speechsynthesis/dk_785.htm)).
-Bell labs presenteerde in 1961 een nieuwe doorbraak: John Kelly Jr, Carol Lochbaum en Lou Gerstman waren erin geslaagd met een IBM 704 computer een spraaksynthesizer te maken en deze vervolgens het liedje Daisy Bell te laten zingen<sup>4,5</sup>. Dit was overigens de inspiratie voor de kwaadaardige supercomputer HAL 9000 in //2001: A Space Odyssey//. De eerste volledige Engelse text-to-speech machine, een apparaat dat ingevoerde tekst direct kan omzetten in spraak, werd daarna in 1968 Japan ontwikkeld door een team van het Nationaal Elektrotechnisch Laboratorium onder leiding van Noriko Umeda<sup>6</sup>.
+Een text-to-speech machine is tevens wat de aan ALS lijdende wetenschapper Stephen Hawking zijn kenmerkende stem gaf. Dit apparaat was de DECTalk uit 1984, gebaseerd op onderzoek van Dennis H. Klatt en tevens gemodelleerd naar zijn eigen stem((https://livingwithdisability.info/history-speech-synthesisers/)).  De DECTalk engine wordt ook gebruikt voor de chatfunctie van NASA’s videogame Moonbase Alpha uit 2010 en dit groeide zelfs uit tot een bescheiden meme. Als je ooit, verdwaald in het content-moeras van YouTube, een cover van een liedje uit een anime gezongen door een primitieve computerstem met een bijbehorende video vol astronautenpakken bent tegengekomen was de zanger hoogstwaarschijnlijk de DECTalk engine uit Moonbase Alpha((https://www.youtube.com/watch?v=EdRYthkSwvI&list=PL4xjmEIMzieI9kiDfh6s2dFt5cSnP9wdc&index=9&t=0s)). Dit zijn high-effort memes: zang programmeren in DECTalk is namelijk geen sinecure.  In tegenstelling tot normale spraak, die gewoon ingetypt kan worden, moet zang ingevoerd worden in fonemen: fonetische representaties van lettergrepen die in het geval van DECTalk-berichten gekoppeld moesten worden aan de nootduur en toonhoogte((https://web.archive.org/web/20190403184858/https://forum.facepunch.com/f/general/bjvjx/DECtalk-The-Famous-Singing-Speech-Synthesizer-of-The-80s/1/)). Het liedje “Happy Birthday” moest daardoor op deze manier ingeprogrammeerd worden: \\
+<code> [:phoneme on]
-Een text-to-speech machine is tevens wat de aan ALS lijdende wetenschapper Stephen Hawking zijn kenmerkende stem gaf. Dit apparaat was de DECTalk uit 1984, gebaseerd op onderzoek van Dennis H. Klatt en tevens gemodelleerd naar zijn eigen stem<sup>7</sup>.  De DECTalk engine wordt ook gebruikt voor de chatfunctie van NASA’s videogame Moonbase Alpha uit 2010 en dit groeide zelfs uit tot een bescheiden meme. Als je ooit, verdwaald in het content-moeras van YouTube, een cover van een liedje uit een anime gezongen door een primitieve computerstem met een bijbehorende video vol astronautenpakken bent tegengekomen was de zanger hoogstwaarschijnlijk de DECTalk engine uit Moonbase Alpha<sup>8</sup>. Dit zijn high-effort memes: zang programmeren in DECTalk is namelijk geen sinecure.  In tegenstelling tot normale spraak, die gewoon ingetypt kan worden, moet zang ingevoerd worden in fonemen: fonetische representaties van lettergrepen die in het geval van DECTalk-berichten gekoppeld moesten worden aan de nootduur en toonhoogte<sup>9</sup>. Het liedje “Happy Birthday” moest daardoor op deze manier ingeprogrammeerd worden:
-<code>
-[:phoneme on]
 [hxae<300,10>piy<300,10> brr<600,12>th<100>dey<600,10> tuw<600,15> yu<1200,14>_<120>]
 [hxae<300,10>piy<300,10> brr<600,12>th<100>dey<600,10> tuw<600,17> yu<1200,15>_<120>]
 [hxae<300,10>piy<300,10>
 brr<600,22>th<100>dey<600,19>dih<600,15>rdeh<600,14>ktao<600,12>k_<120>_<120>]
-[hxae<300,20>piy<300,20> brr<600,19>th<100>dey<600,15> tuw<600,17> yu<1200,15>]
+[hxae<300,20>piy<300,20> brr<600,19>th<100>dey<600,15> tuw<600,17> yu<1200,15>] </code>
-</code>
 //De fonemen// hxae //en// piy //vormen hier dus samen het woord “happy”, vervolgens eerst de duur van de klank in milliseconden en daarna het nootnummer.//
@@ Line 31: / Line 30: @@
 Alle systemen die we tot nu toe behandeld hebben, zijn bedoeld voor spraak in plaats van zang, en daar is een goede reden voor: dit soort systemen hebben een hele duidelijke commerciële toepassing. Text-to-speech machines zijn de omroepers op stations, de simpelste versie ervan zitten in pratend kinderspeelgoed en ze geven een stem aan mensen die vanwege een handicap niet kunnen praten. Totdat muziekgigant Yamaha Vocaloid uitbracht waren er echter nog geen spraaksynthesizers die puur bedoeld waren voor muzikale doeleinden.
 ===== Geschiedenis en evolutie van Vocaloid =====
+**Vroege ontwikkeling** \\
+In 2000 startte Hideki Kenmochi van YAMAHA’s Advanced System Development Center een onderzoeksgroep aan de Pompeu Fabra-universiteit in Barcelona. Deze groep werd ondersteund door YAMAHA en onderzocht de mogelijkheden van “//Singing Voice Synthesis Combining Excitation plus Resonance and Sinusoidal plus Residual Models//”. De resultaten van dit onderzoek werden in 2001 in een paper gepubliceerd ((https://quod.lib.umich.edu/cgi/p/pod/dod-idx/singing-voice-synthesis-combining-excitation-plus-resonance.pdf?c=icmc;idno=bbp2372.2001.093;format=pdf)) en vormden de basis voor wat in 2004 door YAMAHA als commercieel product zou worden uitgebracht onder de naam VOCALOID. Bij dit onderzoek baseerde het team zich op een combinatie van eerder onderzochte modellen: EpR (Excitation plus Resonance, [Childers, 1994]) en SpR (Sinusoidal plus Residual representation, verkregen door SMS-analyse [Serra, 1990]). De werking hiervan wordt behandeld onder “Hoe werkt VOCALOID”.
+**Eerste release** \\
+Op de Musikmesse 2003 liet YAMAHA voor het eerst een (zeer basic) demo zien van de op dat moment in ontwikkeling zijnde VOCALOID-software. Paul White, die aanwezig was bij de presentatie, schreef in Sound On Sound: “Within minutes, the computer was singing like a professional!” ((https://www.soundonsound.com/people/its-not-over-until-fat-computer-sings)). Deze eerste versie van de software had een pianoroll-interface voor de invoer van noten. Daarop konden uit een library ook articulaties, vibrato’s e.d. toegepast worden. \\
+{{:vocaloideditor.jpg?600|}} \\
+//De interface van de eerste VOCALOID Editor.//
+Bij deze versie van VOCALOID werden in eerste instantie twee stemmen geleverd: Leon en Lola, die beiden in het Engels zongen. Deze stemmen werden geproduceerd door het Britse Zero-G en gedistribueerd door Crypton Future Media Inc (Sapporo, Japan). Later werden aan de line-up Miriam (Zero-G), Meiko en Kaito (YAMAHA, Crypton) toegevoegd.
+**Ontvangst** \\
+De reviews over VOCALOID waren gemengd. Het programma sleepte verscheidene awards binnen (2005 Electronic Musician Editor's Choice Award, G.A.N.G. Award voor “Best New Audio Technology), maar reviews, zoals die van Sound On Sound ((https://www.soundonsound.com/reviews/yamaha-vocaloid-leon-lola)) waren wat gematigd.
+**Ontwikkeling sinds VOCALOID 1** \\
+//Vocaloid 2// \\
+Vier jaar na de eerste versie van het programma kwam YAMAHA met Vocaloid 2, een grote upgrade ten opzichte van de vorige uitgave. Naast een volledig nieuwe interface werd ook de synthese-engine aangepast, waardoor in plaats van enkel de analyse van menselijke stemmen te gebruiken, nu gesamplede menselijke stemmen de sound source vormden. Met de release van Vocaloid 2 werden ook nieuwe stemmen geïntroduceerd. Op 29 juli 2007 bracht het Zweedse PowerFX “Sweet Ann” uit, de eerste voicebank voor Vocaloid 2. Een maand later, op 31 augustus, kwam Crypton Future Media met het grote keerpunt in de geschiedenis van de Vocaloid-synthesizer, namelijk Hatsune Miku. Tot dat moment waren Vocaloid-stemmen een anonieme “stem uit een doosje”, vooral bedoeld als instrument. Hier kwam echter verandering in met de release van Miku, die in de markt werd gezet als character. Deze zet van Crypton sloeg aan en in haar eerste jaar op de markt werd Miku 40000 keer verkocht (ongeveer 300 stuks per week) ((https://en.wikipedia.org/wiki/Vocaloid_2)). In totaal werden voor de Vocaloid 2-engine 35 voicebanks geproduceerd, waarvan vijf Engels en 17 Japans.
+//Vocaloid 3// \\
+Op 21 oktober 2011 bracht YAMAHA Vocaloid 3 uit. Deze upgrade omvatte veel verbeteringen aan het syntheseproces en ondersteunde drie nieuwe talen: Chinees, Koreaans en Spaans. Vocaloid 3 werd als eerste Vocaloid-editor los verkocht. Bij vorige releases was de editor namelijk steeds inbegrepen bij voicebanks. Bij de release werden ook vier nieuwe voicebanks uitgebracht: Mew (Japans), SeeU (Koreaans, Japans), Megpoid (Japans) en VY1v3 (Japans).
+//Vocaloid 4// \\
+Vocaloid 4 werd in oktober 2014 uitgebracht en introduceerde een aantal nieuwe parameters voor de vocale synthese, waaronder Growl en Cross-Synthesis. Daarnaast kwam er de mogelijkheid om de pitch van gebruikersinvoer te renderen, zodat de instant playback een stuk meer als het uiteindelijke resultaat klinkt. Voor Vocaloid 4 werden 86 voicebanks geproduceerd.
+//Vocaloid 5// \\
+Vocaloid 5 is de nieuwste release in de Vocaloid-serie. V5 werd uitgebracht op 12 juli 2018 en heeft onder andere een nieuwe interface, een phrase library, audio-effecten, vier basisstemmen en nog veel meer. Voor Vocaloid 5 zijn tot nu toe 12 voicebanks uitgebracht.
 ===== Hoe werkt Vocaloid? =====
+Hier wordt de werking beschreven zoals deze beschreven wordt in een conference paper uit 2010, geschreven door Hideki Kenmochi ((https://www.isca-speech.org/archive/int_singing_2010/papers/isi0_001.pdf)). Deze technologie wordt waarschijnlijk nog steeds in meer of mindere mate gebruikt in de huidige VOCALOID-software. De afbeeldingen zijn afkomstig uit dit conference paper.
-===== Vergelijkbare programma's =====
+Input van tekst en melodie gebeurt in VOCALOID middels een ietwat aangepaste pianoroll-editor. In deze editor kan naast toonhoogte en -duur ook tekst worden ingevoerd. Verder kunnen verschillende parameters, zoals vibrato, opening van de mond, pitch bends en vele anderen, makkelijk worden aangepast. Deze editor wordt in de research papers //Score Editor// genoemd.
-Tegenwoordig heeft elke telefoon een text-to-speech synthesizer, denk aan Siri, Alexa, Google Assistant, en deze worden steeds beter. Deze zijn echter niet bedoeld voor muzikale doeleinden, dus we gaan hier verder geen aandacht aan besteden. Ook kan je met veel pijn en moeite (en vooral veel bandpass filters) elk geluid wel als een stem laten klinken, maar dat soort methodes laten we ook buiten beschouwing. Wel gaan we het hier hebben over andere programma’s die gemaakt zijn om hele zinnen te kunnen zingen.
-**PPG Phonem** is een vreemde eend in de bijt, omdat het niet werkt met vocal samples maar met twaalf instelbare resonatoren (de blauwe grafiek in het centrum van dit plaatje). Phonem was als AU/VST plugin of iOS app verkrijgbaar, maar tegenwoordig wordt het niet meer verkocht. Je kan Phonem laten zingen door fonemen in te voeren in de bovenste balk en die kun je vervolgens bijvoorbeeld triggeren met midinoten. Je kan er zelfs hele liedjes mee maken door in een tekstbestand de tekst in fonemen in te amper verstaanbaar en het process om hele zinnen, laat staan coupletten, af te spelen en gesynct te krijgen met de rest van de muziek is omslachtig. Dit alles maakt van Phonem een capabele synthesizer maar een matige tool voor het programmeren van lead vocals. We hebben het besloten toch hier te noemen omdat het een ander perspectief biedt op vocale synthese.
+{{:newvocaloideditor.jpg?600|}} \\
+//De Score Editor in VOCALOID 2/3/4//
-{{:ppgphonem.png?600|}}
+{{:vocaloidcomponents.jpg?600|}} \\
+//Globaal overzicht van de verschillende onderdelen van de VOCALOID-synthesizer//
-//Foto afkomstig uit een review<sup>10</sup>  aangezien Phonem niet meer verkrijgbaar is.//
+Zoals in dit diagram te zien is, wordt eerst op basis van gebruikersinvoer uit de Score Editor een zogenaamde //Synthesis Score// gegenereerd. Hiermee kunnen samples uit de //Singer Library// geselecteerd worden aan de hand van de fonetische “hapjes” van de ingevoerde tekst, de zogeheten //phonemes//. Deze samples worden vervolgens verwerkt in een DSP-applicatie, waar de vocale synthese plaatsvindt.
-De bekendste tegenhanger van Vocaloid is **UTAU**, een tevens Japans shareware programma. De naam is afkomstig van het werkwoord “zingen” en jullie hebben het allemaal zeker een keer in actie gehoord: de inmiddels prehistorische meme Nyan Cat wordt namelijk gezongen door de UTAUloid (zo heet een UTAU voicebank in de volksmond) Momo Momone (of eigenlijk is de versie die een meme geworden is een cover met Momo Momone van het nummer //Nyanyanyanyanyanyanya!// dat oorspronkelijk gezongen werd door Hatsune Miku, maar laten we het niet te ingewikkeld maken). UTAU bestaat al sinds 2008 en het was vanaf het begin af aan al gratis<sup>11</sup>, sterker nog: je kan er zelf een voicebank van je eigen stem voor maken! Het is ook mogelijk voor gebruikers om hun eigen plugins te programmeren voor UTAU en die te delen met de rest van de wereld, dit zijn geen effect-plugins zoals delay of reverb, maar plugins die de algehele functionaliteit van het programma verbeteren. Dit alles is wat UTAU vooral in Japan populair programma heeft gemaakt.
+{{:vocaloidsynthengine.jpg?600|}} \\
+//Signal processing die plaatsvindt in VOCALOID 2//
-Het is net als Vocaloid een standalone programma en niet verkrijgbaar als VST, dit is een voordeel, maar we komen later terug op waarom. Net als Vocaloid gebruik je het door in een piano-roll noten op te geven en daar lettergrepen aan te koppelen. Naast de plugins zijn er ook verschillende rendering engines (zogenaamde “resamplers”) verkrijgbaar voor UTAU, die elk andere resultaten opleveren<sup>12</sup>. Over het algemeen klinken UTAUloids wat robotischer en metallischer dan Vocaloids, maar dat betekent er geen verbazingwekkend overtuigende vocals mee gemaakt kunnen worden<sup>13</sup>. De vele plugins, resamplers en gratis te downloaden voicebanks maken UTAU zo bruikbaar als je zelf bereidt bent het te maken. De keerzijde is echter dat je dat werk er wel echt in moet stoppen, alleen de installatie is al een uitdaging omdat die nooit in het Engels vertaald is. Verder zijn er ook een aantal dingen die je moet doen om de software bruikbaar te maken op een niet-Japanse computer, dat is dus tutorial kijken geblazen. De laatste update van UTAU stamt alweer uit 2013, maar het wordt nog steeds gebruikt: Circus-P, misschien wel de bekendste Engels Vocaloid producer, heeft in 2020 nog een album met enkel UTAU vocals uitgebracht. Een groot deel daarvan wordt gezongen door Aido Ishiame, een UTAUloid gebaseerd op zijn eigen stem. Dit was volgens hem echter wel een pijnlijk process.
+In de Synthesis Engine wordt eerst middels FFT de pitch van de te gebruiken sample geanalyseerd. Deze wordt vervolgens vergeleken met de target pitch uit de Score Editor om een ratio te berekenen die gebruikt wordt om de pitch van de sample te schalen naar de gewenste toonhoogte.
-{{:circus.png?600|}}
+{{:sampleconcatenation.png?600|}} \\
+//Sample-timing voor de zin “Singing a song”//
-//Circus-P had moeite met UTAU.//
+Ook wordt aan de hand van de Synthesis Score een timing mapping gemaakt van de verschillende phonemes. Hiervoor wordt waarschijnlijk een Hidden Markov Model gebruikt als algoritme om de tijdsverdeling te bepalen. De ruimte tussen de verschillende samples wordt vervolgens geïnterpoleerd, zodat de samples in elkaar overlopen en verschillen in timbre niet of nauwelijks hoorbaar zijn. Het resultaat van deze synthese wordt vervolgens voor de gebruiker afgespeeld en kan worden geëxporteerd als WAV-bestand.
-{{:utau.png?600|}}
-//De UTAU interface.//
+===== Vergelijkbare programma's =====
+Tegenwoordig heeft elke telefoon een text-to-speech synthesizer, denk aan Siri, Alexa, Google Assistant, en deze worden steeds beter. Deze zijn echter niet bedoeld voor muzikale doeleinden, dus we gaan hier verder geen aandacht aan besteden. Ook kan je met veel pijn en moeite (en vooral veel bandpass filters) elk geluid wel als een stem laten klinken, maar dat soort methodes laten we ook buiten beschouwing. Wel gaan we het hier hebben over andere programma’s die gemaakt zijn om hele zinnen te kunnen zingen.
-Een andere variatie op Vocaloid is ** CeVIO Creative Studio**. De eerste versie is uitgebracht in 2013 en het heeft in 2020 nog een grote update gehad. Wat CeVIO uniek maakt is dat het naast zang ook voor spraak gebruikt kan worden. Zang- en spraaktracks kunnen naast elkaar worden gebruikt, maar de manier waarop je ze bewerkt is compleet anders. Er zijn nog maar twaalf voicebanks voor beschikbaar<sup>14</sup>, de bekendste daarvan is de Engelse versie van de populaire Vocaloid IA. Er zijn alleen maar Japanse voicebanks voor spraak verkrijgbaar, wat betekent dat je in ieder geval een basale kennis van Japans schrift moet hebben om het te kunnen gebruiken. Een groot voordeel van CeVIO voor zang is dat het niet werkt met automation lanes zoals Vocaloid maar dat je parameters zoals toonhoogte direct kan aanpassen door op de noten te tekenen, wat dit een veel intuïtiever process maakt.
+**PPG Phonem** is een vreemde eend in de bijt, omdat het niet werkt met vocal samples maar met twaalf instelbare resonatoren (de blauwe grafiek in het centrum van dit plaatje). Phonem was als AU/VST plugin of iOS app verkrijgbaar, maar tegenwoordig wordt het niet meer verkocht. Je kan Phonem laten zingen door fonemen in te voeren in de bovenste balk en die kun je vervolgens bijvoorbeeld triggeren met midinoten. Je kan er zelfs hele liedjes mee maken door in een tekstbestand de tekst in fonemen in te amper verstaanbaar en het process om hele zinnen, laat staan coupletten, af te spelen en gesynct te krijgen met de rest van de muziek is omslachtig. Dit alles maakt van Phonem een capabele synthesizer maar een matige tool voor het programmeren van lead vocals. We hebben het besloten toch hier te noemen omdat het een ander perspectief biedt op vocale synthese.\\
+{{:ppgphonem.png?600|}} \\
+//Foto afkomstig uit een review((https://www.soundonsound.com/reviews/ppg-phonem)) aangezien Phonem niet meer verkrijgbaar is.// \\
-{{:ceviosongcrop.png?600|}}
+De bekendste tegenhanger van Vocaloid is **UTAU**, een tevens Japans shareware programma. De naam is afkomstig van het werkwoord “zingen” en jullie hebben het allemaal zeker een keer in actie gehoord: de inmiddels prehistorische meme Nyan Cat wordt namelijk gezongen door de UTAUloid (zo heet een UTAU voicebank in de volksmond) Momo Momone (of eigenlijk is de versie die een meme geworden is een cover met Momo Momone van het nummer //Nyanyanyanyanyanyanya!// dat oorspronkelijk gezongen werd door Hatsune Miku, maar laten we het niet te ingewikkeld maken). UTAU bestaat al sinds 2008 en het was vanaf het begin af aan al gratis((http://utau.wiki/utau)), sterker nog: je kan er zelf een voicebank van je eigen stem voor maken! Het is ook mogelijk voor gebruikers om hun eigen plugins te programmeren voor UTAU en die te delen met de rest van de wereld, dit zijn geen effect-plugins zoals delay of reverb, maar plugins die de algehele functionaliteit van het programma verbeteren. Dit alles is wat UTAU vooral in Japan populair programma heeft gemaakt.
-//Toonhoogte aanpassen in CeVIO: de oranje lijn is ingetekend door de gebruiker.//
+UTAU is net als Vocaloid een standalone programma en niet verkrijgbaar als VST, dit is een voordeel, maar we komen later terug op waarom. Net als Vocaloid gebruik je het door in een piano-roll noten op te geven en daar lettergrepen aan te koppelen. Naast de plugins zijn er ook verschillende rendering engines (zogenaamde “resamplers”) verkrijgbaar voor UTAU, die elk andere resultaten opleveren((https://pepinouo.wixsite.com/utau/using-utau)). Over het algemeen klinken UTAUloids wat robotischer en metallischer dan Vocaloids, maar dat betekent er geen verbazingwekkend overtuigende vocals mee gemaakt kunnen worden((https://www.youtube.com/watch?v=hFg3WRqpQmg)). De vele plugins, resamplers en gratis te downloaden voicebanks maken UTAU zo bruikbaar als je zelf bereidt bent het te maken. De keerzijde is echter dat je dat werk er wel echt in moet stoppen, alleen de installatie is al een uitdaging omdat die nooit in het Engels vertaald is. Verder zijn er ook een aantal dingen die je moet doen om de software bruikbaar te maken op een niet-Japanse computer, dat is dus tutorial kijken geblazen. De laatste update van UTAU stamt alweer uit 2013, maar het wordt nog steeds gebruikt: Circus-P, misschien wel de bekendste Engels Vocaloid producer, heeft in 2020 nog een album met enkel UTAU vocals uitgebracht. Een groot deel daarvan wordt gezongen door Aido Ishiame, een UTAUloid gebaseerd op zijn eigen stem. Dit was volgens hem echter wel een pijnlijk process.\\
+{{:circus.png?600|}} \\
+//Circus-P had moeite met UTAU.// \\
+{{:utau.png?600|}} \\
+//De UTAU interface.// \\
-Naast CeVIO en UTAU zijn er meer programma’s die erg lijken op Vocaloid. **Synthesizer V** en **DeepVocal** zijn relatief nieuw, de laatste kun je zien als makkelijker te gebruiken versie van UTAU die echter nog niet zo’n actieve community heeft. Synth V is redelijk makkelijk te gebruiken, heeft een solide Engelse voicebank genaamd Eleanor Forte en een zeer genereuze gratis proefperiode. Beide programma’s zijn echter minder volwassen dan Vocaloid en CeVIO. Dan zijn er ook nog **Cantor**, dat gelijktijdig uitkwam met Vocaloid maar sinds 2007 niet meer geupdate wordt; **Cadencii**, eigenlijk een frontend voor UTAU; **NIAONiao**, eigenlijk een Chinese versie van UTAU; **Emvoice**, een nieuwkomer die cloud-computing gebruikt en momenteel nog bijzonder saai klinkt; teveel om op te noemen en zeker teveel om hier allemaal uitgebreid te behandelen<sup>15</sup>.  Deze programma’s hebben allemaal globaal dezelfde functie als Vocaloid, CeVIO en UTAU en werken op ongeveer dezelfde manier. Er zijn dus genoeg opties om uit te kiezen als je aan de slag wil met een Vocaloid-achtig programma.
+Een andere variatie op Vocaloid is ** CeVIO Creative Studio**. De eerste versie is uitgebracht in 2013 en het heeft in 2020 nog een grote update gehad. Wat CeVIO uniek maakt is dat het naast zang ook voor spraak gebruikt kan worden. Zang- en spraaktracks kunnen naast elkaar worden gebruikt, maar de manier waarop je ze bewerkt is compleet anders. Er zijn nog maar twaalf voicebanks voor beschikbaar((https://cevio.fandom.com/wiki/Category:Voicebanks)), de bekendste daarvan is de Engelse versie van de populaire Vocaloid IA. Er zijn alleen maar Japanse voicebanks voor spraak verkrijgbaar, wat betekent dat je in ieder geval een basale kennis van Japans schrift moet hebben om het te kunnen gebruiken. Een groot voordeel van CeVIO voor zang is dat het niet werkt met automation lanes zoals Vocaloid maar dat je parameters zoals toonhoogte direct kan aanpassen door op de noten te tekenen, wat dit een veel intuïtiever process maakt.\\
+{{:ceviosongcrop.png?600|}} \\
+//Toonhoogte aanpassen in CeVIO: de oranje lijn is ingetekend door de gebruiker.// \\
-**Piapro Studio** is een interessant geval: dit is een programma van Crypton Future Media, die de meeste populaire Vocaloid voicebanks zoals Hatsune Miku, Kaito en Megurine Luka maken. Het maakt onderhuids gebruik van de API van Vocaloid en is dus eigenlijk Vocaloid in een ander jasje. Nog interessanter is **Piapro Studio for NT** (Newtype), een compleet nieuw door Cypton Future Media ontwikkeld programma dat niet meer gebaseerd is op Vocaloid.  Het zou oorspronkelijk uitkomen in Maart samen met de nieuwe voicebank Hatsune Miku NT, maar is inmiddels vertraagd naar Augustus. Wij vinden het spannend.
+Naast CeVIO en UTAU zijn er meer programma’s die erg lijken op Vocaloid. **Synthesizer V** en **DeepVocal** zijn relatief nieuw, de laatste kun je zien als makkelijker te gebruiken versie van UTAU die echter nog niet zo’n actieve community heeft. Synth V is redelijk makkelijk te gebruiken, heeft een solide Engelse voicebank genaamd Eleanor Forte en een zeer genereuze gratis proefperiode. Beide programma’s zijn echter minder volwassen dan Vocaloid en CeVIO. Dan zijn er ook nog **Cantor**, dat gelijktijdig uitkwam met Vocaloid maar sinds 2007 niet meer geupdate wordt; **Cadencii**, eigenlijk een frontend voor UTAU; **NIAONiao**, eigenlijk een Chinese versie van UTAU; **Emvoice**, een nieuwkomer die cloud-computing gebruikt en momenteel nog bijzonder saai klinkt; teveel om op te noemen en zeker teveel om hier allemaal uitgebreid te behandelen((https://vocaloid.fandom.com/wiki/Technology_directory_for_other_synthesizers)).  Deze programma’s hebben allemaal globaal dezelfde functie als Vocaloid, CeVIO en UTAU en werken op ongeveer dezelfde manier.
-Plogue Art et Technologie is een Frans bedrijf dat degenen onder ons die veel met virtuele orkestratie bezig zijn misschien wel kennen van de VST-plugin Sforzando. Ze zijn echter ook veel bezig met vocale synthese.  In 2015 brachten ze **Chipspeech** uit, een soort ode in VST-vorm aan de oude spraaksynthesizers die we bij het hoofdstuk over de geschiedenis der vocale synthese hebben behandeld. Er zitten emulaties in van de Voder, John Kelly’s IBM 704, DECTalk, S.A.M. en nog een aantal andere spraaksynthesizers die we niet hebben behandeld zoals de Votrax SC-01 en STSPEECH.TOS voor de Atari ST<sup>16</sup>.
+**Piapro Studio** is een interessant geval: dit is een programma van Crypton Future Media, die de meeste populaire Vocaloid voicebanks zoals Hatsune Miku, Kaito en Megurine Luka maken. Het maakt onderhuids gebruik van de engine van Vocaloid 4 en is dus eigenlijk Vocaloid in een ander jasje ((https://vocaloid.fandom.com/wiki/Piapro_Studio#cite_note-FAQusage-2))((https://piaprostudio.com/?p=5201&lang=en)). Nog interessanter is **Piapro Studio for NT** (Newtype), een compleet nieuw door Cypton Future Media ontwikkeld programma dat niet meer gebaseerd is op Vocaloid.  Het zou oorspronkelijk uitkomen in Maart samen met de nieuwe voicebank Hatsune Miku NT, maar dit is inmiddels verzet naar Augustus((https://piapro.fandom.com/wiki/Piapro_Studio_for_NT)). Wij vinden het spannend.
-{{:chipspeech.png?400|}}
+Plogue Art et Technologie is een Frans bedrijf dat degenen onder ons die veel met virtuele orkestratie bezig zijn misschien wel kennen van de VST-plugin Sforzando. Ze zijn echter ook veel bezig met vocale synthese.  In 2015 brachten ze **Chipspeech** uit, een soort ode in VST-vorm aan de oude spraaksynthesizers die we bij het hoofdstuk over de geschiedenis der vocale synthese hebben behandeld. Er zitten emulaties in van de Voder, John Kelly’s IBM 704, DECTalk, S.A.M. en nog een aantal andere spraaksynthesizers die we niet hebben behandeld zoals de Votrax SC-01 en STSPEECH.TOS voor de Atari ST((https://www.plogue.com/products/chipspeech.html)).\\
-//Plogue Chipspeech//
+{{:chipspeech.png?400|}} \\
+//Plogue Chipspeech// \\
-Het is erg cool dat je nu met Chipspeech toegang hebt tot al deze oude spraaksynthesizers en ze kan laten zingen, iets wat voor de originele apparaten vaak moeilijk zo niet onmogelijk was, door er simpelweg midinoten tegenaan te gooien. Daarnaast kunnen de stemmen ook zo getweaked worden dat ze kunnen fungeren als lead synths of pads. Er is zelfs al een semi-virale meme mee gemaakt<sup>17</sup> en als iets kenmerkend is voor een capabele spraaksynthesizers is dat het wel. Dat Chipspeech als VST-plugin bestaat lijkt een groot voordeel, maar in de praktijk is dat juist erg onhandig. De tekst die je Chipspeech opgeeft is nameljk niet gesynchroniseerd met een bepaalde tijdcode in je DAW en loopt gaat elke keer dat je op play drukt gewoon verder waar het gebleven was. Om die synchronisatie voor elkaar te krijgen moet je in de weer met midi CC automatisering of keyswitches en zelfs dan kun je alleen aparte regels synchroniseren en geen individuele woorden. Chipspeech werkt bovendien in realtime, wat leuk is voor een performance maar ervoor zorgt dat de transities tussen klanken slordig kunnen worden omdat het programma niet kan anticiperen op wat er na de huidige noot komt. Plogue heeft ook **Alter/Ego** gemaakt, een gratis VST met een vergelijkbare interface en werkwijze als Chipspeech maar bedoeld voor meer realistische vocals.
+Het is erg cool dat je nu met Chipspeech toegang hebt tot al deze oude spraaksynthesizers en ze kan laten zingen, iets wat voor de originele apparaten vaak moeilijk zo niet onmogelijk was, door er simpelweg midinoten tegenaan te gooien. Daarnaast kunnen de stemmen ook zo getweaked worden dat ze kunnen fungeren als lead synths of pads. Er is zelfs al een semi-virale meme mee gemaakt en als iets kenmerkend is voor capabele spraaksynthesizers is dat het wel.\\
+{{youtube>v1K4EAXe2oo?medium}}
+//Dit nummer is gemaakt met de voicebank Bert Gotrax in Chipspeech.//
-Een simpelere kijk op vocale synthese zijn **Realivox Blue** en **Realivox Ladies** van Realitone. Dit zijn hele uitgebreide sample libraries van stemmen die ondergebracht zijn in Kontakt patches.  Eigenlijk is dit dus niet echt synthese maar we wilden ze toch even benoemen omdat ze voor sommige mensen misschien wel ideaal kunnen zijn. Realivox Blue is de meest uitgebreide variant en die krijgt daarom hier de meeste aandacht.  Je kan klinkers en medeklinkers selecteren en die dan met midinoten afspelen. De tweakability hiervan is in vergelijking met Vocaloid bijvoorbeeld zeer klein en Realivox Blue kan geen echte woorden interpreteren, dus als je de gesamplede zangers “oh come, oh come Emmanual” wil laten zingen moet je dat invoeren als “oh kuh moh kuh mee mehn yoo ehl”. Het feit dat het een sample library is zorgt er echter wel voor de samples zelf heel echt en menselijk klinken, dus voor een virtuele orkestrator op zoek naar een achtergrondkoor of andere situaties waarin er eerder een mood dan een tekst gecommuniceerd hoeft te worden zou dit bijvoorbeeld een zeer geschikte optie kunnen zijn.
+Dat Chipspeech als VST-plugin bestaat lijkt een groot voordeel, maar in de praktijk is dat juist erg onhandig. De tekst die je Chipspeech opgeeft is nameljk niet gesynchroniseerd met een bepaalde tijdcode in je DAW en loopt gaat elke keer dat je op play drukt gewoon verder waar het gebleven was. Om die synchronisatie voor elkaar te krijgen moet je in de weer met midi CC automatisering of keyswitches en zelfs dan kun je alleen aparte regels synchroniseren en geen individuele woorden. Chipspeech werkt bovendien in realtime, wat leuk is voor een performance maar ervoor zorgt dat de transities tussen klanken slordig kunnen worden omdat het programma niet kan anticiperen op wat er na de huidige noot komt. Plogue heeft ook **Alter/Ego** gemaakt, een gratis VST met een vergelijkbare interface en werkwijze als Chipspeech maar bedoeld voor meer realistische vocals.
-{{:realivox.png?600|}}
+Een simpelere kijk op vocale synthese zijn **Realivox Blue** en **Realivox Ladies** van Realitone. Dit zijn hele uitgebreide sample libraries van stemmen die ondergebracht zijn in Kontakt patches.  Eigenlijk is dit dus niet echt synthese maar we wilden ze toch even benoemen omdat ze voor sommige mensen misschien wel ideaal kunnen zijn. Realivox Blue is de meest uitgebreide variant en die krijgt daarom hier de meeste aandacht.  Je kan klinkers en medeklinkers selecteren en die dan met midinoten afspelen. De tweakability hiervan is in vergelijking met Vocaloid bijvoorbeeld zeer klein en Realivox Blue kan geen echte woorden interpreteren, dus als je de gesamplede zangers “oh come, oh come Emmanual” wil laten zingen moet je dat invoeren als “oh kuh moh kuh mee mehn yoo ehl”. Het feit dat het een sample library is zorgt er echter wel voor de samples zelf heel echt en menselijk klinken, dus voor een virtuele orkestrator op zoek naar een achtergrondkoor of andere situaties waarin er eerder een mood dan een tekst gecommuniceerd hoeft te worden zou dit bijvoorbeeld een zeer geschikte optie kunnen zijn.\\
+{{:realivox.png?600|}} \\
 //Realivox. Oh kuh moh kuh mee mehn yoo ehl. Screenshot uit een demo van Realitone.//
+Als laatste willen we ook **Sinsy** even benoemen, een zangsynthesizer gebaseerd op een //Hidden Markov model//((https://www.aclweb.org/anthology/O13-5005.pdf)) en //deep learning// die uitkwam in 2015((http://sinsy.sourceforge.net/readme_sinsy.php)). Je kan op de [[http://www.sinsy.jp/|Sinsy website]] bladmuziek in de vorm van een musicxml bestand uploaden, compleet met lyrics, en Sinsy maakt er dan zelf zang van.
 ===== Tuning: de struggle van vocalsynth producers =====
@@ Line 89: / Line 130: @@
 Als je een enigszins goede zangstem hebt kun je de zin die je aan het tunen bent voor jezelf zingen en kijken wat jij ervan zou maken. Als dit geen optie is, kun je aandachtig luisteren naar echte vocalisten of op YouTube filmpjes van een ervaren tuner die aan het werk is opzoeken. Circus-P heeft bijvoorbeeld livestreams gedaan van zijn tune-process en zelfs als je, zoals wij, geen fan bent van zijn muziek kan dat alsnog heel leerzaam zijn.
-Je zal ook moeten nadenken over de uitspraak van de songtekst die je aan het verklanken bent. Er zijn vooral in westerse talen meerdere manier om een woord uit te spreken en veel uitzonderingen op de uitspraak van bepaalde lettergrepen. Vaak zal je woorden daarom met opzet verkeerd moeten spellen om de juiste uitspraak te krijgen. Dit is overigens misschien een van de redenen waarom het geen toeval is dat Vocaloid een van origine Japans programma is, Japans is namelijk qua schrift heel ingewikkeld maar qua spraak relatief eenvoudig. Hiragana, een van de drie Japanse karaktersets, heeft slechts 108 karakters en omvat daarmee eigenlijk alle lettergrepen die de Japanse taal heeft<sup>18</sup>. Dit wordt net iets ingewikkelder omdat de uitspraak van een aantal lettergrepen ook subtiel verschilt afhankelijk van de lettergreep die erop volgt, maar dit is te overzien en in principe zijn er geen uitzonderingen. Engels is in dat opzicht een veel ingewikkeldere taal, denk maar aan het verschil in uitspraak van de “ti” in de woorden //nation// en //time//, en dat is pas een halve lettergreep! Dit maakt het maken van een Engelse voicebank en het tunen van een Engels nummer een uitdaging en het zal zeker voorkomen dat je woorden in je songtekst zal moeten aanpassen omdat ze gewoon op geen enkele manier goed klinken. Los van de taal hebben virtuele vocalisten ook vaak de neiging woorden een beetje overdreven uit te spreken en vooral bij snellere passages gaat dat heel nep klinken. Dit is tevens iets wat dan aangepast zal moeten worden.
+Je zal ook moeten nadenken over de uitspraak van de songtekst die je aan het verklanken bent. Er zijn vooral in westerse talen meerdere manier om een woord uit te spreken en veel uitzonderingen op de uitspraak van bepaalde lettergrepen. Vaak zal je woorden daarom met opzet verkeerd moeten spellen om de juiste uitspraak te krijgen. Dit is overigens misschien een van de redenen waarom het geen toeval is dat Vocaloid een van origine Japans programma is, Japans is namelijk qua schrift heel ingewikkeld maar qua spraak relatief eenvoudig. Hiragana, een van de drie Japanse karaktersets, heeft slechts 108 karakters en omvat daarmee eigenlijk alle lettergrepen die de Japanse taal heeft((http://japanese-lesson.com/characters/hiragana/index.html)). Dit wordt net iets ingewikkelder omdat de uitspraak van een aantal lettergrepen ook subtiel verschilt afhankelijk van de lettergreep die erop volgt, maar dit is te overzien en in principe zijn er geen uitzonderingen. Engels is in dat opzicht een veel ingewikkeldere taal, denk maar aan het verschil in uitspraak van de “ti” in de woorden //nation// en //time//, en dat is pas een halve lettergreep! Dit maakt het maken van een Engelse voicebank en het tunen van een Engels nummer een uitdaging en het zal zeker voorkomen dat je woorden in je songtekst zal moeten aanpassen omdat ze gewoon op geen enkele manier goed klinken. Los van de taal hebben virtuele vocalisten ook vaak de neiging woorden een beetje overdreven uit te spreken en vooral bij snellere passages gaat dat heel nep klinken. Dit is tevens iets wat dan aangepast zal moeten worden.
 Je kan het natuurlijk ook allemaal expres “fout” doen als dat het effect is wat je wil bereiken: toonhoogte overgangen snaarstrak maken om een nog robotischere feel te krijgen dan je ooit met autotune klaar zo kunnen spelen; supersnelle zang die veel te duidelijk gearticuleerd is voor een komisch effect; oorverdovend hoge vocals; je kan uiteindelijk alles doen wat je wil, maar je zal er werk in moeten steken om je visie te verwezenlijken. Succes :)
@@ Line 96: / Line 137: @@
   * Daniël Kamp
   * Elmer Makkinga
-===== Bronvermelding =====
-. http://research.spa.aalto.fi/publications/theses/lemmetty_mst/chap2.html
-. https://muse.jhu.edu/article/491050/summary
-. https://www.youtube.com/watch?v=5hyI_dM5cGo
-. https://books.google.nl/books?id=ZISTvI4vVPsC&pg=PA11&lpg=PA11&dq=bell+labs+Carol+Lockbaum&redir_esc=y&hl=nl#v=onepage&q=bell%20labs%20Carol%20Lockbaum&f=false
-. https://www.youtube.com/watch?v=41U78QP8nBk
-. http://amhistory.si.edu/archives/speechsynthesis/dk_785.htm
-. https://livingwithdisability.info/history-speech-synthesisers/
-. https://www.youtube.com/watch?v=EdRYthkSwvI&list=PL4xjmEIMzieI9kiDfh6s2dFt5cSnP9wdc&index=9&t=0s
-. https://web.archive.org/web/20190403184858/https://forum.facepunch.com/f/general/bjvjx/DECtalk-The-Famous-Singing-Speech-Synthesizer-of-The-80s/1/
-. https://www.soundonsound.com/reviews/ppg-phonem
-. http://utau.wiki/utau
-. https://pepinouo.wixsite.com/utau/using-utau
-. https://www.youtube.com/watch?v=hFg3WRqpQmg
-. https://cevio.fandom.com/wiki/Category:Voicebanks
-. https://vocaloid.fandom.com/wiki/Technology_directory_for_other_synthesizers
-. https://www.plogue.com/products/chipspeech.html
-. https://www.youtube.com/watch?v=v1K4EAXe2oo
-. http://japanese-lesson.com/characters/hiragana/index.html