2004: Vocaloid versie 2

Geschiedenis van vocale synthese

De eerste machines die de menselijke stem na konden zijn al eeuwenoud. Christian Gottlieb Kratzenstein onthulde in 1779 een apparaat met vijf resonerende buizen die elk het geluid van een klinker voortbrachten door erin te blazen1). In de decennia hierna werden apparaten gemaakt die het hele spraakkanaal nadeden, compleet met blaasbalg voor de longen2). Je zou deze apparaten kunnen zien als vroege physical modelling synthesizers, maar dan zonder elektronica.

Als medewerker van Bell Telephone Laboratories, wat later Nokia Bell Labs werd, begon Homer Dudley in 1928 met het ontwikkelen van de Vocoder. Dit was oorspronkelijk een apparaat dat de menselijke stem kon analyseren, deconstrueren en vervolgens weer in elkaar kon zetten3). De manier waarop we dat tegenwoordig in de muziek gebruiken is in feite door de reconstructie te doen op basis van een andere geluidsbron.

In 1939 werd de Vocoder gepatenteerd en datzelfde jaar werden er op de wereldtentoonstelling in New York demonstraties gegeven met een verwant apparaat: de Voder, tevens ontworpen door Dudley. De Voder was de eerste elektronische speech-synthesizer en in de handen van Helen Harper, professioneel Voder-operateur, kon het verstaanbare zinnen voortbrengen en zelfs liedjes zingen4).

Het onderliggende principe van de Voder lijkt op concatenation synthesis, het principe achter Vocaloid. Dit is het achter elkaar plakken van korte samples van verschillende geluiden. De Voder synthetiseerde deze samples echter zelf met behulp van formant synthesis (het gebruik van bandpass filters op specifieke frequenties om het geluid van een klinker na te bootsen) en in plaats van dat een computerprogramma bepaalde hoe ze achter elkaar geplakt moesten worden, werd dat live door een operateur gedaan.

Schematische weergave van het circuit van de Voder.

Bell labs presenteerde in 1961 een nieuwe doorbraak: John Kelly Jr, Carol Lochbaum en Lou Gerstman waren erin geslaagd met een IBM 704 computer een spraaksynthesizer te maken en deze vervolgens het liedje Daisy Bell te laten zingen5)6). Dit was overigens de inspiratie voor de kwaadaardige supercomputer HAL 9000 in 2001: A Space Odyssey. De eerste volledige Engelse text-to-speech machine, een apparaat dat ingevoerde tekst direct kan omzetten in spraak, werd daarna in 1968 Japan ontwikkeld door een team van het Nationaal Elektrotechnisch Laboratorium onder leiding van Noriko Umeda7).

Een text-to-speech machine is tevens wat de aan ALS lijdende wetenschapper Stephen Hawking zijn kenmerkende stem gaf. Dit apparaat was de DECTalk uit 1984, gebaseerd op onderzoek van Dennis H. Klatt en tevens gemodelleerd naar zijn eigen stem8). De DECTalk engine wordt ook gebruikt voor de chatfunctie van NASA’s videogame Moonbase Alpha uit 2010 en dit groeide zelfs uit tot een bescheiden meme. Als je ooit, verdwaald in het content-moeras van YouTube, een cover van een liedje uit een anime gezongen door een primitieve computerstem met een bijbehorende video vol astronautenpakken bent tegengekomen was de zanger hoogstwaarschijnlijk de DECTalk engine uit Moonbase Alpha9). Dit zijn high-effort memes: zang programmeren in DECTalk is namelijk geen sinecure. In tegenstelling tot normale spraak, die gewoon ingetypt kan worden, moet zang ingevoerd worden in fonemen: fonetische representaties van lettergrepen die in het geval van DECTalk-berichten gekoppeld moesten worden aan de nootduur en toonhoogte10). Het liedje “Happy Birthday” moest daardoor op deze manier ingeprogrammeerd worden:

 [:phoneme on]
[hxae<300,10>piy<300,10> brr<600,12>th<100>dey<600,10> tuw<600,15> yu<1200,14>_<120>]
[hxae<300,10>piy<300,10> brr<600,12>th<100>dey<600,10> tuw<600,17> yu<1200,15>_<120>]
[hxae<300,10>piy<300,10>
brr<600,22>th<100>dey<600,19>dih<600,15>rdeh<600,14>ktao<600,12>k_<120>_<120>]
[hxae<300,20>piy<300,20> brr<600,19>th<100>dey<600,15> tuw<600,17> yu<1200,15>] 

De fonemen hxae en piy vormen hier dus samen het woord “happy”, vervolgens eerst de duur van de klank in milliseconden en daarna het nootnummer.

Het direct editen van fonemen is nog steeds een belangrijk deel van het maken van een overtuigende digitale vocal, maar tegenwoordig is dat process gelukkig een stuk minder spartaans dan het voor DECTalk is.

DECTalk was een tijd lang alleen verkrijgbaar als een aparte hardware module die weliswaar met via een seriële communicatiepoort op een computer kon worden aangesloten, maar in 1982 verkocht Don’t Ask Software al het programma “Software Automatic Mouth” (S.A.M.) voor de Commodore 64, Apple II en de Atari 8 bit-homecomputers. De DAC’s van deze oude apparaten waren echter nog zo primitief dat het resultaat vaak vooral veel distortion was.

Alle systemen die we tot nu toe behandeld hebben, zijn bedoeld voor spraak in plaats van zang, en daar is een goede reden voor: dit soort systemen hebben een hele duidelijke commerciële toepassing. Text-to-speech machines zijn de omroepers op stations, de simpelste versie ervan zitten in pratend kinderspeelgoed en ze geven een stem aan mensen die vanwege een handicap niet kunnen praten. Totdat muziekgigant Yamaha Vocaloid uitbracht waren er echter nog geen spraaksynthesizers die puur bedoeld waren voor muzikale doeleinden.

Geschiedenis en evolutie van Vocaloid

Vroege ontwikkeling
In 2000 startte Hideki Kenmochi van YAMAHA’s Advanced System Development Center een onderzoeksgroep aan de Pompeu Fabra-universiteit in Barcelona. Deze groep werd ondersteund door YAMAHA en onderzocht de mogelijkheden van “Singing Voice Synthesis Combining Excitation plus Resonance and Sinusoidal plus Residual Models”. De resultaten van dit onderzoek werden in 2001 in een paper gepubliceerd 11) en vormden de basis voor wat in 2004 door YAMAHA als commercieel product zou worden uitgebracht onder de naam VOCALOID. Bij dit onderzoek baseerde het team zich op een combinatie van eerder onderzochte modellen: EpR (Excitation plus Resonance, [Childers, 1994]) en SpR (Sinusoidal plus Residual representation, verkregen door SMS-analyse [Serra, 1990]). De werking hiervan wordt behandeld onder “Hoe werkt VOCALOID”.

Eerste release
Op de Musikmesse 2003 liet YAMAHA voor het eerst een (zeer basic) demo zien van de op dat moment in ontwikkeling zijnde VOCALOID-software. Paul White, die aanwezig was bij de presentatie, schreef in Sound On Sound: “Within minutes, the computer was singing like a professional!” 12). Deze eerste versie van de software had een pianoroll-interface voor de invoer van noten. Daarop konden uit een library ook articulaties, vibrato’s e.d. toegepast worden.

De interface van de eerste VOCALOID Editor.

Bij deze versie van VOCALOID werden in eerste instantie twee stemmen geleverd: Leon en Lola, die beiden in het Engels zongen. Deze stemmen werden geproduceerd door het Britse Zero-G en gedistribueerd door Crypton Future Media Inc (Sapporo, Japan). Later werden aan de line-up Miriam (Zero-G), Meiko en Kaito (YAMAHA, Crypton) toegevoegd.

Ontvangst
De reviews over VOCALOID waren gemengd. Het programma sleepte verscheidene awards binnen (2005 Electronic Musician Editor's Choice Award, G.A.N.G. Award voor “Best New Audio Technology), maar reviews, zoals die van Sound On Sound 13) waren wat gematigd.

Ontwikkeling sinds VOCALOID 1
Vocaloid 2
Vier jaar na de eerste versie van het programma kwam YAMAHA met Vocaloid 2, een grote upgrade ten opzichte van de vorige uitgave. Naast een volledig nieuwe interface werd ook de synthese-engine aangepast, waardoor in plaats van enkel de analyse van menselijke stemmen te gebruiken, nu gesamplede menselijke stemmen de sound source vormden. Met de release van Vocaloid 2 werden ook nieuwe stemmen geïntroduceerd. Op 29 juli 2007 bracht het Zweedse PowerFX “Sweet Ann” uit, de eerste voicebank voor Vocaloid 2. Een maand later, op 31 augustus, kwam Crypton Future Media met het grote keerpunt in de geschiedenis van de Vocaloid-synthesizer, namelijk Hatsune Miku. Tot dat moment waren Vocaloid-stemmen een anonieme “stem uit een doosje”, vooral bedoeld als instrument. Hier kwam echter verandering in met de release van Miku, die in de markt werd gezet als character. Deze zet van Crypton sloeg aan en in haar eerste jaar op de markt werd Miku 40000 keer verkocht (ongeveer 300 stuks per week) 14). In totaal werden voor de Vocaloid 2-engine 35 voicebanks geproduceerd, waarvan vijf Engels en 17 Japans.

Vocaloid 3
Op 21 oktober 2011 bracht YAMAHA Vocaloid 3 uit. Deze upgrade omvatte veel verbeteringen aan het syntheseproces en ondersteunde drie nieuwe talen: Chinees, Koreaans en Spaans. Vocaloid 3 werd als eerste Vocaloid-editor los verkocht. Bij vorige releases was de editor namelijk steeds inbegrepen bij voicebanks. Bij de release werden ook vier nieuwe voicebanks uitgebracht: Mew (Japans), SeeU (Koreaans, Japans), Megpoid (Japans) en VY1v3 (Japans).

Vocaloid 4
Vocaloid 4 werd in oktober 2014 uitgebracht en introduceerde een aantal nieuwe parameters voor de vocale synthese, waaronder Growl en Cross-Synthesis. Daarnaast kwam er de mogelijkheid om de pitch van gebruikersinvoer te renderen, zodat de instant playback een stuk meer als het uiteindelijke resultaat klinkt. Voor Vocaloid 4 werden 86 voicebanks geproduceerd.

Vocaloid 5
Vocaloid 5 is de nieuwste release in de Vocaloid-serie. V5 werd uitgebracht op 12 juli 2018 en heeft onder andere een nieuwe interface, een phrase library, audio-effecten, vier basisstemmen en nog veel meer. Voor Vocaloid 5 zijn tot nu toe 12 voicebanks uitgebracht.

Hoe werkt Vocaloid?

Hier wordt de werking beschreven zoals deze beschreven wordt in een conference paper uit 2010, geschreven door Hideki Kenmochi 15). Deze technologie wordt waarschijnlijk nog steeds in meer of mindere mate gebruikt in de huidige VOCALOID-software. De afbeeldingen zijn afkomstig uit dit conference paper.

Input van tekst en melodie gebeurt in VOCALOID middels een ietwat aangepaste pianoroll-editor. In deze editor kan naast toonhoogte en -duur ook tekst worden ingevoerd. Verder kunnen verschillende parameters, zoals vibrato, opening van de mond, pitch bends en vele anderen, makkelijk worden aangepast. Deze editor wordt in de research papers Score Editor genoemd.


De Score Editor in VOCALOID 2/3/4


Globaal overzicht van de verschillende onderdelen van de VOCALOID-synthesizer

Zoals in dit diagram te zien is, wordt eerst op basis van gebruikersinvoer uit de Score Editor een zogenaamde Synthesis Score gegenereerd. Hiermee kunnen samples uit de Singer Library geselecteerd worden aan de hand van de fonetische “hapjes” van de ingevoerde tekst, de zogeheten phonemes. Deze samples worden vervolgens verwerkt in een DSP-applicatie, waar de vocale synthese plaatsvindt.


Signal processing die plaatsvindt in VOCALOID 2

In de Synthesis Engine wordt eerst middels FFT de pitch van de te gebruiken sample geanalyseerd. Deze wordt vervolgens vergeleken met de target pitch uit de Score Editor om een ratio te berekenen die gebruikt wordt om de pitch van de sample te schalen naar de gewenste toonhoogte.


Sample-timing voor de zin “Singing a song”

Ook wordt aan de hand van de Synthesis Score een timing mapping gemaakt van de verschillende phonemes. Hiervoor wordt waarschijnlijk een Hidden Markov Model gebruikt als algoritme om de tijdsverdeling te bepalen. De ruimte tussen de verschillende samples wordt vervolgens geïnterpoleerd, zodat de samples in elkaar overlopen en verschillen in timbre niet of nauwelijks hoorbaar zijn. Het resultaat van deze synthese wordt vervolgens voor de gebruiker afgespeeld en kan worden geëxporteerd als WAV-bestand.

Vergelijkbare programma's

Tegenwoordig heeft elke telefoon een text-to-speech synthesizer, denk aan Siri, Alexa, Google Assistant, en deze worden steeds beter. Deze zijn echter niet bedoeld voor muzikale doeleinden, dus we gaan hier verder geen aandacht aan besteden. Ook kan je met veel pijn en moeite (en vooral veel bandpass filters) elk geluid wel als een stem laten klinken, maar dat soort methodes laten we ook buiten beschouwing. Wel gaan we het hier hebben over andere programma’s die gemaakt zijn om hele zinnen te kunnen zingen.

PPG Phonem is een vreemde eend in de bijt, omdat het niet werkt met vocal samples maar met twaalf instelbare resonatoren (de blauwe grafiek in het centrum van dit plaatje). Phonem was als AU/VST plugin of iOS app verkrijgbaar, maar tegenwoordig wordt het niet meer verkocht. Je kan Phonem laten zingen door fonemen in te voeren in de bovenste balk en die kun je vervolgens bijvoorbeeld triggeren met midinoten. Je kan er zelfs hele liedjes mee maken door in een tekstbestand de tekst in fonemen in te amper verstaanbaar en het process om hele zinnen, laat staan coupletten, af te spelen en gesynct te krijgen met de rest van de muziek is omslachtig. Dit alles maakt van Phonem een capabele synthesizer maar een matige tool voor het programmeren van lead vocals. We hebben het besloten toch hier te noemen omdat het een ander perspectief biedt op vocale synthese.

Foto afkomstig uit een review16) aangezien Phonem niet meer verkrijgbaar is.

De bekendste tegenhanger van Vocaloid is UTAU, een tevens Japans shareware programma. De naam is afkomstig van het werkwoord “zingen” en jullie hebben het allemaal zeker een keer in actie gehoord: de inmiddels prehistorische meme Nyan Cat wordt namelijk gezongen door de UTAUloid (zo heet een UTAU voicebank in de volksmond) Momo Momone (of eigenlijk is de versie die een meme geworden is een cover met Momo Momone van het nummer Nyanyanyanyanyanyanya! dat oorspronkelijk gezongen werd door Hatsune Miku, maar laten we het niet te ingewikkeld maken). UTAU bestaat al sinds 2008 en het was vanaf het begin af aan al gratis17), sterker nog: je kan er zelf een voicebank van je eigen stem voor maken! Het is ook mogelijk voor gebruikers om hun eigen plugins te programmeren voor UTAU en die te delen met de rest van de wereld, dit zijn geen effect-plugins zoals delay of reverb, maar plugins die de algehele functionaliteit van het programma verbeteren. Dit alles is wat UTAU vooral in Japan populair programma heeft gemaakt.

UTAU is net als Vocaloid een standalone programma en niet verkrijgbaar als VST, dit is een voordeel, maar we komen later terug op waarom. Net als Vocaloid gebruik je het door in een piano-roll noten op te geven en daar lettergrepen aan te koppelen. Naast de plugins zijn er ook verschillende rendering engines (zogenaamde “resamplers”) verkrijgbaar voor UTAU, die elk andere resultaten opleveren18). Over het algemeen klinken UTAUloids wat robotischer en metallischer dan Vocaloids, maar dat betekent er geen verbazingwekkend overtuigende vocals mee gemaakt kunnen worden19). De vele plugins, resamplers en gratis te downloaden voicebanks maken UTAU zo bruikbaar als je zelf bereidt bent het te maken. De keerzijde is echter dat je dat werk er wel echt in moet stoppen, alleen de installatie is al een uitdaging omdat die nooit in het Engels vertaald is. Verder zijn er ook een aantal dingen die je moet doen om de software bruikbaar te maken op een niet-Japanse computer, dat is dus tutorial kijken geblazen. De laatste update van UTAU stamt alweer uit 2013, maar het wordt nog steeds gebruikt: Circus-P, misschien wel de bekendste Engels Vocaloid producer, heeft in 2020 nog een album met enkel UTAU vocals uitgebracht. Een groot deel daarvan wordt gezongen door Aido Ishiame, een UTAUloid gebaseerd op zijn eigen stem. Dit was volgens hem echter wel een pijnlijk process.

Circus-P had moeite met UTAU.

De UTAU interface.

Een andere variatie op Vocaloid is CeVIO Creative Studio. De eerste versie is uitgebracht in 2013 en het heeft in 2020 nog een grote update gehad. Wat CeVIO uniek maakt is dat het naast zang ook voor spraak gebruikt kan worden. Zang- en spraaktracks kunnen naast elkaar worden gebruikt, maar de manier waarop je ze bewerkt is compleet anders. Er zijn nog maar twaalf voicebanks voor beschikbaar20), de bekendste daarvan is de Engelse versie van de populaire Vocaloid IA. Er zijn alleen maar Japanse voicebanks voor spraak verkrijgbaar, wat betekent dat je in ieder geval een basale kennis van Japans schrift moet hebben om het te kunnen gebruiken. Een groot voordeel van CeVIO voor zang is dat het niet werkt met automation lanes zoals Vocaloid maar dat je parameters zoals toonhoogte direct kan aanpassen door op de noten te tekenen, wat dit een veel intuïtiever process maakt.

Toonhoogte aanpassen in CeVIO: de oranje lijn is ingetekend door de gebruiker.

Naast CeVIO en UTAU zijn er meer programma’s die erg lijken op Vocaloid. Synthesizer V en DeepVocal zijn relatief nieuw, de laatste kun je zien als makkelijker te gebruiken versie van UTAU die echter nog niet zo’n actieve community heeft. Synth V is redelijk makkelijk te gebruiken, heeft een solide Engelse voicebank genaamd Eleanor Forte en een zeer genereuze gratis proefperiode. Beide programma’s zijn echter minder volwassen dan Vocaloid en CeVIO. Dan zijn er ook nog Cantor, dat gelijktijdig uitkwam met Vocaloid maar sinds 2007 niet meer geupdate wordt; Cadencii, eigenlijk een frontend voor UTAU; NIAONiao, eigenlijk een Chinese versie van UTAU; Emvoice, een nieuwkomer die cloud-computing gebruikt en momenteel nog bijzonder saai klinkt; teveel om op te noemen en zeker teveel om hier allemaal uitgebreid te behandelen21). Deze programma’s hebben allemaal globaal dezelfde functie als Vocaloid, CeVIO en UTAU en werken op ongeveer dezelfde manier.

Piapro Studio is een interessant geval: dit is een programma van Crypton Future Media, die de meeste populaire Vocaloid voicebanks zoals Hatsune Miku, Kaito en Megurine Luka maken. Het maakt onderhuids gebruik van de engine van Vocaloid 4 en is dus eigenlijk Vocaloid in een ander jasje 22)23). Nog interessanter is Piapro Studio for NT (Newtype), een compleet nieuw door Cypton Future Media ontwikkeld programma dat niet meer gebaseerd is op Vocaloid. Het zou oorspronkelijk uitkomen in Maart samen met de nieuwe voicebank Hatsune Miku NT, maar dit is inmiddels verzet naar Augustus24). Wij vinden het spannend.

Plogue Art et Technologie is een Frans bedrijf dat degenen onder ons die veel met virtuele orkestratie bezig zijn misschien wel kennen van de VST-plugin Sforzando. Ze zijn echter ook veel bezig met vocale synthese. In 2015 brachten ze Chipspeech uit, een soort ode in VST-vorm aan de oude spraaksynthesizers die we bij het hoofdstuk over de geschiedenis der vocale synthese hebben behandeld. Er zitten emulaties in van de Voder, John Kelly’s IBM 704, DECTalk, S.A.M. en nog een aantal andere spraaksynthesizers die we niet hebben behandeld zoals de Votrax SC-01 en STSPEECH.TOS voor de Atari ST25).

Plogue Chipspeech

Het is erg cool dat je nu met Chipspeech toegang hebt tot al deze oude spraaksynthesizers en ze kan laten zingen, iets wat voor de originele apparaten vaak moeilijk zo niet onmogelijk was, door er simpelweg midinoten tegenaan te gooien. Daarnaast kunnen de stemmen ook zo getweaked worden dat ze kunnen fungeren als lead synths of pads. Er is zelfs al een semi-virale meme mee gemaakt en als iets kenmerkend is voor capabele spraaksynthesizers is dat het wel.

Dit nummer is gemaakt met de voicebank Bert Gotrax in Chipspeech.

Dat Chipspeech als VST-plugin bestaat lijkt een groot voordeel, maar in de praktijk is dat juist erg onhandig. De tekst die je Chipspeech opgeeft is nameljk niet gesynchroniseerd met een bepaalde tijdcode in je DAW en loopt gaat elke keer dat je op play drukt gewoon verder waar het gebleven was. Om die synchronisatie voor elkaar te krijgen moet je in de weer met midi CC automatisering of keyswitches en zelfs dan kun je alleen aparte regels synchroniseren en geen individuele woorden. Chipspeech werkt bovendien in realtime, wat leuk is voor een performance maar ervoor zorgt dat de transities tussen klanken slordig kunnen worden omdat het programma niet kan anticiperen op wat er na de huidige noot komt. Plogue heeft ook Alter/Ego gemaakt, een gratis VST met een vergelijkbare interface en werkwijze als Chipspeech maar bedoeld voor meer realistische vocals.

Een simpelere kijk op vocale synthese zijn Realivox Blue en Realivox Ladies van Realitone. Dit zijn hele uitgebreide sample libraries van stemmen die ondergebracht zijn in Kontakt patches. Eigenlijk is dit dus niet echt synthese maar we wilden ze toch even benoemen omdat ze voor sommige mensen misschien wel ideaal kunnen zijn. Realivox Blue is de meest uitgebreide variant en die krijgt daarom hier de meeste aandacht. Je kan klinkers en medeklinkers selecteren en die dan met midinoten afspelen. De tweakability hiervan is in vergelijking met Vocaloid bijvoorbeeld zeer klein en Realivox Blue kan geen echte woorden interpreteren, dus als je de gesamplede zangers “oh come, oh come Emmanual” wil laten zingen moet je dat invoeren als “oh kuh moh kuh mee mehn yoo ehl”. Het feit dat het een sample library is zorgt er echter wel voor de samples zelf heel echt en menselijk klinken, dus voor een virtuele orkestrator op zoek naar een achtergrondkoor of andere situaties waarin er eerder een mood dan een tekst gecommuniceerd hoeft te worden zou dit bijvoorbeeld een zeer geschikte optie kunnen zijn.

Realivox. Oh kuh moh kuh mee mehn yoo ehl. Screenshot uit een demo van Realitone.

Als laatste willen we ook Sinsy even benoemen, een zangsynthesizer gebaseerd op een Hidden Markov model26) en deep learning die uitkwam in 201527). Je kan op de Sinsy website bladmuziek in de vorm van een musicxml bestand uploaden, compleet met lyrics, en Sinsy maakt er dan zelf zang van.

Tuning: de struggle van vocalsynth producers

Als je inmiddels zelf ook zin hebt om met Vocaloid, CeVIO, UTAU of een ander soortgelijk programma aan de slag te gaan is er een belangrijk concept om bekend mee te worden: tuning. Tunen is het fijnslijpen van de vocal om deze overtuigender te maken en vaak gaat dit om het vergroten van het realisme. Door goed te tunen kan je heel dicht in de buurt komen van een echte menselijke stem, MitchieM is bijvoorbeeld een producer die daar heel goed in is.

Dit process begint in feite al met de keuze van je voicebank: je moet zorgen dat de virtuele vocalist die je gebruikt een bereik heeft dat geschikt is voor het nummer dat je maakt. Sommige voicebanks klinken bij hoge tonen heel krampachtig en weer andere zijn laag amper te verstaan. Veel voicebanks hebben zelfs verschillende versies: IA English is er bijvoorbeeld in de smaken “natural” en “powerful”.

Als je realisme wil bereiken moet je bijvoorbeeld rekening houden met vibrato. De meeste programma’s geven langen noten vanzelf al vibrato, maar pas op dat je niet elke noot precies dezelfde vibrato geeft, want dat gaat heel erg opvallen. Denk ook na over het effect dat je wil bereiken: Circus-P gebruikt bijvoorbeeld veel snelle vibrato’s en versieringen en dat levert een heel dramatisch effect op.

Het is ook belangrijk om na te denken over hoe je wil dat noten in elkaar overgaan: het is misschien realistischer om de portamento tussen een lagere noot en een veel hogere noot wat langer te maken en je kan bijvoorbeeld de eerste noot van een zin snel vanaf een iets hogere toonhoogte naar de rust-toonhoogte laten glijden voor een geëmotioneerd effect. Vaak zul je korte overgangsnoten, waar een echte vocalist zich niet bewust van zou zijn, moeten toevoegen om een expressieve vocal te creëren.

Als je een enigszins goede zangstem hebt kun je de zin die je aan het tunen bent voor jezelf zingen en kijken wat jij ervan zou maken. Als dit geen optie is, kun je aandachtig luisteren naar echte vocalisten of op YouTube filmpjes van een ervaren tuner die aan het werk is opzoeken. Circus-P heeft bijvoorbeeld livestreams gedaan van zijn tune-process en zelfs als je, zoals wij, geen fan bent van zijn muziek kan dat alsnog heel leerzaam zijn.

Je zal ook moeten nadenken over de uitspraak van de songtekst die je aan het verklanken bent. Er zijn vooral in westerse talen meerdere manier om een woord uit te spreken en veel uitzonderingen op de uitspraak van bepaalde lettergrepen. Vaak zal je woorden daarom met opzet verkeerd moeten spellen om de juiste uitspraak te krijgen. Dit is overigens misschien een van de redenen waarom het geen toeval is dat Vocaloid een van origine Japans programma is, Japans is namelijk qua schrift heel ingewikkeld maar qua spraak relatief eenvoudig. Hiragana, een van de drie Japanse karaktersets, heeft slechts 108 karakters en omvat daarmee eigenlijk alle lettergrepen die de Japanse taal heeft28). Dit wordt net iets ingewikkelder omdat de uitspraak van een aantal lettergrepen ook subtiel verschilt afhankelijk van de lettergreep die erop volgt, maar dit is te overzien en in principe zijn er geen uitzonderingen. Engels is in dat opzicht een veel ingewikkeldere taal, denk maar aan het verschil in uitspraak van de “ti” in de woorden nation en time, en dat is pas een halve lettergreep! Dit maakt het maken van een Engelse voicebank en het tunen van een Engels nummer een uitdaging en het zal zeker voorkomen dat je woorden in je songtekst zal moeten aanpassen omdat ze gewoon op geen enkele manier goed klinken. Los van de taal hebben virtuele vocalisten ook vaak de neiging woorden een beetje overdreven uit te spreken en vooral bij snellere passages gaat dat heel nep klinken. Dit is tevens iets wat dan aangepast zal moeten worden.

Je kan het natuurlijk ook allemaal expres “fout” doen als dat het effect is wat je wil bereiken: toonhoogte overgangen snaarstrak maken om een nog robotischere feel te krijgen dan je ooit met autotune klaar zo kunnen spelen; supersnelle zang die veel te duidelijk gearticuleerd is voor een komisch effect; oorverdovend hoge vocals; je kan uiteindelijk alles doen wat je wil, maar je zal er werk in moeten steken om je visie te verwezenlijken. Succes :)

Auteurs

  • Daniël Kamp
  • Elmer Makkinga