2000: Vocaloid

Origine en verhaal

Vocale-synthese is geen nieuw concept. In het jaar 1961 werd de IBM 7094 de eerste computer die kon zingen. Harry Dacre’s ‘Daisy Bell’ was het eerste nummer dat de IBM 7094 zong. De zang werd geprogrammeerd door John Kelly en Carol Lockbaum en de begeleidende muziek werd geprogrammeerd door Max Mathews waarvan het resultaat naast de zang op een andere computer draaide. Deze grote stap in het midden van de 20ste eeuw werd de aanleiding voor dat opbloeide in begin van de 21ste eeuw genaamd ‘Vocaloid’.

Vocaloid is een computerprogramma ontwikkelt door Yamaha dat gebruikt wordt om een zangstem te synthetiseren. In het begin van Vocaloid was het niet tot veel meer in staat dan het uitspreken van klinkers. Destijds stond het nog bekend als ‘Frequency Domain Singing Articulation Splicing and Shaping’. Een hele mond vol dus. Hideki Kenmochi, bekend als de ‘vader van Vocaloid’, wilde hier verandering in brengen. Niet alleen aan de naam, maar hij wilde dat de Vocaloids in staat waren tot meer articulatie. En zo werd er voor het eerst in 2003 door Yamaha een Vocaloid op de professionele markt gezet. Destijds was deze alleen nog in staat tot simpele woorden. Wat echter al een grote stap was richting Vocaloid zoals wij dat nu kennen.

In 2004 bracht ‘Zero-G’, een bedrijf dat zich specialiseert in muziekinstrumenten en muziek gerelateerde software, een duo van gesynthetiseerde vocals uit. Waarvan beide op een door Yamaha geproduceerde software-engine waren geprogrammeerd. Deze werden uitgebracht onder de naam ‘Leon’ en ‘Lola’ (Virtual soul singers). Zoals de Vocaloid uitgebracht in 2003 waren deze werenmaals bedoeld voor strikt professioneel gebruikt. Leon en Lola deden het niet super goed op de markt. De voornaamste redenen waren dat de spraak dof en onduidelijk was en dat de software veel te complex was om voor merendeels van de muzikanten te begrijpen.

Echter deed Japan het in dit opzicht een stuk beter. Later in datzelfde jaar bracht een Japans bedrijf onder de naam ‘Crypton’ een eigen Vocaloid uit, een vrouwelijke Vocaloid genaamd ‘Meiko’. Wat je misschien al is opgevallen is dat Vocaloids worden uitgebracht onder een bepaalde naam. Op de hoes van deze software staat meestal een persoon geïllustreerd waarmee de software een soort identiteit krijgt en door sommige mensen bijna als een ‘levend’ iets wordt beschouwd. Zo heeft elke Vocaloid een bepaalde karakteristiek, waarbij de voornaamste de stem is.

Meiko, wiers vocals waren voorzien van de Japanse zangeres ‘Meiko Haigō’ werd een groot succes. Aangezien de Japanse klinkers in een kleinere hoeveelheid komen en in het algemeen simplistischer zijn was Meiko een stuk duidelijker te verstaan. Zo liep ze eigenlijk over Leon en Lola heen. Door het succes van Meiko bracht Crypton een nieuwe Vocaloid uit, een man genaamd ‘Kaito’.

Maar Kaito deed het niet zo goed op de markt, een leuke cover was niet genoeg om de kopers aan te trekken en zo verkochten ze in het eerste jaar maar 500 kopieën van Kaito.

Steeds meer bedrijven wereldwijd zagen Vocaloid groeien en wilde meevaren op het succes ervan. En na een grote software-update werd ‘Vocaloid 2’ op januari 2007 geboren. De eerste Vocaloid 2 was ‘Sweet Ann’. Een Engelse vocaloid wiers vocals waren voorzien van een Australische zangeres. Ze was geproduceerd door een nieuwe grote speler in de markt ‘Power FX’. Sweet Ann stond bekend als de ‘Space Lounge Robo-vocalist sensation’.

Vocaloid, datgene dat eerst alleen toegankelijk was voor professionele muzikanten, werd bij de uitgave van Vocaloid 2 ook toegankelijker voor een breder en stuk minder professioneel publiek. ‘Hatsune Miku’ (geproduceerd door Crypton) , wiers uiterlijk en stem zeer geïnspireerd was door Japanse anime, groeide onmiddellijk in populariteit en werd uiteindelijk het beeld wat we hedendaags hebben van Vocaloid zelf.

Crypton stond toe dat de producties die gemaakt werden met Hatsune Miku zonder enige angst voor auteursrecht-wetten uitgebracht konden worden, waardoor er een enorme fanbase die zowel in muziek als anime geïnteresseerd zijn gecreëerd werd. Daarbij bracht Crypton nog een paar Vocaloids uit waarvan ze allen een succes waren. Vele bedrijven volgen het uitbrengen van Vocaloids en zo werden ze steeds gevarieerder.

Tijdens al de hype van Vocaloid maakte een team onder het mom van ‘ “vip@2ch ‘ het publiekelijk bekend dat er een nieuwe Vocaloid van Crypton zou worden uitgebracht. Echter bleek dit een grote grap te zijn. Met al de aandacht die ze naar zich toe hadden getrokken probeerden ze hun eigen software ‘Utau’, Japans voor ‘zing’, een plek op de markt voor gesynthetiseerde stemmen te geven. Utau is een gratis alternatief voor Vocaloid waarbij de gebruiker hun eigen stem in de software kunnen laden. Dit leidde uiteindelijk tot een heel apart fandom op zichzelf. De stemmen die hieruit ontstonden werden Utauloids genoemd.

Na het ongelooflijke succes van Vocaloid 2 werd Vocaloid 3 bekend gemaakt. Vocaloid 3 stond merendeels bekend om het gemakkelijke interface en het feit dat het de ruimte gaf om voor vele andere talen, zoals Spaans en Koreaans, een Vocaloid te creëren.Niet even later werd Vocaloid 4 uitgebracht. Wat destijds bekend stond als de meest realistische gesynthetiseerde stem. Deze was in staat tot vocale-technieken zoals ‘growls’ om extra emotie en nadruk te leggen op een noot.

Vele mensen beginnen de potentie van Vocaloid in te zien. Het kan door vele talen heen stem produceren en daarbij groeit de technologie achter de expressie tot op de vandaag nog steeds.

Hoe werkt het?

Vocaloid maakt gebruikt van concatenatieve synthese. Concatenatieve synthese is een techniek voor het synthetiseren van geluiden door korte samples van opgenomen geluid aan elkaar te voegen. Deze techniek wordt vaak gebruik bij het maken van spraak synthese. Het Vocaloid systeem kan doormiddel van het gebruik van vocale expressies, zoals vibrato en articulatie, een realistische stem reproduceren. Deze software ondersteunt tot nu toe pas drie talen, Koreaans, Engels en Japans.

De Vocaloid heeft 3 verschillende onderdelen in het systeem. De Singer Library, de Synthesis Engine en de Score Editor. De Score Editor is een piano roll die heel veel overeenkomsten heeft met Melodyne. In de piano roll kun je noten, expressies en tekst invoeren. De tekst wordt automatisch omgezet naar fonetische symbolen. Je kan hier ook verschillende parameters veranderen zoals de vibrato per woord, de pitch of dynamiek. MIDI keyboards worden ook ondersteunt door Vocaloid als je eerst de tekst wilt invoeren en met die tekst melodieën wilt spelen in real-time.

De Singer Library is een database met fragmenten die gesampled zijn van echte mensen. Er zijn verschillende stemmen en zinnen die je kunt selecteren als een soort preset. Die presets kan je slepen in je DAW en met de Score Editor aanpassen. De database is redelijk groot, omdat het alle mogelijke combinaties moet bevatten, zoals gesustainde medeklinkers, polyfonie, en difonen.

De Synthesis Engine is een systeem dat informatie krijgt van de Score Editor, via deze engine worden de pitch en timbre aangepast en wordt het synthetiseert het naar een stem. Dit gebeurt automatisch als je de VSTi gebruikt in een DAW.

Auteurs

  • Bryan van der Laan
  • Jimmy van der Heijden