Merkt u het verschil tussen kunstmatige en echte menselijke spraak?

Steven Mike Voser
T
Tacotron 2 is de recentste ontwikkeling op het gebied van technologie voor spraaksynthese, gecreëerd door de technici van Google. Merkt u het verschil tussen deze robot en een mens?

Denkt u dat u het verschil zou kunnen merken tussen menselijke spraak en een sprekende machine? Bent u bekend met de stemmen van verouderde tekst-naar-spraak AI (zoals Microsofts Sam, Mike en Mary) of zelfs Siri en Alexa? Dan roept u waarschijnlijk volmondig ja. Maar als u Googles nieuwe tekst-naar-spraak AI Tacotron 2 hebt gehoord, bent u waarschijnlijk niet meer zo zeker van uzelf. Google lanceerde het programma eind december samen met een eigen, wetenschappelijk paper. Daarin werd de stem van Tacotron vergeleken met die van een echt mens. Volgens dit paper van Google-onderzoekers aan de Universiteit van Californië – Berkeley is het bijna onmogelijk om de twee van elkaar te onderscheiden. Check voordat u verder leest hier de geluidsfragmenten van Tacotron en ontdek het zelf.
 

 

TACOTRON 2: DE RECENTSTE TEKST-NAAR-SPRAAK AI

Nu u de geluidsvoorbeelden van Googles Tacotron 2 hebt gehoord, staat u er waarschijnlijk versteld van hoe realistisch ze klinken. Het systeem, ontworpen door Googles interne technici, bestaat uit twee diepe neurale netwerken die helpen om tekst naar spraak om te zetten. Het eerste netwerk verandert tekst in een spectrogram. Dit biedt het systeem een visuele representatie van hoe de tekst zou moeten klinken. Dat spectrogram wordt vervolgens ingevoerd bij WaveNet. Dit model leest het spectrogram en produceert de relatieve geluiden.
 
Dit model leest het spectrogram en produceert de relatieve geluiden.
 

ONTWIKKELINGEN IN SPRAAKSYNTHESE

Spraakherkenning heeft de laatste jaren een grote ontwikkeling doorgemaakt (denk aan Google Voice Search of Apples Siri). Tekst-naar-spraaktechnologie is echter achtergebleven. Tekst-naar-spraaktechnologie bleef jarenlang afhankelijk van zogenaamde concatenatieve systemen. Deze systemen bestaan in principe uit een bibliotheek van korte spraakfragmenten die zijn ingesproken door een menselijke spreker. De fragmenten werden vervolgens gecombineerd om zo zinnen te vormen.
Hoewel de systemen werkten, was het heel moeilijk om de fijne nuances van de menselijke spraak, zoals nadruk of emotie, te reproduceren. Om deze details in de spraak te vangen, zou de hele geluidsbibliotheek opnieuw opgenomen moeten worden. Lange tijd waren parametrische tekst-naar-spraaksystemen het enige alternatief voor concatenatieve systemen voor spraaksynthese. Deze systemen kunnen de inhoud en eigenschappen van spraak met behulp van specifieke input beïnvloeden. Toch klonken ze meestal veel minder natuurlijk. WaveNet, het systeem achter Googles Tacotron 2, heeft de manier waarop machines spraak synthetiseren echter compleet gerevolutioneerd.
 

WAVENET: EEN REVOLUTIE VAN TEKST-NAAR-SPRAAK AI

WaveNet is ontwikkeld door DeepMind, een AI-bedrijf, gevestigd in het Verenigd Koninkrijk. De wetenschap achter dit systeem is zeer complex. Volgens DeepMind wordt WaveNet eerst getraind met behulp van geluidsgolfvormen die ingesproken zijn door echte menselijke sprekers. Wanneer het systeem eenmaal is getraind met deze geluidsvoorbeelden, kan het hiermee nieuwe, synthetische uitingen creëren. Vervolgens gebruikt het complexe algoritmes om de volgende onderdelen van een stuk tekst te voorspellen. Dit produceert uiteindelijk een rijk, natuurlijk klinkend geluid.
Onderzoekers van DeepMind vergeleken de prestaties van WaveNet met Googles bestaande systemen voor spraaksynthese. Oftewel, met de parametrische en concatenatieve systemen. Dit deden de onderzoekers met behulp van Googles bestaande tekst-naar-spraak datasets. De resultaten zijn uitgedrukt met behulp van een 1-5 schaal van MOS (Mean Opinion Scores). Dit is een meetstandaard die gebruikt wordt voor geluidstesten. Bij het produceren van Amerikaans Engels behaalde WaveNet een MOS van 4,21. Googles concatenatieve en parametrische systemen scoorden respectievelijk 3,86 en 2,6. Menselijke spraak scoorde 4,55. De onderzoekers van DeepMind voerden dezelfde test uit met het Mandarijn, met de volgende resultaten als gevolg:

  • Menselijke spraak: 4,21
  • WaveNet: 4,08
  • Parametrisch: 3,79
  • Concatenatief: 3,47

WaveNet verschilt op veel manieren van andere systemen voor spraaksynthese. Om te weten wat het moet zeggen, heeft WaveNet een tekst nodig die omgezet is tot een reeks. Deze reeks bevat linguïstische en fonetische aanwijzingen over de lettergrepen, woorden of andere geluiden die het moet reproduceren. Zonder deze informatie werkt het systeem nog steeds, maar moet het zelf bedenken wat het gaat zeggen. Het produceert dan meestal een reeks willekeurige geluiden, met zo nu en dan een woord ertussen.
Omdat het op basis van originele tonen werkt, kan WaveNet ook natuurlijke geluiden produceren. Denk aan de ademhaling of het geluid van mondbewegingen. Interessant genoeg kan WaveNet aangeleerd worden om allerlei soorten geluiden te repliceren, dus niet alleen spraak. Onderzoekers bij DeepMind hebben het systeem bijvoorbeeld getraind met klassieke pianomuziek in plaats van met een menselijke spreker. Het resultaat? Fascinerende fragmenten met door AI geïmproviseerde piano. Op DeepMinds website kunt u meer lezen over WaveNet.
 
Op DeepMinds website kunt u meer lezen over WaveNet.
 

DE TEST: SPOT U DE ROBOT?

Nu u weet hoe Googles Tacotron 2 werkt, is het tijd voor de test: Denkt u dat u het verschil kunt merken tussen Tacotron en echte menselijke spraak? Voor de tekst klikt u op deze link en scrollt u naar de laatste geluidsvoorbeelden, genaamd “Tacotron 2 or Human?” Daar vindt u in totaal acht geluidsvoorbeelden; vier van een menselijke spreker en vier van Tacotron 2. Spot u de robot? Scroll nadat u hebt geluisterd omlaag voor de antwoorden en ontdek welke geluidsvoorbeelden door Tacotron 2 geproduceerd zijn.
 

DE ANTWOORDEN

Dus, welke geluidsvoorbeelden waren ingesproken door een echt mens? Google geeft daar geen antwoord op. Ze geeft echter wel een grote hint: Als u de bestanden downloadt, ziet u dat sommige van de bestanden de term “gen” bevatten, terwijl andere de code “gt” hebben. We kunnen er niet zeker van zijn, maar Googles paper geeft ons een vermoeden. Het lijkt erop dat de bestanden getiteld “gen” door Tacotron 2 gegenereerd zijn en die met de titel “gt” door een mens. Ervan uitgaande dat dat correct is, volgen hier de antwoorden op de bovenstaande test:
“That girl did a video about Star Wars lipstick.”

  • Sample 1: Echt mens
  • Sample 2: Tacotron 2

“She earned a doctorate in sociology at Columbia University.”

  • Sample 1: Tacotron 2
  • Sample 2: Echt mens

“George Washington was the first President of the United States.”

  • Sample 1: Tacotron 2
  • Sample 2: Echt mens

“I’m too busy for romance.”

  • Sample 1: Echt mens
  • Sample 2: Tacotron 2