- Tekst-naar-spraak (TTS) zet tekst om in levensechte spraak met behulp van neurale netwerken voor een natuurlijke prosodie en spraakkwaliteit.
- TTS-pijplijnen verwerken tekst, analyseren linguïstiek, genereren spectrogrammen en synthetiseren audio met vocoders.
- TTS maakt chatbots, navigatiesystemen, entertainment, hulpmiddelen voor de gezondheidszorg en inclusief onderwijs mogelijk.
- TTS van hoge kwaliteit verbetert de duidelijkheid, de stem van het merk, de toegankelijkheid en het vertrouwen van de gebruiker in alle sectoren.
De Nederlandse ChatGPT spreekt (soms)met een Duits accent. Als het met opzet is, is het gemeen. Als het niet zo is, dan is het fascinerend.
Hoe dan ook, het is veilig om te zeggen dat AI spraakassistenten een lange weg hebben afgelegd sinds Microsoft's Sam. Sterker nog, ze hebben een lange weg afgelegd sinds ik een paar jaar geleden spraaktechnologie bestudeerde.
En ik ben hier om jullie te vertellen waar we zijn beland.
We mythologiseren synthetische spraak al sinds 1968, sinds het verschijnen van HAL de robot in 2001: A Space Odyssey.

In plaats van prestigieus en futuristisch, is het nu standaard geworden: 89% van de consumenten laat de keuze van een apparaat afhangen van de vraag of het ondersteuning biedt voor spraak.
Met andere woorden: "Help me niet alleen, praat met me".
In dit artikel bespreek ik tekst-naar-spraak, het omzetten van tekst in gesproken audio. Ik zal het hebben over wat er onder de motorkap gebeurt en de verschillende manieren waarop deze technologie in verschillende sectoren wordt gebruikt.
Wat is tekst-naar-spraak?
TTS is het omzetten van tekst in gesynthetiseerde gesproken audio. Vroege versies waren gebaseerd op het mechanisch benaderen van het menselijk spraakkanaal en het aan elkaar plakken van audio-opnames. Tegenwoordig gebruiken TTS-systemen diepe neurale netwerkalgoritmen om dynamische, mensachtige uitspraken te leveren.
Er bestaan verschillende modellen afhankelijk van de use case, zoals real-time generatie voor conversatiemodellen, controleerbare expressie en de mogelijkheid om een stem na te bootsen.
Hoe werkt tekst-naar-spraak?
TTS bestaat uit 3 belangrijke stappen: eerst wordt de ingevoerde tekst verwerkt om symbolen, uitdrukkingen en afkortingen te spellen. De verwerkte tekst wordt vervolgens door neurale netwerken geleid die de tekst omzetten in een akoestische representatie (spectrogram). Ten slotte wordt de representatie omgezet in spraak.
Zoals ik al zei, hebben onderzoekers een aantal benaderingen van TTS doorlopen. Degene waar we op zijn uitgekomen (en waar ik denk dat we nog wel een tijdje zullen blijven) maakt gebruik van spraaksynthese op basis van neurale netwerken.
Het modelleren van de lagen van linguïstische fenomenen die een uiting beïnvloeden - uitspraak, snelheid, intonatie - is een ingewikkelde taak.

Zelfs met de quasi-magische black-box mogelijkheden van neurale netwerken, vertrouwt een TTS-systeem op een heleboel componenten om spraak te benaderen.
Het is moeilijk om een exacte pijplijn vast te stellen; nieuwe technologieën duiken links en rechts op en dreigen hun voorgangers overbodig te maken.
Er zijn een paar algemene componenten die in de meeste TTS-systemen in de een of andere vorm voorkomen.
1. Tekstverwerking
Tekstverwerking is de stap waarbij het TTS-systeem bepaalt welke woorden worden uitgesproken. Afkortingen, datums en valutasymbolen worden gespeld en leestekens worden verwijderd.
Dit is niet altijd triviaal. Betekent "Dr." dokter of rijden? En CAD? Canadese dollar of computerondersteund ontwerp?
Natuurlijke taalverwerking(NLP) kan worden gebruikt bij tekstverwerking om de juiste interpretatie te helpen voorspellen op basis van de omringende context. Het evalueert hoe de dubbelzinnige term (bijvoorbeeld "Dr.") in de zin als geheel past, dus in de zin "Dr. Perron raadde het af", zou NLP dr. oplossen in dokter.
2. Taalkundige analyse
Zodra tekst is verwerkt, verschuift het model van "Wat moet ik zeggen?" naar "Hoe moet ik het zeggen?".
Taalkundige analyse is het deel van TTS dat verantwoordelijk is voor het interpreteren van de toonhoogte, toonhoogte en duur van een zin. Met andere woorden:
- Hoe lang moet elke klank, lettergreep of woord zijn?
- Moet de intonatie omhoog? Dalen?
- Welk woord wordt benadrukt?
- Hoe kan de verandering in volume de bedoelde emotie weerspiegelen?
Waarom prosodie belangrijk is
Verhaaltjestijd: Ik had een korte opdracht als consultant voor een team dat TTS-modellen bouwde. Het werd duidelijk hoeveel prosodie de verstaanbaarheid van een zin maakt of breekt. Ik zal je laten zien wat ik bedoel.
Hieronder staan 3 afleveringen van de zin "Whoa, had je dat verwacht?".
De eerste is geweldig. De pauze na "Whoa", de opwaartse stembuiging op de tweede lettergreep van "expecting" (ex-PEC-ting). 10/10.
De tweede heeft nog net de vraagkwaliteit door de verbuiging bij het laatste woord ("... verwacht DAT"). Voor de rest zijn de lettergrepen min of meer even lang, zonder variatie in volume of toonhoogte. Ik zou mijn klanten vertellen om "aan de tekentafel te gaan zitten".
De laatste is een interessant geval: De "whoah" is geweldig - luid, lang en met een dalende contour. De stijgende verbuiging van de vraag vindt plaats in de loop van "was je", en blijft in principe de hele tijd op dezelfde toonhoogte.
Dit is waar veel doorsnee TTS-systemen ophouden: eenvoudig genoeg met een plausibele uitspraak. Maar het is niet hoe je het zou zeggen - tenminste niet in de meeste contexten.
In oudere systemen werden deze eigenschappen voorspeld door afzonderlijke componenten: één model berekende hoe lang elk geluid moest duren, een ander bracht in kaart hoe de toonhoogte moest stijgen en dalen.
Tegenwoordig zijn de dingen waziger.
Neurale netwerken hebben de neiging om deze patronen zelf te leren door de fijne subtiliteiten van enorme trainingsdatasets te internaliseren.
3. Akoestische modellering
Bij akoestische modellering wordt de genormaliseerde tekst (en de voorspelde taalkenmerken, indien aanwezig) door een neuraal netwerk geleid dat een tussenliggende representatie weergeeft.
Spectrogrammen en spraakweergaven
De tussenliggende representatie is meestal een spectrogram - de frequentie-over-tijd representatie van een audiosignaal - hoewel dat aan het veranderen is.
Dit is de weergave die een TTS-model genereert van onze invoertekst "Whoa, had je dat verwacht?":

Dit 2-dimensionale beeld bestaat eigenlijk uit 146 verticale plakjes, die elk 80 frequenties bevatten. De sterkere frequenties zijn helderder en de zwakkere zijn donkerder.
Hier ziet de 10e tijdstap (of kolom) eruit, 90 graden naar rechts gedraaid:

Je kunt de individuele frequenties en hun energieën zien.
Op het eerste gezicht lijkt het spectrogram niet veel, maar er zijn een aantal duidelijke taalkundige verschijnselen aanwezig:
- Die golven duidelijk gedefinieerde lijnen zijn klinkers of klinkerachtige klanken zoals /w/, /r/ en /l/.
- Donkere vlekken staan voor stilte. Dat kunnen interpunctiepauzes zijn.
- Klompjes energie hoog vertegenwoordigen ruis, zoals de ruis die je hoort in /s/, /sh/ en /f/
Als je goed kijkt, kun je de woorden zelfs op een rij zetten in het spectrogram.

Spectrogrammen, in hun verschillende vormen, zijn veel gebruikte representaties in spraaktechnologie omdat ze een zeer goede tussenvorm zijn tussen ruwe spraak en tekst.
Twee opnames van dezelfde zin uitgesproken door verschillende sprekers zullen zeer verschillende golfvormen hebben, maar zeer vergelijkbare spectrogrammen.
4. Audio synthetiseren (vocoding)
In de synthesefase wordt het spectrogram omgezet in audio.
De technologie die deze conversie uitvoert wordt een vocoder genoemd. Het zijn neurale netwerkmodellen die getraind zijn om spraaksignalen te reconstrueren op basis van hun spectrogram representaties.
De reden voor het opsplitsen van de representatie en spraaksignaalmodellering in aparte modules heeft te maken met controle: bij de eerste gaat het om het nauwkeurig modelleren van de uitspraak en toediening van woorden, en bij de volgende om de stijl en realistische toediening.
Met een spectrogram kunnen we onderscheid maken tussen /s/ vs /sh/, of /ee/ (als in heat) vs /ih/ (als in hit), maar de stijl en persoonlijkheid komen van de fijne details die de vocoder produceert.
Dit is een vergelijking van combinaties tussen verschillende akoestische modellen en vocoders. Het illustreert hoe onderzoekers akoestische modellen en vocoders mixen en matchen, en optimaliseren voor het beste algemene resultaat.
Maar nogmaals, net als bij alle andere onderdelen, zien we dat spectrogrammen geleidelijk verdwijnen ten gunste van alles-in-één modellen.
Wat zijn de toepassingen van TTS?
De mogelijkheid om dynamische gesproken taal te genereren is een essentieel hulpmiddel in alle bedrijfstakken.
Het gaat niet alleen om geavanceerde robotbedienden - het helpt ons efficiëntie, toegankelijkheid en veiligheid te bereiken.
Chatbots en spraakassistenten
Je wist dat ik het ging zeggen 😉
Tussen het begrijpen van je commando's, het bijwerken van je boodschappenlijstjes en het maken van afspraken, is het makkelijk om de geavanceerdheid - en het belang - van de gesynthetiseerde spraak in AI-agenten voor lief te nemen.
Een goede agent (d.w.z. een bruikbare agent) moet een stem hebben die aan de eisen voldoet: uitnodigend genoeg om om opdrachten te vragen en menselijk genoeg om de gebruiker te laten geloven dat hij ze kan uitvoeren.
Er wordt veel onderzoek en engineering gedaan om gebruikers over de streep te trekken in de fractie van een seconde die nodig is om te beslissen of een AI-assistent "goed" klinkt of niet.
Aan de zakelijke kant: je chatbot vertegenwoordigt je merk. Verbeteringen in TTS-technologie betekenen mogelijkheden voor betere voice branding en effectievere klantenservice.
Entertainment en media
Narratie en meertalige media zijn beschikbaarer geworden dankzij verbeteringen in de synthetische spraaktechnologie.
Spraaktechnologie vervangt geen talent, maar helpt dramatische voorstellingen te verbeteren.
Val Kilmer, die zijn stem verloor aan keelkanker, leverde een hartverwarmende prestatie met zijn originele stem in Top Gun: Maverick (2022) dankzij AI.
Met TTS kunnen spelontwikkelaars ook diverse, expressieve uitspraken geven aan niet-speelbare personages (NPC's), wat anders een onmogelijke opgave zou zijn.
Gezondheidszorg
Verbeteringen in TTS betekenen verbeteringen in toegankelijkheid over de hele linie.
Ouderenzorgtechnologieën pakken de kwestie van gezelschap en hulp tegelijkertijd aan. Deze technologie vertrouwt op de aanpasbaarheid die TTS biedt: meelevende tonen, variabele snelheden en zorgvuldige intonatie maken allemaal deel uit van het bieden van effectieve en waardige hulp.
TTS wordt ook gebruikt om de toegankelijkheid voor jongeren te verbeteren.
Acapela Group ontwikkelt onder andere technologieën voor kinderen met spraakproductiestoornissen. Synthetische spraak vergroot hun expressieve mogelijkheden en onafhankelijkheid, terwijl hun stemkenmerken behouden blijven.
Onderwijs en inclusief leren
We zijn synthetische spraak tegengekomen in apps voor het leren van talen. Maar dat is nog maar het topje van de ijsberg.
Een drempel voor zelfstandig leren is bijvoorbeeld kunnen lezen. Voor kinderen, mensen met een visuele beperking en bepaalde leerstoornissen is dat niet altijd mogelijk. Dit legt een grote druk op overwerkte leerkrachten in overvolle klaslokalen.
Een schooldistrict in Californië heeft TTS geïmplementeerd om een meer inclusieve leeromgeving te creëren voor leerlingen met speciale behoeften.
Net als in de ouderenzorg is onderwijstechnologie afhankelijk van meelevende stemmen die helder en duidelijk overkomen. Aanpasbare parameters maken het voor leerkrachten mogelijk om deze technologieën in hun lessen te integreren, waardoor leerlingen zich meer betrokken voelen.
De beste TTS voor uw behoeften
Ongeacht je branche kun je gerust zeggen dat voice AI relevant is. En de TTS die je implementeert spreekt letterlijk voor je bedrijf, dus het moet betrouwbaar en aanpasbaar zijn.
Met Botpress kun je krachtige, zeer aanpasbare bots bouwen met een reeks integraties en implementaties voor alle gangbare communicatiekanalen. Je voice agent zal niet alleen indruk maken, hij zal ook werken.
Begin vandaag nog met bouwen. Het is gratis.
FAQs
Zijn er talen of dialecten die TTS-systemen moeilijk ondersteunen?
Ja, er zijn talen en dialecten waar TTS-systemen moeite mee hebben, vooral talen met weinig hulpbronnen die niet beschikken over grote datasets van opgenomen spraak en tekst. Variaties zoals regionale dialecten, tonale talen en inheemse talen vormen vaak een uitdaging omdat ze genuanceerde uitspraakregels en prosodie vereisen waar standaardmodellen niet op getraind zijn. Zelfs bij veel gesproken talen kunnen dialectverschillen leiden tot verkeerde uitspraken of onnatuurlijk klinkende spraak.
Hoe aanpasbaar zijn TTS-stemmen qua toonhoogte, snelheid en emotie?
TTS-stemmen zijn tegenwoordig in hoge mate aanpasbaar in toonhoogte, snelheid en emotie, dankzij moderne neurale netwerkarchitecturen die verfijnde controle over prosodie en stijl mogelijk maken. Met veel commerciële TTS-systemen kunnen gebruikers de spreeksnelheid, intonatiepatronen, het volume en de expressieve toon aanpassen aan verschillende contexten, zoals kalme vertellingen, opgewonden aankondigingen of empathische dialogen. De mate van controle verschilt echter per leverancier - sommige bieden alleen basis schuifregelaars voor snelheid en toonhoogte, terwijl andere gedetailleerde parameters voor emotionele expressie en stemtimbre bieden.
Hoe veilig zijn stemgegevens die verwerkt worden door TTS-systemen?
De beveiliging van spraakgegevens die worden verwerkt door TTS-systemen hangt sterk af van de leverancier en de implementatiemethode. Cloud-gebaseerde TTS-diensten versleutelen gegevens meestal onderweg en in rust, maar het verzenden van gevoelige informatie naar externe servers kan nog steeds privacyrisico's opleveren als er geen goede overeenkomsten en compliance-maatregelen zoals GDPR of HIPAA zijn. On-premises of edge-implementaties bieden een betere beveiliging omdat audio en tekst nooit de infrastructuur van de organisatie verlaten, waardoor derden minder risico lopen.
Hoe duur is het om hoogwaardige TTS-oplossingen voor bedrijven te implementeren?
Het implementeren van hoogwaardige TTS-oplossingen voor bedrijven kan variëren van een paar honderd dollars per maand voor cloudgebaseerde API's met matig gebruik, tot tienduizenden of honderdduizenden voor spraakontwikkeling op maat of bedrijfsimplementaties op locatie. De kosten omvatten meestal licentiekosten, betalen per karakter of betalen per minuut, integratie- en ontwikkelingsinspanningen en mogelijk kosten voor stemtalent bij het maken van een aangepaste stem. Kleine bedrijven beginnen vaak met diensten op abonnementsbasis, terwijl grotere bedrijven kunnen investeren in oplossingen op maat voor merkconsistentie en privacy.
Hoeveel trainingsgegevens zijn er nodig om een TTS-stem van hoge kwaliteit te maken?
Het bouwen van een TTS-stem van hoge kwaliteit vereist meestal enkele uren tot tientallen uren schone, professioneel opgenomen spraak, idealiter van dezelfde spreker en onder consistente opnameomstandigheden. Moderne neurale TTS-systemen zoals Tacotron of FastSpeech kunnen een behoorlijke kwaliteit bereiken met slechts 2-5 uur data, maar om zeer natuurlijke, expressieve en robuuste stemmen te maken is vaak 10-20 uur of meer nodig. Voor het klonen van stemmen of zeer expressieve stemmen zijn nog grotere datasets en diverse opnames van verschillende stijlen, emoties en contexten nodig.