- Tekst-naar-spraak (TTS) zet tekst om in levensechte spraak met behulp van neurale netwerken voor natuurlijke prosodie en stemkwaliteit.
- TTS-pijplijnen verwerken tekst, analyseren taalkundige kenmerken, genereren spectrogrammen en maken audio aan met vocoders.
- TTS wordt gebruikt in chatbots, navigatiesystemen, entertainment, zorgtoepassingen en inclusief onderwijs.
- Hoogwaardige TTS verbetert duidelijkheid, merkstem, toegankelijkheid en gebruikersvertrouwen in verschillende sectoren.
Nederlandse ChatGPT spreekt soms met een Duits accent. Als het expres is, is het gemeen. Als het niet zo is, is het fascinerend.
Hoe dan ook, het is duidelijk dat AI-spraakassistenten een enorme ontwikkeling hebben doorgemaakt sinds Microsofts Sam. Sterker nog, ze zijn flink vooruitgegaan sinds ik een paar jaar geleden spraaktechnologie studeerde.
En ik ben hier om te vertellen waar we nu staan.
We fantaseren al sinds minstens 1968 over gesynthetiseerde spraak, sinds HAL de robot verscheen in 2001: A Space Odyssey.

In plaats van bijzonder en futuristisch te zijn, is het inmiddels standaard geworden: 89% van de consumenten baseert hun keuze voor een apparaat op de aanwezigheid van spraakondersteuning.
Met andere woorden: “Help me niet alleen; praat met me”.
In dit artikel bespreek ik tekst-naar-spraak – de omzetting van tekst naar gesproken audio. Ik leg uit wat er achter de schermen gebeurt en hoe deze technologie in verschillende sectoren wordt toegepast.
Wat is tekst-naar-spraak?
TTS is het proces waarbij tekst wordt omgezet in gesynthetiseerde gesproken audio. Vroege versies waren gebaseerd op mechanische benaderingen van het menselijk spraakkanaal en het aan elkaar plakken van geluidsopnames. Tegenwoordig gebruiken TTS-systemen diepe neurale netwerken om dynamische, mensachtige uitingen te genereren.
Er bestaan verschillende modellen afhankelijk van het gebruik, zoals realtime generatie voor gespreksmodellen, controleerbare expressie en de mogelijkheid om een stem na te bootsen.
Hoe werkt tekst-naar-spraak?
TTS bestaat uit 3 belangrijke stappen: eerst wordt de invoertekst verwerkt om symbolen, uitdrukkingen en afkortingen voluit te schrijven. De verwerkte tekst gaat vervolgens door neurale netwerken die deze omzetten in een akoestische representatie (spectrogram). Tot slot wordt deze representatie omgezet in spraak.
Zoals ik al zei, hebben onderzoekers verschillende benaderingen van TTS geprobeerd. De huidige (en waarschijnlijk blijvende) aanpak gebruikt spraaksynthese op basis van neurale netwerken.
Het modelleren van de lagen van taalkundige verschijnselen die een uiting beïnvloeden – uitspraak, snelheid, intonatie – is een complexe taak.

Zelfs met de bijna magische black-box capaciteiten van neurale netwerken, vertrouwt een TTS-systeem op verschillende onderdelen om spraak te benaderen.
Het is lastig om één exacte pijplijn te benoemen; nieuwe technologieën verschijnen voortdurend en maken hun voorgangers snel overbodig.
Toch zijn er een aantal algemene onderdelen die in de meeste TTS-systemen in een of andere vorm voorkomen.
1. Tekstverwerking
Tekstverwerking is de stap waarin het TTS-systeem bepaalt welke woorden uitgesproken worden. Afkortingen, datums en valutatekens worden voluit geschreven en leestekens worden verwijderd.
Dit is niet altijd eenvoudig. Betekent “Dr.” dokter of drive? En CAD? Canadese dollar of computerondersteund ontwerpen?
Natuurlijke taalverwerking (NLP) kan worden ingezet bij tekstverwerking om de juiste interpretatie te voorspellen op basis van de context. Het beoordeelt hoe de dubbelzinnige term (bijvoorbeeld “Dr.”) in de zin past, zodat in de zin “Dr. Perron raadde het af”, NLP dr. als dokter zou interpreteren.
2. Taalkundige Analyse
Zodra de tekst is verwerkt, verschuift het model van “Wat moet ik zeggen?” naar “Hoe moet ik het zeggen?”
Taalkundige analyse is het deel van TTS dat bepaalt hoe een zin moet worden uitgesproken qua toonhoogte, klankkleur en duur. Met andere woorden:
- Hoe lang moet elk geluid, elke lettergreep of elk woord duren?
- Moet de intonatie stijgen? Dalen?
- Welk woord krijgt de nadruk?
- Hoe kan het volume de bedoelde emotie weergeven?
Waarom prosodie belangrijk is
Verhaal: ik heb kort geadviseerd voor een team dat TTS-modellen bouwde. Het werd al snel duidelijk hoe prosodie het verschil maakt voor de verstaanbaarheid van een zin. Ik zal laten zien wat ik bedoel.
Hieronder staan 3 manieren waarop de zin “Whoa, had je dat verwacht?” kan worden uitgesproken.
De eerste is uitstekend. De pauze na “Whoa”, de stijgende toon op de tweede lettergreep van “expecting” (ex-PEC-ting). 10/10.
De tweede benadert nog net het vragende karakter door op het laatste woord omhoog te gaan (“... expecting THAT”). Verder zijn de lettergrepen ongeveer even lang, zonder variatie in volume of toonhoogte. Ik zou mijn klanten aanraden “opnieuw te beginnen”.
De laatste is een interessant geval: De “whoah” is goed – luid, lang en met een dalende toon. De stijgende toon van de vraag zit verspreid over “were you”, en blijft verder vrijwel gelijk.
Hier stoppen veel doorsnee TTS-systemen: eenvoudig, met een aannemelijke uitspraak. Maar zo zou je het meestal niet zeggen – in elk geval niet in de meeste situaties.
In oudere systemen werden deze eigenschappen voorspeld door aparte onderdelen: één model bepaalde hoe lang elk geluid moest duren, een ander model bepaalde het verloop van de toonhoogte.
Tegenwoordig zijn de grenzen vager.
Neurale netwerken leren deze patronen vaak zelf door de fijne nuances in grote trainingsdatasets te internaliseren.
3. Akoestische Modellering
Bij akoestische modellering wordt de genormaliseerde tekst (en voorspelde taalkundige kenmerken, indien aanwezig) door een neuraal netwerk gehaald dat een tussentijdse representatie oplevert.
Spectrogrammen en spraakrepresentaties
De tussentijdse representatie is meestal een spectrogram – de frequentie-in-de-tijd-weergave van een audiosignaal – al verandert dat tegenwoordig.
Hier is de representatie die een TTS-model genereerde uit onze invoertekst “Whoa, were you expecting that?”:

Deze tweedimensionale afbeelding bestaat uit 146 verticale stroken, elk met 80 frequenties. Sterkere frequenties zijn lichter, zwakkere zijn donker.
Zo ziet de tiende tijdstap (of kolom) eruit, 90 graden naar rechts gedraaid:

Je ziet de afzonderlijke frequenties en hun energie.
Op het eerste gezicht lijkt het spectrogram niet veel te zeggen, maar er zijn duidelijke taalkundige verschijnselen zichtbaar:
- Die duidelijk gedefinieerde lijnen zijn klinkers of klinkerachtige klanken zoals /w/, /r/ en /l/.
- Donkere plekken staan voor stilte. Dat kunnen pauzes zijn voor leestekens.
- Klonten energie bovenin geven ruis aan, zoals het geluid bij /s/, /sh/ en /f/
Je kunt zelfs de woorden in het spectrogram terugvinden als je goed kijkt.

Spectrogrammen, in hun verschillende vormen, zijn veelgebruikte representaties in spraaktechnologie omdat ze een zeer goede tussenstap zijn tussen ruwe spraak en tekst.
Twee opnames van dezelfde zin, uitgesproken door verschillende sprekers, hebben heel verschillende golfvormen, maar zeer vergelijkbare spectrogrammen.
4. Audio synthetiseren (vocoding)
In de synthesefase wordt het spectrogram omgezet in audio.
De technologie die deze conversie uitvoert, wordt een vocoder genoemd. Dit zijn neurale netwerkmodellen die getraind zijn om spraaksignalen te reconstrueren op basis van hun spectrogrammen.
De reden om de representatie en het modelleren van het spraaksignaal in aparte modules te splitsen, draait om controle: de eerste module richt zich op het nauwkeurig modelleren van de uitspraak en levering van woorden, en de volgende op de stijl en realistische weergave van de spraak.
Met een spectrogram kun je onderscheid maken tussen /s/ en /sh/, of /ee/ (zoals in heat) en /ih/ (zoals in hit), maar de stijl en persoonlijkheid komen voort uit de fijne details die door de vocoder worden toegevoegd.
Hier is een vergelijking van combinaties van verschillende akoestische modellen en vocoders. Dit laat zien hoe onderzoekers akoestische modellen en vocoders combineren en optimaliseren voor het beste resultaat.
Maar net als bij de andere componenten zien we dat spectrogrammen steeds vaker worden vervangen door alles-in-één modellen.
Wat zijn de toepassingen van TTS?
De mogelijkheid om dynamisch gesproken taal te genereren is een essentieel hulpmiddel in allerlei sectoren.
Het draait niet alleen om geavanceerde robots – het helpt ons efficiënter, toegankelijker en veiliger te werken.
Chatbots en spraakassistenten
Je wist dat ik dit ging zeggen 😉
Of het nu gaat om het begrijpen van je opdrachten, het bijwerken van je boodschappenlijst of het plannen van afspraken, het is makkelijk om de complexiteit – en het belang – van gesynthetiseerde spraak in AI-agenten als vanzelfsprekend te beschouwen.
Een goede agent (oftewel een bruikbare) moet een stem hebben die past: uitnodigend genoeg om opdrachten te ontvangen, en menselijk genoeg om vertrouwen te wekken dat deze uitgevoerd worden.
Er gaat veel onderzoek en techniek schuil in het overtuigen van gebruikers in die fractie van een seconde waarin ze beslissen of een AI-assistent ‘goed’ klinkt.
Zakelijk gezien vertegenwoordigt je chatbot je merk. Verbeteringen in TTS-technologie bieden meer mogelijkheden voor stembranding en effectievere klantenservice.
Navigatie en vervoer
Niets laat je het belang van goede TTS zo beseffen als een GPS die een straatnaam onverstaanbaar uitspreekt terwijl je aan het rijden bent.
GPS-navigatie is een goed voorbeeld van waar TTS uitblinkt: onze ogen zijn bezet, en hoorbare informatie is niet alleen handig, maar ook belangrijk voor de veiligheid.
Dit geldt ook voor luchthavens en het openbaar vervoer. In complexe, drukke systemen zoals treinstations en luchthaventerminals is gesynthetiseerde spraak onmisbaar.
Zonder TTS zijn we afhankelijk van live omroepen, die vaak gehaast en onduidelijk zijn, of van aan elkaar geplakte opnames van namen, terminals, tijden, enzovoort, die lastig te volgen zijn.
Omdat onderzoek een duidelijk verband tussen natuurlijkheid en verstaanbaarheid aantoont, is hoogwaardige TTS essentieel voor een sterke transportsector.
Entertainment en media
Vertellingen en meertalige media zijn toegankelijker geworden dankzij verbeteringen in synthetische spraaktechnologie.
Spraaktechnologie vervangt talent niet, maar versterkt juist dramatische prestaties.
Val Kilmer, die zijn stem verloor door keelkanker, kon dankzij AI in Top Gun: Maverick (2022) toch zijn eigen stem laten horen.
TTS stelt gamedevelopers ook in staat om niet-speelbare personages (NPC’s) diverse en expressieve uitingen te geven, wat anders niet haalbaar zou zijn.
Zorg
Verbeteringen in TTS zorgen voor meer toegankelijkheid op alle vlakken.
Zorgtechnologie voor ouderen pakt gezelschap en ondersteuning tegelijk aan. Deze technologie maakt gebruik van de aanpasbaarheid van TTS: meelevende toon, variabele snelheid en zorgvuldige intonatie dragen bij aan effectieve en waardige hulp.
TTS wordt ook ingezet om de toegankelijkheid voor jongeren te vergroten.
Acapela Group ontwikkelt onder andere technologieën voor kinderen met spraakproblemen. Synthetische spraak vergroot hun expressiemogelijkheden en zelfstandigheid, terwijl hun eigen stemkenmerken behouden blijven.
Onderwijs en inclusief leren
We zijn synthetische spraak tegengekomen in taalleer-apps. Maar dat is slechts het topje van de ijsberg.
Een drempel bij zelfstandig leren is kunnen lezen. Voor kinderen, mensen met een visuele beperking of bepaalde leerstoornissen is dat niet altijd mogelijk. Dit legt veel druk op overbelaste leraren in volle klassen.
Een schooldistrict in Californië heeft TTS geïmplementeerd om een inclusievere leeromgeving te creëren voor leerlingen met speciale behoeften.
Net als bij ouderenzorg is het bij educatieve technologie belangrijk dat stemmen duidelijk en met de juiste nadruk spreken. Dankzij instelbare parameters kunnen leraren deze technologieën integreren in hun lessen, waardoor leerlingen zich meer betrokken voelen.
Kies de beste TTS voor jouw situatie
Welke sector je ook bedient, spraak-AI is relevant. En de TTS die je gebruikt, spreekt letterlijk namens je bedrijf, dus die moet betrouwbaar en aanpasbaar zijn.
Met Botpress bouw je krachtige, zeer aanpasbare bots met een breed scala aan integraties en inzetmogelijkheden op alle gangbare communicatiekanalen. Je spraakagent maakt niet alleen indruk, maar werkt ook echt.
Begin vandaag nog met bouwen. Het is gratis.
Veelgestelde vragen
Zijn er talen of dialecten die moeilijk ondersteund worden door TTS-systemen?
Ja, er zijn talen en dialecten die TTS-systemen moeilijk kunnen ondersteunen, vooral talen met weinig beschikbare data, zoals regionale dialecten, toontalen en inheemse talen. Deze vereisen vaak genuanceerde uitspraakregels en prosodie die standaardmodellen niet kennen. Zelfs bij veel gesproken talen kunnen dialectverschillen leiden tot verkeerde uitspraak of onnatuurlijke spraak.
Hoe aanpasbaar zijn TTS-stemmen wat betreft toonhoogte, snelheid en emotie?
TTS-stemmen zijn tegenwoordig sterk aanpasbaar in toonhoogte, snelheid en emotie, dankzij moderne neurale netwerken die nauwkeurige controle over prosodie en stijl mogelijk maken. Veel commerciële TTS-systemen laten gebruikers het spreektempo, intonatie, volume en expressieve toon aanpassen aan verschillende situaties, zoals rustige vertellingen, enthousiaste aankondigingen of empathische dialogen. De mate van controle verschilt per aanbieder: sommige bieden alleen eenvoudige schuifjes voor snelheid en toonhoogte, anderen geven toegang tot gedetailleerde parameters voor emotie en klankkleur.
Hoe veilig is spraakdata die door TTS-systemen wordt verwerkt?
De veiligheid van spraakdata die door TTS-systemen wordt verwerkt, hangt sterk af van de aanbieder en de manier van implementatie. Cloudgebaseerde TTS-diensten versleutelen doorgaans data tijdens verzending en opslag, maar het versturen van gevoelige informatie naar externe servers kan privacyrisico’s opleveren als er geen goede afspraken of naleving van bijvoorbeeld GDPR of HIPAA zijn. On-premises of edge-implementaties bieden meer veiligheid omdat audio en tekst het eigen netwerk niet verlaten en dus minder blootstaan aan derden.
Hoe duur is het om hoogwaardige TTS-oplossingen voor bedrijven te implementeren?
Het implementeren van hoogwaardige TTS-oplossingen voor bedrijven varieert van enkele honderden dollars per maand voor cloud-API’s bij gemiddeld gebruik, tot tientallen of honderden duizenden dollars voor maatwerkstemmen of enterprise-implementaties op locatie. De kosten bestaan meestal uit licentiekosten, betalen per karakter of minuut, integratie- en ontwikkelingskosten en eventueel vergoedingen voor stemacteurs bij maatwerkstemmen. Kleine bedrijven starten vaak met abonnementsdiensten, terwijl grotere organisaties investeren in maatwerkoplossingen voor merkconsistentie en privacy.
Hoeveel trainingsdata is er nodig om een hoogwaardige TTS-stem te bouwen?
Voor het bouwen van een hoogwaardige TTS-stem zijn meestal enkele tot tientallen uren aan schone, professioneel opgenomen spraak nodig, bij voorkeur van dezelfde spreker en onder consistente opnameomstandigheden. Moderne neurale TTS-systemen zoals Tacotron of FastSpeech kunnen al redelijke kwaliteit leveren met 2–5 uur data, maar voor zeer natuurlijke, expressieve en robuuste stemmen is vaak 10–20 uur of meer vereist. Voor stemklonen of zeer expressieve stemmen zijn nog grotere datasets en diverse opnames in verschillende stijlen, emoties en contexten nodig.





.webp)
