- Il text-to-speech (TTS) converte il testo in un parlato realistico utilizzando reti neurali per una prosodia naturale e una qualità della voce.
- Le pipeline TTS elaborano il testo, analizzano la linguistica, generano spettrogrammi e sintetizzano l'audio con i vocoder.
- Il TTS alimenta chatbot, sistemi di navigazione, intrattenimento, strumenti sanitari e istruzione inclusiva.
- Un TTS di alta qualità migliora la chiarezza, la voce del marchio, l'accessibilità e la fiducia degli utenti in tutti i settori.
ChatGPT olandeseparla con accento tedesco (a volte). Se lo fa di proposito, è meschino. Se non lo fa, è affascinante.
In ogni caso, si può dire che gli assistenti vocali AI hanno fatto molta strada rispetto a Sam di Microsoft. Anzi, ne hanno fatta di strada da quando ho studiato tecnologia vocale qualche anno fa.
E sono qui per raccontarvi dove siamo arrivati.
Abbiamo mitizzato il linguaggio sintetico almeno dal 1968, da quando è apparso il robot HAL in 2001: Odissea nello spazio.

Lungi dall'essere prestigioso e futuristico, è diventato uno standard: l'89% dei consumatori condiziona la scelta del dispositivo alla presenza o meno del supporto vocale.
In altre parole, "non limitatevi ad aiutarmi, parlatemi".
In questo articolo parleremo del text-to-speech, la conversione del testo in audio parlato. Parleremo di ciò che avviene sotto le quinte e dei diversi modi in cui questa tecnologia viene utilizzata nei vari settori.
Che cos'è la sintesi vocale?
Il TTS è il processo di conversione del testo in audio parlato sintetizzato. Le prime versioni si basavano sull'approssimazione meccanica del tratto vocale umano e sull'assemblaggio di registrazioni audio. Oggi i sistemi TTS utilizzano algoritmi di reti neurali profonde per produrre enunciati dinamici e simili a quelli umani.
Esistono diversi modelli a seconda del caso d'uso, come la generazione in tempo reale per i modelli di conversazione, l'espressione controllabile e la capacità di replicare una voce.
Come funziona la sintesi vocale?
Il TTS si articola in 3 fasi fondamentali: innanzitutto, il testo in ingresso viene elaborato in modo da comporre simboli, espressioni e abbreviazioni. Il testo elaborato passa poi attraverso reti neurali che lo convertono in una rappresentazione acustica (spettrogramma). Infine, la rappresentazione viene trasformata in parlato.
Come ho già detto, i ricercatori hanno adottato diversi approcci al TTS. Quello a cui siamo approdati (e in cui credo che resteremo per qualche tempo) utilizza la sintesi vocale basata sulle reti neurali.
Modellare gli strati di fenomeni linguistici che influenzano un enunciato - pronuncia, velocità, intonazione - è un compito impegnativo.

Anche con le capacità quasi magiche di black-box delle reti neurali, un sistema TTS si basa su un insieme di componenti per approssimare il parlato.
È difficile individuare una pipeline precisa; le nuove tecnologie spuntano a destra e a manca, minacciando di rendere obsoleti i loro predecessori.
Esistono alcuni componenti generali che, in una forma o nell'altra, sono presenti nella maggior parte dei sistemi TTS.
1. Elaborazione del testo
L'elaborazione del testo è la fase in cui il sistema TTS determina quali parole verranno pronunciate. Le abbreviazioni, le date e i simboli di valuta vengono scritti e la punteggiatura viene eliminata.
Non sempre si tratta di cose banali. "Dr." significa dottore o guida? E CAD? Dollaro canadese o progettazione assistita da computer?
L'elaborazione del linguaggio naturale(NLP) può essere impiegata nell'elaborazione dei testi per aiutare a prevedere l'interpretazione corretta in base al contesto circostante. L'NLP valuta come il termine ambiguo (ad esempio, "Dr.") si inserisce nella frase nel suo complesso, per cui nella frase "Il Dr. Perron lo sconsiglia", l'NLP risolve dr. in doctor.
2. Analisi linguistica
Una volta elaborato il testo, il modello si sposta da "Cosa devo dire?" a "Come devo dirlo?".
L'analisi linguistica è la parte del TTS responsabile dell'interpretazione di come una frase dovrebbe essere pronunciata in termini di intonazione, tono e durata. In altre parole:
- Quanto deve essere lungo ogni suono, sillaba o parola?
- L'intonazione deve aumentare? Cadere?
- Quale parola viene enfatizzata?
- In che modo il cambiamento di volume può riflettere l'emozione desiderata?
Perché la prosodia è importante
La storia: Ho avuto un breve incarico di consulenza per un team che costruiva modelli TTS. È emerso quanto la prosodia renda o meno intelligibile una frase. Vi mostro cosa intendo.
Di seguito sono riportate 3 consegne della frase "Wow, te lo aspettavi?".
Il primo è fantastico. La pausa dopo "Whoa", l'inflessione verso l'alto sulla seconda sillaba di "expecting" (ex-PEC-ting). 10/10.
La seconda cattura appena la qualità della domanda con un'inflessione verso l'alto sull'ultima parola ("... aspettandosi CHE"). A parte questo, il resto delle sillabe è più o meno della stessa lunghezza, senza variazioni di volume o di tono. Direi ai miei clienti di "passare al tavolo da disegno".
L'ultimo è un caso interessante: Il "whoah" è fantastico: forte, lungo e con un contorno discendente. L'inflessione crescente della domanda avviene nel corso di "eri", e in pratica mantiene un'intonazione costante per tutto il tempo.
È qui che si fermano molti sistemi TTS di fascia media: abbastanza semplici e con una pronuncia plausibile. Il fatto è che non è come lo direste voi, almeno non nella maggior parte dei contesti.
Nei sistemi più vecchi, queste qualità erano previste da componenti separati: un modello calcolava la durata di ogni suono, un altro tracciava il modo in cui l'altezza doveva salire e scendere.
Oggi le cose sono più confuse.
Le reti neurali tendono ad apprendere questi schemi da sole, interiorizzando le sottili sottigliezze di enormi serie di dati di allenamento.
3. Modellazione acustica
La modellazione acustica consiste nel far passare il testo normalizzato (e le eventuali caratteristiche linguistiche previste) attraverso una rete neurale che produce una rappresentazione intermedia.
Spettrogrammi e rappresentazioni del parlato
La rappresentazione intermedia è di solito uno spettrogramma, ovvero la rappresentazione della frequenza nel tempo di un segnale audio, anche se la situazione sta cambiando.
Ecco la rappresentazione generata da un modello TTS a partire dal nostro testo di input "Whoa, te lo aspettavi?":

Questa immagine bidimensionale è in realtà costituita da 146 fette verticali, ciascuna contenente 80 frequenze. Le frequenze più forti sono più chiare e quelle più deboli sono più scure.
Ecco come appare il decimo passo temporale (o colonna), ruotato di 90 gradi verso destra:

È possibile vedere le singole frequenze e le loro energie.
A prima vista lo spettrogramma non sembra molto, ma sono presenti alcuni chiari fenomeni linguistici:
- Quelle onde chiaramente definite sono vocali o suoni simili a vocali come /w/, /r/ e /l/.
- I punti scuri rappresentano il silenzio. Potrebbero essere pause per la punteggiatura.
- Gli ammassi di energia in alto rappresentano il rumore, come quello che si sente in /s/, /sh/ e /f/.
In effetti, se si osserva attentamente, è possibile allineare le parole nello spettrogramma.

Gli spettrogrammi, nelle loro varie forme, sono rappresentazioni ampiamente utilizzate nella tecnologia vocale perché sono un ottimo intermediario tra il parlato grezzo e il testo.
Due registrazioni della stessa frase pronunciata da parlanti diversi avranno forme d'onda molto diverse, ma spettrogrammi molto simili.
4. Sintetizzare l'audio (Vocoding)
La fase di sintesi è quella in cui lo spettrogramma viene convertito in audio.
La tecnologia che effettua questa conversione si chiama vocoder. Si tratta di modelli di rete neurale addestrati a ricostruire i segnali vocali sulla base delle loro rappresentazioni dello spettrogramma.
La ragione per cui la rappresentazione e la modellazione del segnale vocale sono state suddivise in moduli separati è il controllo: il primo riguarda la modellazione accurata della pronuncia e dell'emissione delle parole, mentre il secondo riguarda lo stile e la realisticità dell'emissione.
Con uno spettrogramma possiamo distinguere tra /s/ e /sh/, o /ee/ (come in heat) e /ih/ (come in hit), ma lo stile e la personalità derivano dai dettagli sottili prodotti dal vocoder.
Ecco un confronto di combinazioni tra diversi modelli acustici e vocoder. Illustra come i ricercatori mescolano e abbinano modelli acustici e vocoder e ottimizzano per ottenere il miglior risultato complessivo.
Ma anche in questo caso, come per tutti gli altri componenti, stiamo assistendo all'abbandono degli spettrogrammi a favore di modelli all-in-one.
Quali sono i casi d'uso del TTS?
La capacità di generare un linguaggio parlato dinamico è uno strumento essenziale in tutti i settori.
Non si tratta solo di sofisticati servitori robotici: ci aiuta a raggiungere efficienza, accessibilità e sicurezza.
Chatbot e assistenti vocali
Sapevi che l'avrei detto 😉
Tra la comprensione dei comandi, l'aggiornamento della lista della spesa e l'impostazione degli appuntamenti, è facile dare per scontata la sofisticatezza e l'importanza del linguaggio sintetizzato negli agenti AI.
Un buon agente (cioè un agente utilizzabile ) deve avere una voce che corrisponda alla realtà: abbastanza accogliente da sollecitare i comandi e abbastanza umana da far credere all'utente di poterli eseguire.
La ricerca e l'ingegnerizzazione sono molto importanti per conquistare gli utenti nella frazione di secondo necessaria per decidere se un assistente AI suona "giusto" o meno.
Dal punto di vista commerciale, il chatbot rappresenta il vostro marchio. I miglioramenti della tecnologia TTS consentono di migliorare il branding vocale e di rendere più efficace il servizio clienti.
Intrattenimento e media
La narrazione e i media multilingue sono diventati più disponibili grazie ai miglioramenti della tecnologia vocale sintetica.
Piuttosto che sostituire il talento, la tecnologia vocale aiuta ad aumentare le performance drammatiche.
Val Kilmer, dopo aver perso la voce a causa di un tumore alla gola, ha fornito una sentita interpretazione con la sua voce originale in Top Gun: Maverick (2022) grazie all'intelligenza artificiale.
Il TTS consente inoltre agli sviluppatori di giochi di dare voce a personaggi non giocabili (PNG) in modo diverso ed espressivo, un'impresa altrimenti impossibile.
Assistenza sanitaria
I miglioramenti nel TTS significano miglioramenti nell'accessibilità in generale.
Le tecnologie per l'assistenza agli anziani affrontano contemporaneamente la questione della compagnia e dell'assistenza. Questa tecnologia si basa sulla personalizzazione offerta dal TTS: toni compassionevoli, velocità variabili e intonazione attenta sono tutti elementi che contribuiscono a offrire un'assistenza efficace e dignitosa.
Il TTS viene utilizzato anche per migliorare l'accessibilità dei più giovani.
Acapela Group sviluppa, tra l'altro, tecnologie per bambini con disturbi della produzione vocale. Il parlato sintetico aumenta le capacità espressive e l'indipendenza dei bambini, preservando le loro caratteristiche vocali.
Educazione e apprendimento inclusivo
Abbiamo incontrato il parlato sintetico nelle app per l'apprendimento delle lingue. Ma questa è solo la punta dell'iceberg.
Per esempio, una barriera d'ingresso nell'apprendimento indipendente è la capacità di leggere. Per i bambini, le persone con disabilità visive e alcuni disturbi dell'apprendimento, questo non è necessariamente possibile. Questo comporta un notevole carico di lavoro per gli insegnanti in classi sovraffollate.
Un distretto scolastico della California ha implementato le TTS per creare un ambiente di apprendimento più inclusivo per gli studenti con esigenze speciali.
Proprio come nel caso dell'assistenza agli anziani, la tecnologia educativa si affida a voci compassionevoli che trasmettono con chiarezza ed enfasi incontaminate. I parametri modificabili consentono agli insegnanti di integrare queste tecnologie nelle loro lezioni, aiutando gli studenti a sentirsi più inclusi.
Ottenete il miglior TTS per le vostre esigenze
Indipendentemente dal settore in cui operate, l'intelligenza artificiale vocale è sempre più importante. E il TTS che implementate parla letteralmente per la vostra azienda, quindi deve essere affidabile e personalizzabile.
Botpress consente di creare bot potenti e altamente personalizzabili con una suite di integrazioni e di distribuzione su tutti i canali di comunicazione più comuni. Il vostro agente vocale non solo impressionerà, ma funzionerà.
Iniziate a costruire oggi stesso. È gratuito.
Domande frequenti
Ci sono lingue o dialetti che i sistemi TTS faticano a supportare?
Sì, ci sono lingue e dialetti che i sistemi TTS faticano a supportare, soprattutto le lingue a basse risorse che non dispongono di ampie serie di dati di parlato e testo registrati. Varianti come i dialetti regionali, le lingue tonali e le lingue indigene rappresentano spesso una sfida, perché richiedono regole di pronuncia e prosodia sfumate su cui i modelli standard non sono stati addestrati. Anche per le lingue ampiamente parlate, le differenze dialettali possono portare a errori di pronuncia o a un suono innaturale del parlato.
Quanto sono personalizzabili le voci TTS in termini di intonazione, velocità ed emozione?
Oggi le voci TTS sono altamente personalizzabili in termini di intonazione, velocità ed emozione, grazie alle moderne architetture di rete neurale che consentono un controllo a grana fine sulla prosodia e sullo stile. Molti sistemi TTS commerciali consentono agli utenti di regolare la velocità di parola, i modelli di intonazione, il volume e il tono espressivo per adattarsi a diversi contesti, come una narrazione calma, annunci eccitati o un dialogo empatico. Tuttavia, il grado di controllo varia da fornitore a fornitore: alcuni offrono solo cursori di base per la velocità e l'intonazione, mentre altri espongono parametri dettagliati per l'espressione emotiva e il timbro vocale.
Quanto sono sicuri i dati vocali elaborati dai sistemi TTS?
La sicurezza dei dati vocali elaborati dai sistemi TTS dipende in larga misura dal fornitore e dal metodo di implementazione. I servizi TTS basati sul cloud di solito crittografano i dati in transito e a riposo, ma l'invio di informazioni sensibili a server esterni può comunque comportare rischi per la privacy se non sono in vigore accordi adeguati e misure di conformità come il GDPR o l'HIPAA. Le implementazioni on-premise o edge garantiscono una maggiore sicurezza perché l'audio e il testo non lasciano mai l'infrastruttura dell'organizzazione, riducendo l'esposizione a terzi.
Quanto è costoso implementare soluzioni TTS di alta qualità per le aziende?
L'implementazione di soluzioni TTS di alta qualità per le aziende può variare da poche centinaia di dollars al mese per le API basate su cloud con un uso moderato, a decine o centinaia di migliaia per lo sviluppo di voci personalizzate o per le implementazioni aziendali on-premise. I costi comprendono in genere le licenze, i costi di utilizzo a pagamento per carattere o per minuto, gli sforzi di integrazione e di sviluppo ed eventualmente i compensi per i talenti vocali se si crea una voce personalizzata. Le piccole imprese spesso iniziano con servizi in abbonamento, mentre le aziende più grandi possono investire in soluzioni personalizzate per garantire la coerenza del marchio e la privacy.
Quanti dati di addestramento sono necessari per creare una voce TTS di alta qualità?
La costruzione di una voce TTS di alta qualità richiede solitamente da diverse ore a decine di ore di parlato pulito e registrato professionalmente, idealmente dallo stesso oratore e in condizioni di registrazione costanti. I moderni sistemi TTS neurali, come Tacotron o FastSpeech, possono raggiungere una qualità decente con appena 2-5 ore di dati, ma per ottenere voci altamente naturali, espressive e robuste sono spesso necessarie 10-20 ore o più. Per la clonazione vocale o per voci molto espressive, sono necessari set di dati ancora più grandi e registrazioni diverse che coprano vari stili, emozioni e contesti.