- La synthèse vocale (TTS) convertit le texte en une parole réaliste à l'aide de réseaux neuronaux pour une prosodie naturelle et une qualité vocale.
- Les pipelines TTS traitent le texte, analysent la linguistique, génèrent des spectrogrammes et synthétisent l'audio à l'aide de vocodeurs.
- Le TTS alimente les chatbots, les systèmes de navigation, les divertissements, les outils de soins de santé et l'éducation inclusive.
- Un TTS de haute qualité améliore la clarté, la voix de la marque, l'accessibilité et la confiance des utilisateurs dans tous les secteurs d'activité.
Dutch ChatGPT parle avec un accent allemand (parfois). Si c'est fait exprès, c'est méchant. Si ce n'est pas le cas, c'est fascinant.
Quoi qu'il en soit, on peut dire que les assistants vocaux ont beaucoup évolué depuis le Sam de Microsoft. En fait, ils ont parcouru un long chemin depuis que j'ai étudié la technologie vocale il y a quelques années.
Et je suis ici pour vous parler de l'endroit où nous avons atterri.
Nous mythifions la parole synthétisée depuis au moins 1968, depuis l'apparition du robot HAL dans 2001 : l'Odyssée de l'espace.

Loin d'être prestigieuse et futuriste, elle est devenue la norme : 89 % des consommateurs conditionnent le choix de leur appareil à la présence ou non d'un support vocal.
En d'autres termes, "Ne vous contentez pas de m'aider, parlez-moi".
Dans cet article, je parlerai de la synthèse vocale, c'est-à-dire de la conversion d'un texte en son parlé. Je parlerai de ce qui se passe sous le capot et des différentes façons dont cette technologie est utilisée dans les différents secteurs d'activité.
Qu'est-ce que la synthèse vocale ?
Le TTS est le processus de conversion d'un texte en audio parlé synthétisé. Les premières versions étaient basées sur une approximation mécanique du conduit vocal humain et sur l'assemblage d'enregistrements audio. Aujourd'hui, les systèmes TTS utilisent des algorithmes de réseaux neuronaux profonds pour produire des énoncés dynamiques, semblables à ceux d'un être humain.
Différents modèles existent en fonction du cas d'utilisation, tels que la génération en temps réel pour les modèles conversationnels, l'expression contrôlable et la capacité de reproduire une voix.
Quels sont les cas d'utilisation du TTS ?
La capacité à générer un langage parlé dynamique est un outil essentiel dans tous les secteurs d'activité.
Il ne s'agit pas seulement de serviteurs robotiques sophistiqués - ils nous aident à atteindre l'efficacité, l'accessibilité et la sécurité.
Chatbots et assistants vocaux
Vous saviez que j'allais le dire 😉
Entre la compréhension de vos commandes, la mise à jour de vos listes de courses et la prise de rendez-vous, il est facile de prendre pour acquis la sophistication - et l'importance - de la synthèse vocale des agents d'intelligence artificielle.
Un bon agent (c'est-à-dire un agent utilisable ) doit avoir une voix qui corresponde à ce que l'on attend de lui : suffisamment accueillante pour solliciter des commandes, et suffisamment humaine pour que l'utilisateur croie qu'elle peut les exécuter.
De nombreux travaux de recherche et d'ingénierie sont nécessaires pour convaincre les utilisateurs pendant la fraction de seconde qui leur est nécessaire pour décider si un assistant d'intelligence artificielle leur convient ou non.
D'un point de vue commercial, votre chatbot représente votre marque. Les améliorations apportées à la technologie TTS permettent d'améliorer l'image de marque de la voix et d'offrir un service client plus efficace.
Divertissement et médias
La narration et les médias multilingues sont devenus plus accessibles grâce aux améliorations apportées à la technologie de la parole synthétique.
Plutôt que de remplacer le talent, la technologie vocale permet d'améliorer les performances dramatiques.
Val Kilmer, qui a perdu sa voix à cause d'un cancer de la gorge, a livré une performance sincère avec sa voix originale dans Top Gun : Maverick (2022) grâce à l'IA.
Les TTS permettent également aux développeurs de jeux de donner des expressions variées et expressives à des personnages non jouables (PNJ), ce qui serait autrement impossible.
Soins de santé
Les améliorations apportées au TTS sont synonymes d'amélioration de l'accessibilité dans tous les domaines.
Les technologies de soins aux personnes âgées s'attaquent simultanément à la question de la compagnie et de l'assistance. Cette technologie s'appuie sur les possibilités de personnalisation qu'offre le TTS : tonalités compatissantes, vitesses variables et intonation soignée sont autant d'éléments qui permettent d'offrir une assistance efficace et digne.
Le TTS est également utilisé pour améliorer l'accessibilité des jeunes.
Acapela Group développe, entre autres, des technologies pour les enfants souffrant de troubles de la production de la parole. La parole synthétique augmente leurs capacités d'expression et leur autonomie, tout en préservant leurs caractéristiques vocales.
Éducation et apprentissage inclusif
Nous avons déjà rencontré la parole synthétique dans des applications d'apprentissage des langues. Mais ce n'est que la partie émergée de l'iceberg.
Par exemple, l'une des barrières à l'entrée de l'apprentissage autonome est la capacité à lire. Pour les enfants, les personnes souffrant de déficiences visuelles et de certains troubles de l'apprentissage, cela n'est pas nécessairement possible. Cette situation fait peser une lourde charge sur les enseignants surchargés de travail dans des classes surchargées.
Un district scolaire de Californie a mis en place le TTS afin de créer un environnement d'apprentissage plus inclusif pour les élèves ayant des besoins particuliers.
Comme dans le cas des soins aux personnes âgées, la technologie éducative repose sur des voix compatissantes qui s'expriment avec une clarté et une emphase irréprochables. Des paramètres modifiables permettent aux enseignants d'intégrer ces technologies dans leurs cours et d'aider les élèves à se sentir mieux intégrés.
Obtenez le meilleur TTS pour vos besoins
Quel que soit votre secteur d'activité, on peut affirmer sans risque de se tromper que l'IA vocale est d'actualité. Et le TTS que vous mettez en œuvre parle littéralement pour votre entreprise, il doit donc être fiable et personnalisable.
Botpress vous permet de construire des bots puissants et hautement personnalisables avec une suite d'intégrations et un déploiement sur tous les canaux de communication courants. Votre agent vocal ne fera pas qu'impressionner, il fonctionnera.
Commencez à construire dès aujourd'hui. C'est gratuit.
FAQ
Existe-t-il des langues ou des dialectes que les systèmes TTS ont du mal à prendre en charge ?
Oui, il existe des langues et des dialectes que les systèmes TTS ont du mal à prendre en charge, en particulier les langues à faibles ressources qui ne disposent pas de vastes ensembles de données de discours et de textes enregistrés. Les variations telles que les dialectes régionaux, les langues tonales et les langues indigènes posent souvent des problèmes car elles nécessitent des règles de prononciation et une prosodie nuancées sur lesquelles les modèles standard n'ont pas été formés. Même pour les langues largement parlées, les différences dialectales peuvent entraîner des erreurs de prononciation ou des sons non naturels.
Dans quelle mesure les voix TTS sont-elles personnalisables en termes de hauteur, de vitesse et d'émotion ?
Les voix TTS sont aujourd'hui hautement personnalisables en termes de hauteur, de vitesse et d'émotion, grâce à des architectures de réseaux neuronaux modernes qui permettent un contrôle fin de la prosodie et du style. De nombreux systèmes TTS commerciaux permettent aux utilisateurs d'ajuster le débit de parole, les modèles d'intonation, le volume et le ton expressif pour s'adapter à différents contextes, tels qu'une narration calme, des annonces enthousiastes ou un dialogue empathique. Toutefois, le degré de contrôle varie d'un fournisseur à l'autre : certains ne proposent que des curseurs de base pour la vitesse et la hauteur, tandis que d'autres exposent des paramètres détaillés pour l'expression émotionnelle et le timbre vocal.
Quel est le degré de sécurité des données vocales traitées par les systèmes TTS ?
La sécurité des données vocales traitées par les systèmes TTS dépend fortement du fournisseur et de la méthode de déploiement. Les services TTS basés sur le cloud cryptent généralement les données en transit et au repos, mais l'envoi d'informations sensibles à des serveurs externes peut toujours poser des risques pour la vie privée si des accords appropriés et des mesures de conformité comme GDPR ou HIPAA ne sont pas en place. Les déploiements sur site ou en périphérie offrent une plus grande sécurité car l'audio et le texte ne quittent jamais l'infrastructure de l'organisation, ce qui réduit l'exposition à des tiers.
Quel est le coût de la mise en œuvre de solutions TTS de haute qualité pour les entreprises ?
La mise en œuvre de solutions TTS de haute qualité pour les entreprises peut aller de quelques centaines de dollars par mois pour des API basées sur le cloud avec une utilisation modérée, à des dizaines ou des centaines de milliers pour le développement de voix personnalisées ou des déploiements d'entreprise sur site. Les coûts comprennent généralement les frais de licence, les frais d'utilisation par caractère ou par minute, les efforts d'intégration et de développement, et éventuellement les frais d'un interprète pour la création d'une voix personnalisée. Les petites entreprises commencent souvent par des services par abonnement, tandis que les grandes entreprises peuvent investir dans des solutions sur mesure pour assurer la cohérence de la marque et la protection de la vie privée.
Combien de données d'entraînement sont nécessaires pour créer une voix TTS de haute qualité ?
La création d'une voix TTS de haute qualité nécessite généralement plusieurs heures, voire des dizaines d'heures, de parole propre et enregistrée de manière professionnelle, idéalement par le même locuteur et dans des conditions d'enregistrement cohérentes. Les systèmes de TTS neuronaux modernes tels que Tacotron ou FastSpeech peuvent atteindre une qualité décente avec seulement 2 à 5 heures de données, mais l'obtention de voix très naturelles, expressives et robustes nécessite souvent 10 à 20 heures ou plus. Pour le clonage de voix ou les voix très expressives, des ensembles de données encore plus importants et des enregistrements diversifiés couvrant différents styles, émotions et contextes sont nécessaires.
Comment fonctionne la synthèse vocale ?
Le TTS comporte trois étapes clés : tout d'abord, le texte d'entrée est traité pour épeler les symboles, les expressions et les abréviations. Le texte traité passe ensuite par des réseaux neuronaux qui le convertissent en une représentation acoustique (spectrogramme). Enfin, la représentation est transformée en parole.
Comme je l'ai mentionné, les chercheurs ont adopté un certain nombre d'approches en matière de TTS. Celle sur laquelle nous avons atterri (et sur laquelle je pense que nous resterons pendant un certain temps) utilise la synthèse vocale basée sur les réseaux neuronaux.
La modélisation des couches de phénomènes linguistiques qui influencent un énoncé - prononciation, vitesse, intonation - est une tâche complexe.
Même avec les capacités quasi magiques des réseaux neuronaux, un système TTS s'appuie sur un ensemble de composants pour obtenir une approximation de la parole.
Il est difficile d'identifier une filière précise ; de nouvelles technologies apparaissent à tout bout de champ, menaçant de rendre leurs prédécesseurs obsolètes.
Il existe quelques composants généraux qui sont présents dans la plupart des systèmes TTS sous une forme ou une autre.
1. Traitement de texte
Le traitement du texte est l'étape au cours de laquelle le système TTS détermine les mots qui seront prononcés. Les abréviations, les dates et les symboles monétaires sont épelés et la ponctuation est éliminée.
Ce n'est pas toujours anodin.Dr." signifie-t-il " docteur " ou " chauffeur" ? Et CAD? Dollar canadien ou conception assistée par ordinateur?
Le traitement du langage naturel(NLP) peut être utilisé dans le traitement de texte pour aider à prédire l'interprétation correcte en fonction du contexte environnant. Il évalue la manière dont le terme ambigu (par exemple, "Dr.") s'intègre dans la phrase dans son ensemble. Ainsi, dans la phrase "Dr. Perron l'a déconseillé", le NLP résoudrait dr. en doctor.
2. Analyse linguistique
Une fois le texte traité, le modèle passe de "Que dois-je dire ?" à "Comment dois-je le dire ?".
L'analyse linguistique est la partie du TTS chargée d'interpréter la manière dont une phrase doit être prononcée en termes de hauteur, de ton et de durée. En d'autres termes :
L'importance de la prosodie
Un peu d'histoire : J'ai travaillé brièvement comme consultant pour une équipe qui construisait des modèles TTS. Je me suis rendu compte à quel point la prosodie pouvait influencer l'intelligibilité d'une phrase. Je vais vous montrer ce que je veux dire.
Voici 3 livraisons de la phrase "Whoa, tu t'attendais à ça ?".
La première est excellente. La pause après "Whoa", l'inflexion vers le haut sur la deuxième syllabe de "expecting" (ex-PEC-ting). 10/10.
La seconde rend à peine la qualité de la question en s'infléchissant vers le haut sur le dernier mot ("... s'attendant à CELA"). À part cela, les autres syllabes sont plus ou moins de la même longueur, sans variation de volume ou de hauteur. Je dirais à mes clients de "passer à la planche à dessin".
Le dernier est un cas intéressant : Le "whoah" est excellent - fort, long et avec un contour descendant. L'inflexion ascendante de la question se produit au cours de "were you", et la tonalité reste stable tout au long de la phrase.
C' est là que s'arrêtent de nombreux systèmes TTS de qualité moyenne : ils sont assez simples et leur prononciation est plausible. Le problème, c'est que ce n'est pas comme cela que vous le diriez, du moins pas dans la plupart des contextes.
Dans les systèmes plus anciens, ces qualités étaient prédites par des composants distincts : un modèle calculait la durée de chaque son, un autre déterminait la façon dont la hauteur devait monter et descendre.
Aujourd'hui, les choses sont plus floues.
Les réseaux neuronaux ont tendance à apprendre ces modèles par eux-mêmes en intériorisant les subtilités fines d'ensembles de données d'apprentissage massifs.
3. Modélisation acoustique
La modélisation acoustique consiste à faire passer le texte normalisé (et les caractéristiques linguistiques prédites, le cas échéant) par un réseau neuronal qui produit une représentation intermédiaire.
Spectrogrammes et représentations de la parole
La représentation intermédiaire est généralement un spectrogramme - la représentation fréquence-temps d'un signal audio - bien que cela soit en train de changer.
Voici la représentation générée par un modèle TTS à partir de notre texte d'entrée "Whoa, were you expecting that ?
Cette image bidimensionnelle est en fait constituée de 146 tranches verticales, chacune contenant 80 fréquences. Les fréquences les plus fortes sont plus claires et les plus faibles sont plus sombres.
Voici à quoi ressemble le 10e pas de temps (ou colonne), tourné de 90 degrés vers la droite :
Vous pouvez voir les différentes fréquences et leurs énergies.
À première vue, le spectrogramme n'a pas l'air de grand-chose, mais des phénomènes linguistiques évidents sont présents ici :
En fait, vous pouvez même aligner les mots dans le spectrogramme si vous regardez attentivement.
Les spectrogrammes, sous leurs diverses formes, sont des représentations largement utilisées dans les technologies de la parole parce qu'ils constituent un très bon intermédiaire entre la parole brute et le texte.
Deux enregistrements de la même phrase prononcée par des locuteurs différents auront des formes d'onde très différentes, mais des spectrogrammes très similaires.
4. Synthèse audio (Vocoding)
L'étape de la synthèse est celle où le spectrogramme est converti en audio.
La technologie qui effectue cette conversion est appelée vocodeur. Il s'agit de modèles de réseaux neuronaux entraînés à reconstruire les signaux vocaux sur la base de leurs représentations spectrogrammiques.
La séparation de la représentation et de la modélisation du signal de la parole en modules distincts s'explique par le contrôle : le premier consiste à modéliser avec précision la prononciation et l'élocution des mots, et le second porte sur le style et le réalisme de l'élocution.
Avec un spectrogramme, on peut distinguer /s/ vs /sh/, ou /ee/ (comme dans heat) vs /ih/ (comme dans hit), mais le style et la personnalité viennent des détails fins produits par le vocodeur.
Voici une comparaison de combinaisons entre différents modèles acoustiques et vocodeurs. Elle illustre la manière dont les chercheurs combinent les modèles acoustiques et les vocodeurs et optimisent le résultat global.
Mais là encore, comme pour tous les autres composants, on assiste à l'abandon progressif des spectrogrammes au profit de modèles tout-en-un.