- La conversión de texto a voz (TTS) convierte el texto en voz real mediante redes neuronales para conseguir una prosodia y una calidad de voz naturales.
- Las cadenas TTS procesan texto, analizan la lingüística, generan espectrogramas y sintetizan audio con vocoders.
- TTS impulsa chatbots, sistemas de navegación, entretenimiento, herramientas sanitarias y educación inclusiva.
- El TTS de alta calidad mejora la claridad, la voz de la marca, la accesibilidad y la confianza del usuario en todos los sectores.
ChatGPT holandéshabla con acento alemán (a veces). Si es a propósito, es mezquino. Si no, es fascinante.
En cualquier caso, no cabe duda de que los asistentes de voz con inteligencia artificial han avanzado mucho desde el Sam de Microsoft. De hecho, han avanzado mucho desde que estudié tecnología del habla hace unos años.
Y estoy aquí para contarles dónde hemos aterrizado.
Llevamos mitificando el habla sintetizada al menos desde 1968, desde la aparición del robot HAL en 2001: Una odisea del espacio.

Lejos de ser algo prestigioso y futurista, desde entonces se ha convertido en un estándar: el 89% de los consumidores condiciona su elección de dispositivo a si tiene o no soporte de voz.
En otras palabras: "No te limites a ayudarme; habla conmigo".
En este artículo hablaré de la conversión de texto en voz, es decir, de la conversión de texto en audio hablado. Hablaré de lo que ocurre bajo el capó y de las distintas formas en que se utiliza esta tecnología en los distintos sectores.
¿Qué es la conversión de texto a voz?
TTS es el proceso de convertir texto en audio hablado sintetizado. Las primeras versiones se basaban en la aproximación mecánica del tracto vocal humano y la unión de grabaciones de audio. Hoy en día, los sistemas TTS utilizan algoritmos de redes neuronales profundas para producir enunciados dinámicos similares a los humanos.
Existen diferentes modelos en función del caso de uso, como la generación en tiempo real para modelos conversacionales, la expresión controlable y la capacidad de replicar una voz.
¿Cómo funciona la conversión de texto a voz?
El TTS consta de tres pasos fundamentales: en primer lugar, se procesa el texto de entrada para deletrear símbolos, expresiones y abreviaturas. A continuación, el texto procesado pasa por redes neuronales que lo convierten en una representación acústica (espectrograma). Por último, la representación se convierte en habla.
Como ya he dicho, los investigadores han pasado por varios enfoques del TTS. El que hemos adoptado (y en el que creo que nos quedaremos durante algún tiempo) es la síntesis del habla basada en redes neuronales.
Modelizar las capas de fenómenos lingüísticos que influyen en un enunciado -pronunciación, velocidad, entonación- es una tarea complicada.

Incluso con las capacidades casi mágicas de caja negra de las redes neuronales, un sistema TTS depende de un montón de componentes para aproximarse al habla.
Es difícil definir una línea de producción exacta; las nuevas tecnologías aparecen a diestro y siniestro, amenazando con dejar obsoletas a sus predecesoras.
Hay algunos componentes generales que existen en la mayoría de los sistemas TTS de una forma u otra.
1. Tratamiento de textos
El procesamiento de texto es el paso en el que el sistema TTS determina qué palabras se pronunciarán. Se deletrean las abreviaturas, las fechas y los símbolos monetarios, y se eliminan los signos de puntuación.
Esto no siempre es trivial. ¿"Dr." significa médico o conductor? ¿Y CAD? ¿Dólar canadiense o diseño asistido por ordenador?
El procesamiento del lenguaje natural (PLN) puede emplearse en el tratamiento de textos para ayudar a predecir la interpretación correcta basándose en el contexto circundante. Evalúa cómo encaja el término ambiguo (por ejemplo, "Dr.") en el conjunto de la frase, de modo que en la frase "El Dr. Perron lo desaconsejó", NLP resolvería dr. por doctor.
2. Análisis lingüístico
Una vez procesado el texto, el modelo pasa de "¿Qué debo decir?" a "¿Cómo debo decirlo?".
El análisis lingüístico es la parte del TTS responsable de interpretar cómo debe pronunciarse una frase en términos de tono, timbre y duración. Dicho de otro modo:
- ¿Cuánto debe durar cada sonido, sílaba o palabra?
- ¿Debería subir la entonación? ¿Caer?
- ¿Qué palabra se subraya?
- ¿Cómo puede el cambio de volumen reflejar la emoción pretendida?
Por qué importa la prosodia
Tiempo de historias: Tuve un breve trabajo como consultor para un equipo que creaba modelos TTS. Me di cuenta de lo mucho que influye la prosodia en la inteligibilidad de una frase. Le mostraré lo que quiero decir.
Las siguientes son 3 entregas de la frase "Vaya, ¿te lo esperabas?".
La primera es genial. La pausa después de "Whoa", la inflexión hacia arriba en la segunda sílaba de "expecting" (ex-PEC-ting). 10/10.
La segunda apenas capta la cualidad de pregunta al inflexionar hacia arriba en la última palabra ("... esperando ESO"). Aparte de eso, el resto de las sílabas tienen más o menos la misma longitud, sin variación de volumen o tono. Yo diría a mis clientes que se pusieran manos a la obra.
El último es un caso interesante: El "whoah" es genial: fuerte, largo y con un contorno descendente. La inflexión ascendente de la pregunta se produce en el transcurso de "were you", y básicamente mantiene un tono constante en todo momento.
Aquí es donde muchos sistemas TTS de gama media se detienen: lo suficientemente simple con una entrega plausible. La cuestión es que no es como lo dirías tú, al menos en la mayoría de los contextos.
En los sistemas antiguos, estas cualidades se predecían mediante componentes separados: un modelo calculaba cuánto debía durar cada sonido, otro trazaba cómo debía subir y bajar el tono.
Hoy en día, las cosas están más borrosas.
Las redes neuronales tienden a aprender estos patrones por sí solas interiorizando las sutilezas de los conjuntos masivos de datos de entrenamiento.
3. Modelización acústica
La modelización acústica consiste en hacer pasar el texto normalizado (y las características lingüísticas previstas, si las hay) por una red neuronal que produce una representación intermedia.
Espectrogramas y representaciones del habla
La representación intermedia suele ser un espectrograma -la representación de la frecuencia sobre el tiempo de una señal de audio-, aunque eso está cambiando.
He aquí la representación generada por un modelo TTS a partir de nuestro texto de entrada "Vaya, ¿te lo esperabas?":

Esta imagen bidimensional consta en realidad de 146 cortes verticales, cada uno de los cuales contiene 80 frecuencias. Las frecuencias más fuertes son más brillantes y las más débiles son más oscuras.
Este es el aspecto del décimo paso temporal (o columna), girado 90 grados a la derecha:

Puedes ver las frecuencias individuales y sus energías.
A primera vista, el espectrograma no parece gran cosa, pero aquí se dan algunos fenómenos lingüísticos claros:
- Esas ondas con líneas claramente definidas son vocales o sonidos parecidos a vocales como /w/, /r/ y /l/.
- Los puntos oscuros representan el silencio. Podrían ser pausas de puntuación.
- Los cúmulos de energía en la parte superior representan ruido, como el que se oye en /s/, /sh/ y /f/.
De hecho, incluso se pueden alinear las palabras en el espectrograma si se mira con atención.

Los espectrogramas, en sus diversas formas, son representaciones muy utilizadas en la tecnología del habla porque son un muy buen intermediario entre el habla en bruto y el texto.
Dos grabaciones de la misma frase pronunciada por hablantes distintos tendrán formas de onda muy diferentes, pero espectrogramas muy similares.
4. Sintetizar audio (Vocoding)
La etapa de síntesis es donde el espectrograma se convierte en audio.
La tecnología que realiza esta conversión se llama vocoder. Son modelos de redes neuronales entrenados para reconstruir señales de voz a partir de sus representaciones espectrográficas.
El motivo de dividir la representación y el modelado de la señal del habla en módulos separados es el control: el primero consiste en modelar con precisión la pronunciación y la entrega de las palabras, y el siguiente, en el estilo y el realismo de la entrega.
Con un espectrograma podemos discernir entre /s/ vs /sh/, o /ee/ (como en heat) vs. /ih/ (como en hit), pero el estilo y la personalidad provienen de los finos detalles producidos por el vocoder.
Aquí tienes una comparación de combinaciones entre distintos modelos acústicos y vocoders. Ilustra cómo los investigadores mezclan y combinan modelos acústicos y vocoders, y optimizan para obtener el mejor resultado global.
Pero, una vez más, al igual que con el resto de componentes, estamos viendo cómo los espectrogramas van desapareciendo en favor de los modelos "todo en uno".
¿Cuáles son los casos de uso de TTS?
La capacidad de generar un lenguaje hablado dinámico es una herramienta esencial en todos los sectores.
No se trata sólo de sofisticados robots sirvientes: nos ayudan a conseguir eficiencia, accesibilidad y seguridad.
Chatbots y asistentes de voz
Sabías que lo iba a decir 😉 .
Entre entender tus órdenes, actualizar tus listas de la compra y concertar citas, es fácil dar por sentada la sofisticación -y la importancia- del habla sintetizada en los agentes de IA.
Un buen agente (es decir, uno que se pueda utilizar ) tiene que tener una voz que encaje: lo bastante acogedora para solicitar órdenes y lo bastante humana para hacer creer al usuario que puede cumplirlas.
Se necesita mucha investigación e ingeniería para ganarse a los usuarios en la fracción de segundo que se tarda en decidir si un asistente de IA suena "bien" o no.
Desde el punto de vista empresarial: su chatbot representa su marca. Las mejoras en la tecnología TTS se traducen en opciones para mejorar la marca de voz y ofrecer un servicio al cliente más eficaz.
Entretenimiento y medios de comunicación
La narración y los medios multilingües se han hecho más accesibles gracias a las mejoras de la tecnología del habla sintética.
Más que sustituir al talento, la tecnología de la palabra ayuda a aumentar las interpretaciones dramáticas.
Val Kilmer, tras perder la voz por un cáncer de garganta, ofreció una sentida interpretación con su voz original en Top Gun: Maverick (2022) gracias a la IA.
El TTS también permite a los desarrolladores de juegos dotar de expresiones diversas y expresivas a los personajes no jugables (PNJ), algo que de otro modo sería imposible.
Sanidad
Las mejoras en TTS implican mejoras en la accesibilidad en general.
Las tecnologías para el cuidado de ancianos abordan simultáneamente la cuestión de la compañía y la asistencia. Esta tecnología se basa en la personalización que ofrece el TTS: tonos compasivos, velocidades variables y una cuidada entonación forman parte de una asistencia eficaz y digna.
El TTS también se utiliza para mejorar la accesibilidad entre los más jóvenes.
El Grupo Acapela desarrolla, entre otras cosas, tecnologías para niños con trastornos en la producción del habla. El habla sintética aumenta sus capacidades expresivas y su independencia, al tiempo que preserva sus características vocales.
Educación y aprendizaje inclusivo
Nos hemos topado con el habla sintética en aplicaciones de aprendizaje de idiomas. Pero eso es solo la punta del iceberg.
Por ejemplo, una barrera de entrada en el aprendizaje independiente es la capacidad de leer. Para los niños, las personas con discapacidad visual y ciertas dificultades de aprendizaje, eso no es necesariamente posible. Esto hace recaer una gran carga de trabajo sobre los profesores en aulas superpobladas.
Un distrito escolar de California ha implantado el TTS para crear un entorno de aprendizaje más integrador para los alumnos con necesidades especiales.
Al igual que en el caso del cuidado de ancianos, la tecnología educativa se basa en voces compasivas que transmiten con una claridad y énfasis prístinos. Los parámetros modificables permiten a los profesores integrar estas tecnologías en sus clases, lo que ayuda a los alumnos a sentirse más incluidos.
Obtenga el mejor TTS para sus necesidades
Sea cual sea su sector, no cabe duda de que la inteligencia artificial por voz es importante. Y el TTS que implemente habla literalmente en nombre de su empresa, por lo que debe ser fiable y personalizable.
Botpress le permite crear bots potentes y altamente personalizables con un conjunto de integraciones y despliegue en todos los canales de comunicación habituales. Su agente de voz no solo impresionará, sino que funcionará.
Empieza a construir hoy mismo. Es gratis.
Preguntas frecuentes
¿Hay lenguas o dialectos que los sistemas TTS no soportan bien?
Sí, hay lenguas y dialectos para los que los sistemas TTS tienen dificultades, sobre todo las lenguas de escasos recursos que carecen de grandes conjuntos de datos de voz y texto grabados. Variaciones como los dialectos regionales, las lenguas tonales y las lenguas indígenas suelen plantear problemas porque requieren reglas de pronunciación y prosodia matizadas para las que no se han entrenado los modelos estándar. Incluso en las lenguas más habladas, las diferencias dialectales pueden dar lugar a errores de pronunciación o a un habla poco natural.
¿Hasta qué punto son personalizables las voces TTS en cuanto a tono, velocidad y emoción?
Hoy en día, las voces TTS son muy personalizables en cuanto a tono, velocidad y emoción, gracias a las modernas arquitecturas de redes neuronales que permiten un control preciso de la prosodia y el estilo. Muchos sistemas TTS comerciales permiten a los usuarios ajustar la velocidad del habla, los patrones de entonación, el volumen y el tono expresivo para adaptarlos a distintos contextos, como una narración tranquila, anuncios excitados o un diálogo empático. Sin embargo, el grado de control varía según el proveedor: algunos sólo ofrecen deslizadores básicos para la velocidad y el tono, mientras que otros exponen parámetros detallados para la expresión emocional y el timbre vocal.
¿Hasta qué punto son seguros los datos de voz procesados por los sistemas TTS?
La seguridad de los datos de voz procesados por los sistemas TTS depende en gran medida del proveedor y del método de despliegue. Los servicios TTS basados en la nube suelen cifrar los datos en tránsito y en reposo, pero el envío de información confidencial a servidores externos puede plantear riesgos para la privacidad si no se han establecido los acuerdos y medidas de cumplimiento adecuados, como GDPR o HIPAA. Las implantaciones locales o en el perímetro ofrecen mayor seguridad porque el audio y el texto nunca salen de la infraestructura de la organización, lo que reduce la exposición a terceros.
¿Cuánto cuesta implantar soluciones TTS de alta calidad para las empresas?
La implementación de soluciones TTS de alta calidad para empresas puede oscilar entre unos pocos cientos de dollars al mes para API basadas en la nube con un uso moderado, hasta decenas o cientos de miles para el desarrollo de voz personalizada o implementaciones empresariales locales. Los costes suelen incluir los derechos de licencia, el pago por carácter o por minuto de uso, los esfuerzos de integración y desarrollo y, posiblemente, los honorarios de los locutores si se crea una voz personalizada. Las pequeñas empresas suelen empezar con servicios de suscripción, mientras que las grandes pueden invertir en soluciones a medida para mantener la coherencia de la marca y la privacidad.
¿Cuántos datos de entrenamiento se necesitan para crear una voz TTS de alta calidad?
Crear una voz TTS de alta calidad suele requerir de varias horas a decenas de horas de habla limpia y grabada por profesionales, idealmente del mismo hablante y en condiciones de grabación constantes. Los sistemas TTS neuronales modernos, como Tacotron o FastSpeech, pueden lograr una calidad decente con tan sólo 2-5 horas de datos, pero conseguir voces muy naturales, expresivas y robustas suele requerir entre 10 y 20 horas o más. Para clonar voces o conseguir voces muy expresivas, se necesitan conjuntos de datos aún mayores y grabaciones diversas que abarquen varios estilos, emociones y contextos.