- ASR transforma el habla en texto mediante aprendizaje automático, lo que permite dar órdenes por voz y transcribir en tiempo real.
- Los sistemas ASR modernos han pasado de modelos de fonemas separados (HMM-GMM) a modelos de aprendizaje profundo que predicen palabras enteras.
- El rendimiento de la ASR se mide por la tasa de error de palabra (WER), en la que los errores proceden de sustituciones, supresiones o inserciones; una WER más baja equivale a una mejor calidad de transcripción.
- El futuro de la ASR se centra en el procesamiento en el dispositivo para garantizar la privacidad y la compatibilidad con lenguas de escasos recursos.
¿Cuándo fue la última vez que viste algo sin subtítulos?
Antes eran opcionales, pero ahora aparecen de rebote en los vídeos cortos, los queramos o no. Los subtítulos están tan integrados en el contenido que te olvidas de que están ahí.
El reconocimiento automático del habla (ASR) -la capacidad de automatizar con rapidez y precisión la conversión de palabras habladas en texto- es la tecnología que impulsa este cambio.
Cuando pensamos en un agente de voz de IA, nos referimos a la elección de las palabras, la forma de pronunciarlas y la voz con la que habla.
Pero es fácil olvidar que la fluidez de nuestras interacciones depende de que el bot nos entienda. Y llegar a este punto -que el bot te entienda a través de "um "s y "ah "s en un entorno ruidoso- no ha sido un paseo.
Hoy vamos a hablar de la tecnología que impulsa esos subtítulos: el reconocimiento automático del habla (ASR).
Permítanme que me presente: Tengo un máster en tecnología del habla, y en mi tiempo libre me gusta leer sobre lo último en ASR, e incluso construir cosas.
Le explicaré los fundamentos de la ASR, le echaré un vistazo a la tecnología y haré conjeturas sobre el futuro de esta tecnología.
¿Qué es la ASR?
El reconocimiento automático del habla (ASR) o conversión del habla en texto (STT) es el proceso de convertir el habla en texto escrito mediante el uso de tecnología de aprendizaje automático.
Las tecnologías en las que interviene el habla suelen integrar ASR de alguna forma; puede ser para subtitulación de vídeos, transcripción de interacciones de atención al cliente para su análisis o parte de la interacción con un asistente de voz, por nombrar algunas.
Algoritmos de conversión de voz a texto
Las tecnologías subyacentes han cambiado a lo largo de los años, pero todas las iteraciones han constado de dos componentes de una forma u otra: datos y un modelo.
En el caso de la ASR, los datos son el habla etiquetada: archivos de audio del lenguaje hablado y sus correspondientes transcripciones.
El modelo es el algoritmo utilizado para predecir la transcripción a partir del audio. Los datos etiquetados se utilizan para entrenar el modelo, de modo que pueda generalizar a través de ejemplos de habla no vistos.

Es muy parecido a entender una serie de palabras aunque nunca las hayas oído en ese orden o las pronuncie un desconocido.
Una vez más, los tipos de modelos y sus especificidades han cambiado con el tiempo, y todos los avances en velocidad y precisión se han reducido al tamaño y las especificaciones de los conjuntos de datos y los modelos.
Ayuda rápida: Extracción de características
Ya hablé de las características o representaciones en mi artículo sobre la conversión de texto en voz. Se utilizan en modelos ASR pasados y presentes.
La extracción de características -convertir el habla en características- es el primer paso en casi todas las cadenas ASR.
En resumen, estas características, a menudo espectrogramas, son el resultado de un cálculo matemático realizado sobre el habla, y convierten el habla en un formato que enfatiza las similitudes entre los enunciados y minimiza las diferencias entre los hablantes.
Es decir, la misma frase pronunciada por dos hablantes diferentes tendrá espectrogramas similares, independientemente de lo diferentes que sean sus voces.
Lo señalo para que sepa que hablaré de modelos que "predicen transcripciones a partir del habla". Técnicamente, eso no es cierto; los modelos predicen a partir de características. Pero se puede considerar que el componente de extracción de características forma parte del modelo.
ASR temprana: HMM-GMM
Los modelos ocultos de Markov (HMM) y los modelos de mezclas gaussianas (GMM ) son modelos predictivos anteriores a las redes neuronales profundas.
Los HMM han dominado la ASR hasta hace poco.
Dado un archivo de audio, el HMM predeciría la duración de un fonema, y el GMM predeciría el fonema en sí.
Eso suena al revés, y en cierto modo lo es, como:
- HMM: "Los primeros 0,2 segundos son un fonema".
- GMM: "Ese fonema es una G, como en Gary".
Convertir un clip de audio en texto requeriría algunos componentes adicionales, a saber:
- Un diccionario de pronunciación: una lista exhaustiva de las palabras del vocabulario, con sus correspondientes pronunciaciones.
- Un modelo lingüístico: Combinaciones de palabras del vocabulario y sus probabilidades de coocurrencia.
Por tanto, aunque el MMG prediga /f/ en lugar de /s/, el modelo lingüístico sabe que es mucho más probable que el hablante dijera "un penique por tus pensamientos", no toses.
Teníamos todas estas partes porque, para decirlo sin rodeos, ninguna parte de esta tubería era excepcionalmente buena.
El HMM predeciría mal las alineaciones, el GMM confundiría sonidos similares: /s/ y /f/, /p/ y /t/, y ni hablar de las vocales.
Y entonces el modelo lingüístico limpiaría el desorden de fonemas incoherentes para convertirlo en algo más lingüístico.
ASR de extremo a extremo con aprendizaje profundo
Muchas de las partes de una tubería ASR se han consolidado desde entonces.

En lugar de entrenar modelos separados para manejar la ortografía, la alineación y la pronunciación, un único modelo toma el habla y produce (con suerte) palabras correctamente escritas y, hoy en día, también marcas de tiempo.
(Aunque las implementaciones a menudo corrigen, o "vuelven a puntuar" esta salida con un modelo de lenguaje adicional).
Esto no quiere decir que no se preste especial atención a otros factores, como la alineación y la ortografía. Sigue habiendo montañas de literatura centrada en la aplicación de soluciones a problemas muy concretos.
Es decir, los investigadores idean formas de alterar la arquitectura de un modelo que se centran en factores específicos de su rendimiento, como:
- Un descodificador RNN-Transductor condicionado a salidas anteriores para mejorar la ortografía.
- Muestreo descendente convolucional para limitar las salidas en blanco y mejorar la alineación.
Sé que esto no tiene sentido. Sólo me estoy adelantando a que mi jefe me diga "¿puedes dar un ejemplo en inglés sencillo?".
La respuesta es no.
No, no puedo.
¿Cómo se mide el rendimiento en ASR?
Cuando ASR hace un mal trabajo lo sabes.
He visto caramelización transcrito como asiáticos comunistas. Crispiness a Chris p - usted consigue la idea.
La métrica que utilizamos para reflejar matemáticamente los errores es la tasa de error de palabra (WER). La fórmula del WER es

Dónde:
- S es el número de sustituciones (palabras cambiadas en el texto previsto para que coincida con el texto de referencia)
- D es el número de supresiones (palabras que faltan en la salida, en comparación con el texto de referencia)
- I es el número de inserciones (palabras adicionales en la salida, en comparación con el texto de referencia)
- N es el número total de palabras de la referencia
Digamos que la referencia es "el gato se sentó".
- Si el modelo da como resultado "el gato se hundió", se trata de una sustitución.
- Si el modelo da como resultado "gato sentado", se trata de una eliminación.
- Si sale "el gato se ha sentado", es una inserción.
¿Cuáles son las aplicaciones de la ASR?
ASR es una herramienta ingeniosa.
También nos ha ayudado a mejorar nuestra calidad de vida gracias a la mejora de la seguridad, la accesibilidad y la eficiencia de industrias cruciales.
Sanidad
Cuando les digo a los médicos que investigo el reconocimiento de voz, dicen "oh, como Dragon".
Antes de que existiera la IA generativa en la sanidad, los médicos tomaban notas verbales a 30 palabras por minuto con un vocabulario limitado.
La ASR ha tenido un éxito enorme a la hora de frenar el agotamiento generalizado que sufren los médicos.
Los médicos compaginan montañas de papeleo con la necesidad de atender a sus pacientes. Ya en 2018, los investigadores abogaban por el uso de la transcripción digital en las consultas para mejorar la capacidad asistencial de los médicos.
Y es que tener que documentar las consultas de forma retroactiva no sólo resta tiempo al cara a cara con los pacientes, sino que además es mucho menos preciso que los resúmenes de las transcripciones de las consultas reales.
Casas inteligentes
Tengo una broma que hacer.
Cuando quiero apagar las luces pero no me apetece levantarme, doy dos palmadas seguidas, como si tuviera un badajo.
Mi compañero nunca se ríe.
Las casas inteligentes activadas por voz parecen a la vez futuristas y vergonzosamente indulgentes. O eso parece.
Claro que son cómodas, pero en muchos casos permiten hacer cosas que de otro modo no estarían disponibles.
Un buen ejemplo es el consumo de energía: hacer pequeños ajustes en la iluminación y el termostato sería inviable a lo largo del día si tuviéramos que levantarnos a jugar con un dial.
Gracias a la activación por voz, esos pequeños retoques no sólo son más fáciles de hacer, sino que lee los matices del habla humana.
Por ejemplo, dices "¿puedes ponerlo un poco más frío?". El asistente utiliza el procesamiento del lenguaje natural para traducir tu petición en un cambio de temperatura, teniendo en cuenta toda una serie de datos: la temperatura actual, la previsión meteorológica, los datos de uso del termostato de otros usuarios, etc.
Tú te encargas de la parte humana y dejas la parte informática al ordenador.
Yo diría que eso es mucho más fácil que tener que adivinar a cuántos grados hay que bajar la calefacción en función de tus sensaciones.
Y es más eficiente desde el punto de vista energético: hay informes de familias que han reducido el consumo de energía en un 80% con la iluminación inteligente activada por voz, por poner un ejemplo.
Atención al cliente
Ya hemos hablado de ello en el ámbito de la sanidad, pero transcribir y resumir es mucho más eficaz que hacer resúmenes retroactivos de las interacciones.
De nuevo, ahorra tiempo y es más preciso. Lo que aprendemos una y otra vez es que las automatizaciones liberan tiempo para que las personas hagan mejor su trabajo.
Y en ninguna parte es esto más cierto que en la atención al cliente, donde la atención al cliente potenciada por ASR tiene una tasa de resolución de la primera llamada un 25% superior.
La transcripción y el resumen ayudan a automatizar el proceso de encontrar una solución basada en el sentimiento y la consulta del cliente.
Asistentes a bordo
Nos estamos aprovechando de los asistentes a domicilio, pero merece la pena mencionarlo.
El reconocimiento de voz reduce la carga cognitiva y las distracciones visuales de los conductores.
Y dado que las distracciones son responsables de hasta el 30% de las colisiones, la implantación de esta tecnología es una cuestión de seguridad obvia.
Logopedia
La ASR se utiliza desde hace tiempo como herramienta de evaluación y tratamiento de las patologías del habla.
Es útil recordar que las máquinas no sólo automatizan tareas, sino que hacen cosas que los humanos no pueden.
El reconocimiento de voz puede detectar sutilezas en el habla que son casi imperceptibles para el oído humano, captando especificidades del habla afectada que de otro modo pasarían desapercibidas.
El futuro de la ASR
STT ha mejorado tanto que ya no pensamos en ello.
Pero entre bastidores, los investigadores se afanan en hacerla aún más potente y accesible, y menos perceptible.
He seleccionado algunas tendencias interesantes que aprovechan los avances en ASR y he añadido algunas ideas propias.
Reconocimiento de voz en el dispositivo
La mayoría de las soluciones ASR funcionan en la nube. Seguro que ya lo has oído antes. Eso significa que el modelo se ejecuta en un ordenador remoto, en otro lugar.
Lo hacen porque el pequeño procesador de tu teléfono no necesariamente puede ejecutar su enorme modelo, o tardaría una eternidad en transcribir cualquier cosa.
En su lugar, el audio se envía, a través de Internet, a un servidor remoto que ejecuta una GPU demasiado pesada para llevarla en el bolsillo. La GPU ejecuta el modelo ASR y devuelve la transcripción a tu dispositivo.

Por razones de eficiencia energética y seguridad (no todo el mundo quiere que sus datos personales floten por el ciberespacio), se ha investigado mucho para fabricar modelos lo bastante compactos como para funcionar directamente en tu dispositivo, ya sea un teléfono, un ordenador o el motor de un navegador.
Un servidor escribió una tesis sobre la cuantificación de modelos ASR para que puedan ejecutarse en dispositivos. Picovoice es una empresa canadiense que desarrolla IA de voz en dispositivos de baja latencia.
La ASR en el dispositivo permite la transcripción a un coste menor, con el potencial de dar servicio a las comunidades de bajos ingresos.
Transcript-First UI
La distancia entre el audio y las transcripciones es cada vez menor. ¿Qué significa esto?
Los editores de vídeo como Premiere Pro y Descript te permiten navegar por tus grabaciones a través de una transcripción: haz clic en una palabra y te llevará a la marca de tiempo.
¿Has tenido que hacer varias tomas? Elige tu favorita y borra las demás, al estilo de un editor de texto. Recorta automáticamente el vídeo por ti.
Es muy frustrante hacer ese tipo de edición sólo con una forma de onda, pero es estúpidamente fácil cuando tienes editores basados en transcripciones.
Del mismo modo, servicios de mensajería como WhatsApp transcriben tus notas de voz y te permiten leerlas a través del texto. Desliza el dedo sobre una palabra y accederás a esa parte de la grabación.

Es curioso: Construí algo parecido una semana antes de que Apple anunciara una función similar.
Estos ejemplos muestran cómo las complejas tecnologías subyacentes aportan simplicidad e intuitividad a las aplicaciones de usuario final.
Equidad, inclusión y lenguas de bajos recursos
La batalla aún no está ganada.
La ASR funciona muy bien en inglés y otras lenguas comunes con muchos recursos. Pero no es necesariamente el caso de las lenguas con pocos recursos.
Hay un vacío en cuanto a minorías dialectales, habla afectada y otros problemas de equidad en la tecnología vocal.
Siento entorpecer las buenas vibraciones. Esta sección se llama el "futuro" de ASR. Y yo elijo mirar hacia un futuro del que podamos estar orgullosos.
Si queremos avanzar, debemos hacerlo juntos, o corremos el riesgo de aumentar la desigualdad social.
Empiece a utilizar ASR hoy mismo
Sea cual sea su negocio, utilizar ASR es una obviedad, salvo que probablemente se pregunte cómo empezar. ¿Cómo se implementa la ASR? ¿Cómo se transmiten los datos a otras herramientas?
Botpress incluye fichas de transcripción fáciles de usar. Se pueden integrar en un flujo de arrastrar y soltar, aumentado con docenas de integraciones a través de aplicaciones y canales de comunicación.
Empieza a construir hoy mismo. Es gratis.
Preguntas frecuentes
¿Hasta qué punto es precisa la ASR moderna para diferentes acentos y entornos ruidosos?
Los sistemas ASR modernos son impresionantemente precisos para los acentos comunes en los principales idiomas, alcanzando tasas de error de palabra (WER) por debajo del 10% en condiciones limpias, pero la precisión disminuye notablemente con acentos fuertes, dialectos o ruido de fondo significativo. Fabricantes como Google y Microsoft entrenan modelos con diversos datos de voz, pero la transcripción perfecta en entornos ruidosos sigue siendo un reto.
¿Es fiable el ASR para transcribir jerga especializada o términos específicos del sector?
La ASR es menos fiable cuando se trata de jerga especializada o términos específicos de un sector, ya que sus datos de entrenamiento se inclinan normalmente hacia el habla general; las palabras desconocidas pueden transcribirse erróneamente u omitirse. Sin embargo, las soluciones empresariales permiten el uso de vocabularios personalizados, modelos lingüísticos específicos del sector y diccionarios de pronunciación para mejorar el reconocimiento de términos técnicos en campos como la sanidad, el derecho o la ingeniería.
¿Cuál es la diferencia entre las herramientas ASR gratuitas y las soluciones para empresas?
La diferencia entre las herramientas ASR gratuitas y las soluciones de nivel empresarial radica en la precisión, la escalabilidad, la personalización y los controles de privacidad: las herramientas gratuitas suelen tener tasas de error más elevadas, compatibilidad lingüística limitada y límites de uso, mientras que las soluciones empresariales ofrecen una tasa de errores más baja, personalización específica del dominio, integraciones, acuerdos de nivel de servicio (SLA) y sólidas funciones de seguridad para el tratamiento de datos confidenciales.
¿Cómo protege ASR la privacidad del usuario y la información sensible durante la transcripción?
ASR protege la privacidad del usuario mediante el cifrado durante la transmisión de datos y ofrece opciones como la ejecución de modelos en el dispositivo para evitar el envío de datos de voz a servidores externos. Muchos proveedores empresariales también cumplen normativas de privacidad como GDPR o HIPAA y pueden anonimizar los datos para salvaguardar la información sensible.
¿Cuánto cuestan los servicios ASR basados en la nube frente a las soluciones en el dispositivo?
Los servicios ASR basados en la nube suelen cobrar por minuto de audio o por niveles de uso, con costes que oscilan entre 0,03 y más de 1,00 dólares por minuto en función de la precisión y las funciones, mientras que las soluciones para dispositivos implican costes de desarrollo iniciales y derechos de licencia.