¿Qué es un asistente de voz?
Un asistente de voz es un programa informático capaz de entender y responder a órdenes pronunciadas en lenguaje natural. También se les puede llamar asistentes inteligentes y ésta puede ser una descripción más exacta, porque en muchos casos pueden interactuar con texto a través del chat. Por supuesto, también se les conoce como bots.
En los últimos años, la adopción de asistentes de voz ha despegado, especialmente en forma de asistentes domésticos activados por voz, como Alexa y Google Home.
Estos productos permiten a los usuarios ordenar al software que haga cosas sólo con su voz. Por ejemplo, un usuario puede reproducir música en Spotify o un vídeo en Youtube con solo ordenar al asistente de voz inteligente que lo haga.
El dispositivo de asistencia personal ha sido posible gracias a los avances en IA, concretamente en un área denominada procesamiento del lenguaje natural.
¿Cómo utilizan los asistentes de voz la PNL para el reconocimiento de voz?
El Procesamiento del Lenguaje Natural es una tecnología que permite a los ordenadores comprender la intención que hay detrás de una frase hablada. Es diferente del reconocimiento de voz, que transcribe palabras habladas a texto. Por supuesto, el reconocimiento de voz también es necesario para los asistentes digitales controlados por voz. El reconocimiento de voz transcribe las palabras habladas a texto y el procesamiento del lenguaje natural determina la intención del usuario detrás del texto.
El Procesamiento del Lenguaje Natural es importante y útil porque los humanos dan instrucciones a los asistentes de voz utilizando diferentes frases que tienen el mismo significado. Por ejemplo, podrían decir: "Reproduce X en Youtube", o "Por favor, busca X en Youtube y reprodúcela" o "En Youtube, por favor, reproduce la canción X", etc.
La PNL puede detectar que todas estas frases tienen el mismo significado. Esto es útil para los humanos, aparte del hecho de que pueden interactuar con el dispositivo sólo con la voz porque no necesitan recordar un comando o sintaxis exactos para manejar el dispositivo. La PNL también es sorprendentemente fácil de configurar para los desarrolladores, por lo que es una parte importante de cualquier bot.
Pros y contras de los asistentes de voz
Como te dirá cualquiera que haya intentado utilizar un asistente de voz, sirven para algunas cosas, pero no son perfectos. Por ejemplo, no se puede mantener con ellos una conversación de tipo humano. La conversación se romperá rápidamente si lo intentas.
También es difícil averiguar lo que pueden o no pueden hacer simplemente interactuando con ellos. Resulta que Voice es una interfaz deficiente para obtener rápidamente mucha información. Escanear una página web, por ejemplo, es una forma mucho mejor de obtener información rápidamente.
Lo que se les da muy bien son los comandos o preguntas one off. Funcionan bien sobre todo en los casos en los que el usuario sabe exactamente el resultado que desea, por ejemplo, quiere reproducir un vídeo concreto de youtube del que conoce el nombre y cuando la respuesta a una pregunta es una frase sencilla, como la respuesta a "¿cuál es la temperatura en mi ciudad?".
A menudo olvidamos que los asistentes de voz no son más que otra interfaz de software. Los llamamos asistentes porque se les puede hablar y, por tanto, es fácil conceptualizarlos como si tuvieran algún tipo de cualidad similar a la humana. Esta idea se refuerza aún más por el hecho de que tenemos que llamarlos por su nombre con una palabra clave, "Oye Google", "Alexa", "Siri" para activarlos. Si no tuviéramos una palabra clave, no sabrían cuándo se les está hablando y, por tanto, cuándo responder. La palabra clave nos lava el cerebro para que pensemos en el asistente de voz más como una especie de asistente casi humano que como una interfaz de software. Y lava el cerebro a los niños pequeños haciéndoles creer que Google o Alexa son una especie de Dieties, lo que podría causarles un daño duradero cuando descubran que se trata de corporaciones que dominan el mundo.
En realidad, los asistentes de voz no son más que otra interfaz de software, es decir, un equivalente, por ejemplo, a una interfaz gráfica. Una interfaz gráfica desempeña un papel similar al de una interfaz vocal, pero no puede humanizarse del mismo modo.
Por supuesto, las interfaces de voz se utilizan de forma diferente a las interfaces gráficas. Resulta que las interfaces de voz se utilizan normalmente como complemento de las interfaces gráficas, pero no al revés.
Esto se debe en parte a que ya se han creado interfaces gráficas para la mayoría de las aplicaciones y, por tanto, añadirles una interfaz de voz permite a los usuarios otra forma de interactuar con el software. Por ejemplo, pedirle a un asistente de voz que reproduzca un vídeo de YouTube. Se podría reproducir el vídeo con la interfaz gráfica, pero sería más lento.
También es discutible que la interfaz gráfica sea más completa que una interfaz de voz, ya que sería muy difícil hacer por voz algunas tareas que se pueden hacer fácilmente en una interfaz gráfica. Para entender este punto, imagina que intentas que tu colega te haga una hoja de cálculo en crea dándole instrucciones por teléfono, frente a crear tú mismo la hoja de cálculo utilizando la interfaz gráfica.
Aunque las interfaces de voz no suelen ser indispensables, sí proporcionan un nuevo nivel de comodidad en determinadas situaciones. Por lo general, se trata de una comodidad de la que se puede prescindir si es necesario, excepto en las raras circunstancias en las que la interacción manos libres es esencial.
El futuro de los asistentes de voz
Dadas sus limitaciones, la cuestión es si los asistentes de voz van a cobrar más importancia en el futuro o si seguirán siendo un producto marginal.
Tenemos claro que los asistentes de voz van a ser mucho más populares y utilizados en el futuro por una razón: van a estar totalmente integrados con las interfaces gráficas de usuario.
Aunque es difícil sustituir las interfaces gráficas de usuario por la voz, es muy factible combinar una interfaz gráfica y de voz. Esto se está haciendo de forma muy limitada ahora mismo con Google Assistant (que permite que una página web proporcione contexto) y Bixby.
La próxima generación de interfaces, que llamaremos "combinadas", integrará gráficos, texto y voz en la mejor experiencia para el usuario. Esto no solo permitirá a los usuarios realizar tareas más rápidamente y con menos curva de aprendizaje (porque la voz permite a los usuarios interactuar con el software sin conocer los comandos exactos), sino que la IA que supervisa las interacciones permitirá que las interfaces evolucionen y mejoren por sí solas.
Una instrucción de voz cuando se lanza la aplicación por primera vez funcionará de manera diferente una vez que la aplicación haya aprendido de miles de interacciones cuál es el mejor curso de acción.
También es interesante considerar que, para que la voz se adopte plenamente, tendrá que producirse un cambio en el comportamiento de los usuarios. Ahora mismo, la gente teclea texto y utiliza interfaces gráficas en sus smartphones mucho más de lo que habla a sus teléfonos y utiliza asistentes de voz.
Esto se debe a que la tecnología de reconocimiento de voz no es perfecta. Durante décadas ha habido atajos de voz en teléfonos y ordenadores, pero su uso no se ha generalizado porque los porcentajes de error eran tan elevados que la molestia de tener que tener en cuenta el error superaba el beneficio de la comodidad una vez pasada la novedad.
Imagínese que el reconocimiento de voz fuera perfecto y no hubiera porcentajes de error.
En este caso, sería mucho más rápido "escribir" un correo electrónico, por ejemplo, utilizando la voz que tecleando en el smartphone. Una vez alcanzado este punto crítico, la asistencia por voz será omnipresente para este tipo de tareas.
Para que los bots despeguen, tanto la tecnología de PNL como la de reconocimiento de voz tienen que funcionar a un alto nivel. Mientras que el reconocimiento de voz ya funciona muy bien, la PNL, como hemos comentado, solo funciona bien en ámbitos reducidos.
Lo interesante aquí es que el reconocimiento de voz funciona mucho mejor en ámbitos reducidos por razones obvias, hay muchas menos palabras posibles que el usuario podría estar diciendo.
Esto significa que ya estamos en el punto de poder crear chatbots que son casi perfectos en un dominio estrecho. No hay más que escuchar las demos de Google Duplex.
Esto conducirá a una rapidísima adopción de la voz una vez que se resuelvan los problemas de descubrimiento y otros relacionados.
Primero la voz
La idea es que la voz sea el primer puerto de escala cuando alguien necesite ayuda.
En un mundo Voice First, los dispositivos serán más invisibles, ya que las personas sólo tendrán que mirarlos para las tareas que no puedan realizar con la voz.
La gente no solo tendrá un dispositivo en su salón, sino que tendrá un dispositivo de voz barato en cada habitación. Estos dispositivos estarán conectados entre sí, con dispositivos IoT y con teléfonos inteligentes y ordenadores. Algunos de estos dispositivos podrán proyectar imágenes en las paredes.
Los usuarios podrán hacer preguntas o dar órdenes mientras se duchan o se cepillan los dientes. No tendrán que recordar cosas para decírselas al robot de voz de abajo.
Habrá formas mucho mejores de descubrir funcionalidades y de "entrenar" a los humanos en el uso eficiente de los bots.
Aunque los asistentes de voz presentan muchos problemas en la actualidad, la mayoría tienen que ver con la forma en que se utilizan y no con la tecnología subyacente. Creemos que en poco tiempo surgirán las killer apps de voz, que cambiarán el modo de utilizar el software. Esto también requerirá cierta normalización de las tecnologías y protocolos de voz, pero son obstáculos que no impedirán el progreso durante mucho tiempo.
Esperamos un mundo de máxima comodidad en el que los dispositivos de voz estén listos para ayudar en casi cualquier lugar y momento.
Índice
Manténgase al día sobre lo último en agentes de IA
Comparte esto en: