Aunque muchos en la industria podrían argumentar que la "próxima gran cosa" en tecnología es blockchain, la IA que sustituye a los trabajadores humanos o la realidad aumentada, hay una tecnología crucial que está siendo subestimada: la interfaz de usuario de voz.
Los estudios sugieren que el 50% de las búsquedas se harán por voz en 2020. Sin embargo, lo que estos estudios subestiman es que las pequeñas mejoras en la interfaz de voz pueden cambiar por completo el paradigma actual de la interacción persona-ordenador. Esto va mucho más allá del caso de uso de la búsqueda, ya que la interfaz de voz sustituirá a las interfaces gráficas de usuario y las aplicaciones, o se integrará profundamente en ellas.
La interfaz de usuario de voz permite a las personas comunicarse con dispositivos en lenguaje hablado natural a través de altavoces inteligentes y otros dispositivos, que actualmente se encuentran en dispositivos como Alexa o Google Home. Hablar es fundamental para la forma en que hacemos las cosas con otros humanos, y será fundamental para la forma en que hagamos las cosas con los ordenadores en el futuro.
Sin embargo, actualmente se trata de una opinión marginal.
Aunque la mayoría de los expertos en tecnología estarían de acuerdo en que la voz seguirá evolucionando en su actual papel de nicho en el ecosistema tecnológico, o al menos crecerá paulatinamente a medida que mejore la tecnología, mi predicción es que la voz será el acontecimiento principal en sí mismo. Llegará a dominar nuestras interacciones con el software y los dispositivos, e incluso a ser tan importante como la interfaz gráfica de usuario.
Como ya se ha dicho, no es una opinión mayoritaria. Muchos expertos del sector reconocen que la voz sigue siendo una novedad y que aún no ha alcanzado un ajuste perfecto entre producto y mercado. Algunos destacados inversores de capital riesgo, por ejemplo, opinan que hasta que no se generalice la inteligencia artificial, la tecnología de la voz siempre será muy especializada.
Debido a las muchas limitaciones actuales de los asistentes de voz, a la gente le cuesta imaginar la voz como la próxima ola tecnológica. En mi opinión, la voz es hoy similar a la conexión telefónica a Internet a principios de los 90. En aquel entonces, la experiencia online era tan mala que era difícil imaginar lo que sería posible una vez que la banda ancha llegara a la red. Por aquel entonces, la experiencia en línea era tan mala que resultaba difícil imaginar lo que sería posible una vez que mejorara el ancho de banda. Los principales pensadores hicieron todo tipo de predicciones sobre Internet que, en retrospectiva, parecen absurdamente conservadoras: algunos expertos llegaron a pronosticar que no tendría más impacto en la economía que las máquinas de fax.
Las expectativas de la gente con respecto a la voz son igualmente conservadoras hoy en día, en parte debido a lo tosca que es todavía la experiencia de voz. Se parte de la base de que hasta que no se consiga una inteligencia artificial generalizada, los bots no tendrán un buen rendimiento en las conversaciones, y la tecnología nunca será excelente hasta que chatbots sea capaz de mantener con el usuario una conversación cercana a la humana. Sin embargo, esta suposición sobre la necesidad de una inteligencia artificial generalizada es errónea: Sin duda hay formas de conseguir que chatbots alcance un rendimiento de nivel casi humano utilizando la tecnología actual.
En el caso de los asistentes generales de altavoz inteligente, la cobertura temática es tan amplia que necesitan ser casi totalmente autodidactas. Desgraciadamente, la tecnología actual no es lo suficientemente buena como para crear automáticamente bots autodidactas que puedan manejar conversaciones de varios turnos con humanos. Si existiera esa tecnología, podríamos hacer preguntas de seguimiento en Google. Pero hacer que los bots inteligentes crea se autoaprendan es como intentar que la aplicación de un smartphone crea se autoconfigure sin intervención humana: de momento es imposible.
Hay otra forma de conseguir una conversación casi humana con los bots: reducir drásticamente su alcance. Al igual que en el caso de las aplicaciones, los desarrolladores pueden crear bots sofisticados para tareas específicas, programándolos manualmente para que entablen conversaciones significativas. Es en este tipo de bots donde se producirá el gran avance de la voz: altavoces inteligentes, teléfonos y otros dispositivos albergarán este tipo de bots, creando grandes oportunidades para los primeros que hagan las cosas bien.
Abordar los problemas de los bots de voz actuales
Para comprender intuitivamente la diferencia entre la experiencia de los bots de voz actuales y cómo será esta tecnología en el futuro, tenemos que empezar por entender por qué un dispositivo de voz es actualmente el equivalente a navegar por Internet con un módem de acceso telefónico.
En primer lugar, las interacciones básicas con un bot de voz siguen siendo muy pobres. Tienes que dirigirte específicamente al dispositivo con una palabra clave, tras lo cual debes esperar a ver si el bot se activó con éxito o no. Si se activó, tienes que hablar después del pitido a una velocidad lenta pero constante y formular tus frases para incluir todos los parámetros necesarios, casi como si estuvieras hablando en una sentencia SQL. Si te paras a pensar en algún momento, tu interacción fallará y tendrás que volver al principio.
Veamos un ejemplo de la vida real:
Dices: "Hola, Google".
Se produce una pausa mientras esperas la confirmación de que el dispositivo se ha activado.
Si se ha activado, continúe con su solicitud:
"Pon 'Dark Horse' de Katy Perry en YouTube, en la tele del salón".
Hay otro retraso mientras el aparato procesa lo que has dicho.
Si tu solicitud tiene éxito, empezará a ocurrir algo en tu televisor y se reproducirá el vídeo.
Si no tiene éxito, hay que volver al principio e intentarlo de nuevo, quizá con una estructura de frase diferente, palabras distintas o simplemente intentando hablar con más claridad.
Esta experiencia está llena de retrasos, errores potenciales y puede requerir muchos reinicios para realizar las tareas. Además, el bot de voz aún no es inteligente y no responderá a órdenes o consultas relacionadas con lo que estás haciendo.
Una nueva forma de interactuar con los robots de voz
La forma más fácil de imaginar las interacciones con los robots inteligentes del futuro es imaginarse a un operador humano controlando el dispositivo y dándole instrucciones específicamente relacionadas con el funcionamiento de YouTube (y nada más).
La primera diferencia está en la velocidad de interacción. Podías hablar con el operador "humano" a una velocidad normal, sin pausas ni retrasos en la respuesta, y sin problemas si hacías una pausa mientras hablabas. También podrías hacer referencia al operador humano en mitad de una frase - por ejemplo, "Quiero ver la tele - sabes qué, Alexa, por favor, pon algo en YouTube". De hecho, puede que no tengas que decir su nombre (la palabra clave) en absoluto para que responda.
Este bot con apariencia humana también sería flexible en cuanto a la forma de interactuar contigo:
Tú: "Alexa, quiero ver YouTube".
Alexa: "Claro, ¿en qué televisor?"
A ti: "En la televisión de la cocina - tal vez algo de Katy Perry."
Alexa: "¿Tienes alguna canción en particular en mente?"
A ti: "No, ¿qué puedes sugerir?"
Humano: "'Roar', 'Dark Horse'... He puesto más sugerencias en la pantalla".
A ti: "Genial, gracias. Toca 'Hot and Cold'".
Este es el futuro de las interacciones entre bots: Perfectas, fluidas y fáciles de hablar sobre la tarea o el tema en cuestión. Imaginemos un vasto universo de estos bots con un universo igualmente vasto de dispositivos de voz baratos y comoditizados. Será como tener un operador humano en cada habitación y al lado de cada dispositivo. Seguirá habiendo muchas interfaces gráficas, pero será mucho más fácil utilizarlas a través del bot.
Hacia el futuro de la voz
Hoy en día, es habitual ver a empleados en lugares como estaciones de metro, aeropuertos y supermercados prestando asistencia a quienes utilizan pantallas táctiles de autoservicio; por ejemplo, la persona que le ayuda a utilizar las máquinas de facturación para obtener su tarjeta de embarque en el aeropuerto. Imagina, sin embargo, que esa persona pudiera interactuar directamente con la aplicación de facturación, es decir, que a mitad del proceso de facturación pudieras decirle a la máquina que quieres cambiar de asiento y que la aplicación te mostrara la pantalla correspondiente, todo ello sin la ayuda de un asistente humano.
Este es el futuro: un bot de voz estará integrado o será accesible desde cualquier dispositivo o servicio con el que quieras interactuar, y hará instantáneamente lo que le ordenes. Ya no tendrás que sacar el teléfono o el portátil para hacer algo, solo tendrás que decir en voz alta lo que necesitas y todo se hará a partir de ahí.
En última instancia, el paso a la voz tendrá que ver con algo tan sencillo como la comodidad. En nuestro mundo moderno, la gente quiere hacer las cosas rápido y sin complicaciones, y la velocidad es más importante que nunca. Aunque la mayoría de los que están relacionados con el sector de los chatbots no lo prevén, los que estamos investigando y desarrollando la tecnología prevemos implicaciones masivas para las operaciones empresariales, el marketing, las ventas, la creación de marcas, la distribución de productos y mucho más. La voz es el futuro de la tecnología, y ya estamos a mitad de camino.
Comparte esto en:
Construye gratis tu propio chatbot personalizado
Empieza a crear un bot GPT personalizado con nuestra intuitiva interfaz de arrastrar y soltar.
Empieza: ¡es gratis! 🤖No se necesita tarjeta de crédito
Manténgase al día sobre lo último en IA chatbots