Embora muitos na indústria possam argumentar que a "próxima grande novidade" em tecnologia é a cadeia de blocos, a IA que substitui os trabalhadores humanos ou a realidade aumentada, há uma tecnologia crucial que está a ser subestimada: a interface de voz do utilizador.
A investigação sugere que 50% das consultas de pesquisa serão efectuadas através da pesquisa por voz até 2020. O que esta investigação está a subestimar, no entanto, é que pequenas melhorias na IU de voz têm o potencial de mudar completamente o atual paradigma de interação homem-computador. Isto vai muito para além do caso de utilização de pesquisa, no sentido de a IU de voz substituir ou integrar-se profundamente com interfaces gráficas de utilizador e aplicações.
A interface de voz permite que as pessoas comuniquem com dispositivos em linguagem falada natural através de altifalantes inteligentes e outros dispositivos, atualmente presentes em dispositivos como a Alexa ou o Google Home. Falar é fundamental para a forma como fazemos as coisas com outros seres humanos e será fundamental para a forma como faremos as coisas com os computadores no futuro.
No entanto, esta é atualmente uma opinião marginal.
Embora a maioria dos especialistas em tecnologia concorde que a voz continuará a evoluir o seu atual papel de nicho no ecossistema tecnológico ou, pelo menos, a crescer gradualmente à medida que a tecnologia for melhorando, a minha previsão é que a voz seja o principal acontecimento em si. Passará a dominar as nossas interacções com software e dispositivos, tornando-se mesmo tão importante como a interface gráfica do utilizador.
Como já foi referido, esta não é uma opinião generalizada. Muitos especialistas do sector reconhecem que a voz ainda é uma novidade e que ainda não atingiu uma adequação perfeita entre o produto e o mercado. Alguns VCs proeminentes, por exemplo, têm a opinião de que até que a inteligência artificial generalizada seja alcançada, a tecnologia de voz será sempre um nicho.
Devido às muitas limitações actuais dos assistentes de voz, é difícil para as pessoas imaginarem a voz como a próxima vaga de tecnologia. Na minha opinião, a voz é hoje em dia semelhante à Internet com ligação telefónica no início dos anos 90. Nessa altura, a experiência em linha era tão má que era difícil imaginar o que seria possível fazer quando a largura de banda melhorasse. Os principais pensadores fizeram todo o tipo de previsões para a Internet que, em retrospetiva, parecem absurdamente conservadoras - alguns especialistas chegaram mesmo a prever que não teria mais impacto na economia do que os aparelhos de fax.
Atualmente, as expectativas das pessoas em relação à voz são igualmente conservadoras, em parte devido ao facto de a experiência de voz ainda ser muito rudimentar. O pressuposto é que, até se conseguir uma inteligência artificial generalizada, os bots terão um desempenho fraco nas conversas - e a tecnologia nunca será excelente até que o chatbots seja capaz de uma conversa quase humana com o utilizador. No entanto, essa suposição sobre a necessidade de inteligência artificial generalizada é falha: Existem certamente formas de fazer com que o chatbots atinja um desempenho quase humano utilizando a tecnologia atual.
Para os assistentes de altifalantes inteligentes em geral, a cobertura de tópicos é tão vasta que precisam de ser quase totalmente auto-aprendizagem. Infelizmente, a tecnologia atual não é suficientemente boa para criar automaticamente bots de auto-aprendizagem que consigam lidar com conversas de várias voltas com humanos. Se essa tecnologia existisse, seríamos capazes de fazer perguntas de seguimento no Google. Mas fazer com que os bots inteligentes se construam a si próprios é como tentar fazer com que uma aplicação de smartphone se construa a si própria sem qualquer envolvimento humano - simplesmente não é possível neste momento.
Há outra forma de conseguir uma conversação de nível quase humano com os bots: reduzir drasticamente o seu âmbito. Tal como acontece com as aplicações, os programadores podem criar bots sofisticados para tarefas específicas, programando-os manualmente para que se envolvam em conversas com significado. É com este tipo de bots que se dará o grande avanço no domínio da voz: altifalantes inteligentes, telefones e outros dispositivos acolherão este tipo de bots, criando grandes oportunidades para os pioneiros que fizerem as coisas bem.
Abordar os problemas dos actuais bots de voz
Para compreender intuitivamente a diferença entre a experiência dos actuais bots de voz e o que esta tecnologia será no futuro, temos de começar por compreender por que razão um dispositivo de voz é atualmente o equivalente a navegar na Web com um modem de ligação telefónica.
Em primeiro lugar, as interacções básicas com um bot de voz ainda são muito fracas. O utilizador tem de se dirigir especificamente ao dispositivo com uma palavra-chave, após o que tem de esperar para ver se o bot foi ativado com êxito ou não. Se foi ativado, é necessário falar após o sinal sonoro a uma velocidade lenta mas consistente e formular as frases de modo a incluir todos os parâmetros necessários - quase como se estivesse a falar numa instrução SQL. Se parar para pensar em qualquer momento, a sua interação falhará e terá de voltar ao início.
Vejamos um exemplo da vida real:
Diz-se: "Olá, Google."
Há uma pausa enquanto se aguarda a confirmação de que o dispositivo foi ativado.
Se tiver sido ativado, pode prosseguir com o seu pedido:
"Passa 'Dark Horse' da Katy Perry no YouTube, na televisão da sala."
Há outro atraso enquanto o dispositivo processa o que disse.
Se o seu pedido for bem sucedido, algo começará a acontecer no seu televisor e o vídeo será reproduzido.
Se não for bem sucedido, tem de voltar ao início e tentar de novo, talvez com uma estrutura de frase diferente, palavras diferentes, ou simplesmente tentando falar mais claramente.
Esta experiência está repleta de atrasos, potenciais erros e pode exigir muitos reinícios para realizar tarefas. Além disso, o bot de voz ainda não é inteligente e não responde a comandos ou perguntas relacionadas com o que está a fazer.
Uma nova forma de interagir com os bots de voz
A forma mais fácil de imaginar as interacções com os bots inteligentes do futuro é imaginar um operador humano a controlar o dispositivo e a dar-lhe instruções especificamente relacionadas com o funcionamento do YouTube (e nada mais).
A primeira diferença está na velocidade de interação. Pode falar com o operador "humano" a uma velocidade normal, sem pausas ou atrasos na resposta, e sem problemas se fizer uma pausa enquanto fala. Pode também referir-se ao operador humano a meio de uma frase - por exemplo, "Quero ver televisão - sabe que mais, Alexa, por favor, ponha algo no YouTube". De facto, poderá não ser necessário dizer o nome do operador (a palavra-chave) para que ele responda.
Este robot semelhante ao ser humano também seria flexível em termos da forma como interage consigo:
Tu: "Alexa, quero ver o YouTube."
Alexa: "Claro, em que televisão?"
Tu: "Na televisão da cozinha - talvez algo da Katy Perry".
Alexa: "Tens alguma canção em particular em mente?"
Tu: "Não, o que é que pode sugerir?"
Humano: "'Roar', 'Dark Horse'? Coloquei mais sugestões no ecrã".
Tu: "Ótimo, obrigado. Toca 'Hot and Cold'".
Este é o futuro das interacções entre bots: Sem descontinuidades, suaves e fáceis de falar sobre a tarefa ou o tema em causa. Imagine um vasto universo destes bots com um universo igualmente vasto de dispositivos de voz baratos e de fácil utilização. Será como ter um operador humano em cada sala e ao lado de cada dispositivo. Continuarão a existir muitas interfaces de utilizador gráficas, mas serão muito mais fáceis de utilizar através do bot.
Passandopara o futuro da voz
Atualmente, é comum ver funcionários em locais como estações de metro, aeroportos e supermercados a prestar assistência a quem utiliza ecrãs tácteis de auto-atendimento - por exemplo, a pessoa que o ajuda a utilizar as máquinas de check-in para obter o seu cartão de embarque no aeroporto. Imagine, no entanto, que essa pessoa podia interagir diretamente com a aplicação de check-in - o que significa que, a meio do processo de check-in, podia dizer à máquina que queria mudar de lugar em relação à posição que tinha escolhido originalmente e a aplicação abriria o ecrã relevante para si - tudo isto sem a ajuda de um assistente humano.
Este é o futuro: um bot de voz estará incorporado ou acessível em todos os dispositivos ou serviços com os quais queira interagir e fará instantaneamente o que lhe ordenar. Já não será necessário sacar do telemóvel ou do computador portátil para fazer alguma coisa - em vez disso, basta dizer em voz alta o que precisa, e tudo se resolverá a partir daí.
A mudança para a voz acabará por ter a ver com algo tão simples como a conveniência. No nosso mundo moderno, as pessoas querem fazer as coisas rapidamente e com o mínimo de incómodo, e a rapidez é mais importante do que nunca. Embora a maioria dos que estão ligados à indústria dos chatbots não estejam a antecipar isto, aqueles de nós que estão a investigar e a desenvolver a tecnologia prevêem implicações enormes para as operações comerciais, o marketing, as vendas, a marca, a distribuição de produtos e muito mais. A voz é o futuro da tecnologia, e já estamos a meio caminho.
Partilhar isto em:
Crie o seu próprio chatbot de IA personalizado gratuitamente
Comece a criar um bot GPT personalizado com a nossa interface intuitiva de arrastar e soltar.
Começar - é grátis! 🤖Não é necessário cartão de crédito
Mantenha-se atualizado com as últimas novidades sobre IA chatbots