O que é um assistente de voz?
Um assistente de voz é um software capaz de compreender e responder a comandos falados em linguagem natural. Também podem ser designados por assistentes inteligentes e esta pode ser uma descrição mais exacta porque, em muitos casos, podem interagir com texto através de chat. Naturalmente, também são conhecidos como bots.
Nos últimos anos, a adoção de assistentes de voz disparou, especialmente sob a forma de assistentes domésticos activados por voz, como a Alexa e o Google Home.
Estes produtos permitem aos utilizadores comandar software para fazer coisas apenas com a voz. Por exemplo, um utilizador pode reproduzir música no Spotify ou reproduzir um vídeo no Youtube apenas ordenando ao assistente de voz inteligente que o faça.
O dispositivo de assistente pessoal foi possível graças aos avanços na IA, especificamente numa área chamada processamento de linguagem natural.
Como é que os assistentes de voz utilizam a PNL para o reconhecimento de voz?
O processamento de linguagem natural é uma tecnologia que permite aos computadores compreender a intenção subjacente a uma frase falada. É diferente do reconhecimento de voz, que transcreve palavras faladas para texto. O reconhecimento de voz também é necessário para os assistentes digitais controlados por voz. O reconhecimento de voz transcreve as palavras faladas para texto e o processamento de linguagem natural determina a intenção do utilizador por detrás do texto.
O Processamento de linguagem natural é importante e útil porque os humanos dão instruções aos assistentes de voz utilizando frases diferentes que têm o mesmo significado. Por exemplo, podem dizer: "Reproduzir X no Youtube", ou "Por favor, encontre X no Youtube e reproduza-o" ou "No Youtube, por favor, reproduza a música X", etc.
A PNL pode detetar que todas estas frases têm o mesmo significado. Isto é útil para os humanos, para além do facto de poderem interagir com o dispositivo apenas com a voz, porque não precisam de se lembrar de um comando ou sintaxe exacta para operar o dispositivo. A PNL também é surpreendentemente fácil para os programadores aprenderem a configurar e, por esta razão, é uma parte importante de qualquer estrutura de bot.
Prós e contras dos assistentes de voz
Como qualquer pessoa que já tenha tentado utilizar um assistente de voz lhe dirá, eles são bons para algumas coisas, mas não são perfeitos. Não é possível ter uma conversa humana com eles, por exemplo. Se o tentar, a conversa vai rapidamente falhar.
Também é difícil descobrir o que podem ou não podem fazer apenas interagindo com eles. O Voice é uma interface fraca para obter rapidamente uma grande quantidade de informação. A leitura de uma página Web, por exemplo, é uma forma muito melhor de obter informações rapidamente.
São muito bons em comandos ou perguntas. Funcionam bem especialmente nos casos em que o utilizador sabe exatamente o resultado que deseja, por exemplo, quando quer reproduzir um vídeo específico no YouTube cujo nome conhece e quando a resposta a uma pergunta é uma frase simples, como a resposta a "qual é a temperatura na minha cidade?
Esquecemo-nos muitas vezes de que os assistentes de voz são simplesmente outra interface de software. Chamamos-lhes assistentes porque podemos falar com eles e, por isso, é fácil conceptualizá-los como tendo algum tipo de qualidade semelhante à humana. Esta ideia é ainda reforçada pelo facto de termos de os chamar pelo nome com uma palavra-chave, "Hey Google", "Alexa", "Siri" para os ativar. Se não tivéssemos uma palavra-chave, eles não saberiam quando se está a falar com eles e, portanto, quando devem responder. A palavra-chave faz-nos uma lavagem cerebral para que pensemos no assistente de voz mais como uma espécie de assistente quase humano do que como uma interface de software. E faz uma lavagem cerebral nas crianças, levando-as a acreditar que o Google ou a Alexa são uma espécie de Dieties, o que lhes pode causar danos duradouros quando descobrirem que são empresas que dominam o mundo.
Na realidade, os assistentes de voz são apenas mais uma interface de software, ou seja, um equivalente, por exemplo, a uma interface gráfica. Uma interface gráfica desempenha um papel semelhante ao de uma interface vocal, mas não pode ser humanizada da mesma forma.
As interfaces de voz são utilizadas de forma diferente das interfaces gráficas, como é óbvio. Acontece que as interfaces vocais são normalmente utilizadas em complemento das interfaces gráficas, mas não o contrário.
Isto deve-se, em parte, ao facto de as interfaces gráficas já terem sido criadas para a maioria das aplicações e, por conseguinte, a adição de uma interface de voz permite aos utilizadores outra forma de interagir com o software. Por exemplo, pedir a um assistente de voz para reproduzir um vídeo do YouTube. Poderia reproduzir o vídeo utilizando a interface gráfica, mas seria mais lento.
Também se pode argumentar que a interface gráfica é mais completa do que uma interface vocal, pois seria muito difícil realizar algumas tarefas utilizando a voz que podem ser facilmente realizadas numa interface gráfica. Para compreender este ponto, imagine-se a tentar que o seu colega construa uma folha de cálculo para si, dando-lhe instruções por telefone, em vez de ser ele a construir a folha de cálculo utilizando a interface gráfica.
Embora as interfaces de voz não sejam normalmente indispensáveis, proporcionam um novo nível de comodidade em determinadas situações. Normalmente, é uma comodidade sem a qual se pode viver, se necessário, exceto nas raras circunstâncias em que a interação mãos-livres é essencial.
O futuro dos assistentes de voz
Dadas as suas limitações, a questão é saber se os assistentes de voz se vão tornar mais importantes no futuro ou se continuarão a ser um produto marginal.
É claro para nós que os assistentes de voz se vão tornar muito mais populares e amplamente utilizados no futuro devido a uma razão: vão ser totalmente integrados com interfaces gráficas de utilizador.
Embora seja difícil substituir as interfaces gráficas de utilizador por voz, é muito viável combinar uma interface gráfica e de voz. Atualmente, isto está a ser feito de forma muito limitada com o Google Assistant (que permite que uma página Web forneça contexto) e o Bixby.
A próxima geração de interfaces, a que chamaremos interfaces "combinadas", integrará gráficos, texto e voz na melhor experiência para o utilizador. Isto não só permitirá aos utilizadores realizar tarefas mais rapidamente e com menos curva de aprendizagem (porque a voz permite aos utilizadores interagir com o software sem saberem comandos exactos), como a IA que monitoriza as interacções permitirá que as interfaces evoluam e melhorem por si próprias.
Uma instrução de voz quando a aplicação é lançada pela primeira vez funcionará de forma diferente quando a aplicação tiver aprendido, com milhares de interacções, qual é o melhor curso de ação.
É igualmente interessante considerar que, para que a voz seja plenamente adoptada, será necessário alterar o comportamento dos utilizadores. Atualmente, as pessoas escrevem texto e utilizam interfaces gráficas nos seus smartphones muito mais do que falam para os seus telefones e utilizam assistentes de voz.
Isto deve-se ao facto de a tecnologia de reconhecimento de voz não ser perfeita. Há décadas que existem atalhos de voz nos telemóveis e nos computadores, mas esses atalhos não têm sido muito utilizados porque as taxas de erro são tão elevadas que a dor de ter de contabilizar o erro supera o benefício da conveniência depois de a novidade se ter esgotado.
Imagine que o reconhecimento de voz era perfeito e que não havia taxas de erro.
Neste caso, seria muito mais rápido para as pessoas "escreverem" um e-mail, por exemplo, utilizando a voz do que escrevendo no seu smartphone. Quando este ponto crítico for atingido, a assistência por voz será omnipresente para este tipo de tarefas.
Para que os bots possam ter êxito, tanto a tecnologia de PNL como a de reconhecimento vocal têm de funcionar a um nível elevado. Embora o reconhecimento vocal já funcione muito bem, a PNL, como já referimos, só funciona bem em domínios restritos.
O ponto interessante aqui é que o reconhecimento de voz funciona muito melhor em domínios restritos por razões óbvias, pois há muito menos palavras possíveis que o utilizador poderia estar a dizer.
Isto significa que já estamos no ponto de podermos criar chatbots que são quase perfeitos num domínio restrito. Basta ouvir as demonstrações do Google Duplex.
Isto conduzirá a uma adoção extremamente rápida da voz, uma vez resolvidas as questões da descoberta e outras relacionadas.
A voz em primeiro lugar
A ideia é que a voz seja o primeiro ponto de contacto quando alguém precisa de assistência.
Num mundo "Voice First", os dispositivos tornar-se-ão mais invisíveis, uma vez que as pessoas só precisarão de olhar para eles para as tarefas que não podem realizar com a voz.
As pessoas não terão apenas um dispositivo na sala de estar, terão um dispositivo de voz barato em cada divisão. Estes dispositivos estarão ligados entre si, a dispositivos IoT e a smartphones e computadores. Alguns destes dispositivos poderão ser capazes de projetar imagens nas paredes.
As pessoas poderão fazer perguntas ou dar comandos enquanto estão no duche ou a lavar os dentes. Não terão de se lembrar de coisas para dizer ao bot de voz lá em baixo.
Haverá formas muito melhores de descobrir funcionalidades e de "treinar" os humanos para utilizarem os bots de forma eficiente.
Embora existam muitos problemas com os dispositivos de assistente de voz neste momento, a maioria desses problemas tem a ver com a forma como estão a ser utilizados e não com a tecnologia subjacente. Acreditamos que, num curto espaço de tempo, vão surgir as killer apps para voz, o que será um acontecimento revolucionário para a forma como o software é utilizado. Isto também exigirá alguma normalização das tecnologias e protocolos de voz, mas estes são obstáculos que não impedirão o progresso durante muito tempo.
Esperamos ansiosamente por um mundo de máxima conveniência, onde os dispositivos de voz estão prontos a ajudar em quase qualquer lugar ou altura.
Índice
Mantenha-se atualizado com as últimas novidades sobre agentes de IA
Partilhar isto em: