- A ASR transforma a voz em texto utilizando a aprendizagem automática, permitindo comandos de voz e transcrição em tempo real.
- Os sistemas ASR modernos passaram de modelos de fonemas separados (HMM-GMM) para modelos de aprendizagem profunda que prevêem palavras inteiras.
- O desempenho da ASR é medido pela taxa de erro de palavras (WER), sendo os erros provenientes de substituições, supressões ou inserções; WER mais baixo = melhor qualidade de transcrição.
- O futuro da ASR está centrado no processamento no dispositivo para garantir a privacidade e o apoio a línguas com poucos recursos.
Quando foi a última vez que viu alguma coisa sem legendas?
Costumavam ser opcionais, mas agora estão presentes em vídeos curtos, quer queiramos quer não. As legendas estão tão integradas no conteúdo que nos esquecemos que estão lá.
O reconhecimento automático do discurso (ASR) - a capacidade de automatizar de forma rápida e precisa a conversão de palavras faladas em texto - é a tecnologia que está a impulsionar esta mudança.
Quando pensamos num agente de voz de IA, pensamos na sua escolha de palavras, na entrega e na voz com que fala.
Mas é fácil esquecer que a fluidez das nossas interações depende do facto de o bot nos compreender. E chegar a este ponto - o bot compreender-nos através de "um "s e "ah "s num ambiente ruidoso - não tem sido fácil.
Hoje, vamos falar sobre a tecnologia que está na base dessas legendas: o reconhecimento automático da fala (ASR).
Permitam-me que me apresente: Tenho um mestrado em tecnologia da fala e, no meu tempo livre, gosto de ler sobre as últimas novidades em ASR e até de construir coisas.
Explicar-vos-ei os conceitos básicos da ASR, espreitarei a tecnologia por baixo do capô e darei um palpite sobre o caminho que a tecnologia poderá seguir.
O que é a ASR?
O reconhecimento automático do discurso (ASR), ou conversão do discurso em texto (STT), é o processo de conversão do discurso em texto escrito através da utilização de tecnologia de aprendizagem automática.
As tecnologias que envolvem a fala integram frequentemente a ASR de alguma forma; pode ser para legendas de vídeo, transcrição de interações de apoio ao cliente para análise ou parte de uma interação com um assistente de voz, para citar alguns exemplos.
Algoritmos de conversão de voz em texto
As tecnologias subjacentes mudaram ao longo dos anos, mas todas as iterações consistiram em dois componentes, de uma forma ou de outra: dados e um modelo.
No caso da ASR, os dados são a fala etiquetada - ficheiros áudio de linguagem falada e as suas transcrições correspondentes.
O modelo é o algoritmo utilizado para prever a transcrição a partir do áudio. Os dados etiquetados são utilizados para treinar o modelo, de modo a que este possa generalizar para exemplos de discurso não vistos.

É muito parecido com o facto de podermos compreender uma série de palavras, mesmo que nunca as tenhamos ouvido nessa ordem específica, ou que sejam ditas por um estranho.
Mais uma vez, os tipos de modelos e as suas especificidades têm mudado ao longo do tempo, e todos os avanços em termos de velocidade e precisão têm-se resumido à dimensão e às especificações dos conjuntos de dados e dos modelos.
Ajuda rápida: Extração de caraterísticas
Falei de caraterísticas, ou representações, no meu artigo sobre conversão de texto em fala. São utilizadas em modelos ASR do passado e do presente.
A extração de caraterísticas - conversão do discurso em caraterísticas - é o primeiro passo em praticamente todos os pipelines ASR.
Resumidamente, estas caraterísticas, muitas vezes espectrogramas, são o resultado de um cálculo matemático efectuado no discurso e convertem o discurso num formato que enfatiza as semelhanças entre uma expressão e minimiza as diferenças entre os oradores.
Ou seja, o mesmo enunciado falado por dois oradores diferentes terá espectrogramas semelhantes, independentemente da diferença entre as suas vozes.
Estou a chamar a atenção para o facto de que vou falar de modelos que "prevêem transcrições a partir do discurso". Tecnicamente, isso não é verdade; os modelos estão a prever a partir de caraterísticas. Mas pode pensar-se na componente de extração de caraterísticas como parte do modelo.
ASR precoce: HMM-GMM
Os modelos de markov ocultos (HMMs) e os modelos de mistura gaussiana (GMMs) são modelos preditivos anteriores às redes neuronais profundas.
Os HMMs dominaram a ASR até há pouco tempo.
Dado um ficheiro áudio, o HMM prevê a duração de um fonema e o GMM prevê o próprio fonema.
Isso parece ao contrário, e de certa forma é, tipo:
- HMM: "Os primeiros 0,2 segundos são um fonema."
- GMM: "Esse fonema é um G, como em Gary".
Transformar um clip de áudio em texto requer alguns componentes extra, nomeadamente:
- Um dicionário de pronúncia: uma lista exaustiva das palavras do vocabulário, com as respectivas pronúncias.
- Um modelo linguístico: Combinações de palavras no vocabulário e as suas probabilidades de coocorrência.
Assim, mesmo que o GMM preveja /f/ em vez de /s/, o modelo linguístico sabe que é muito mais provável que o locutor tenha dito "a penny for your thoughts", e não foughts.
Tínhamos todas estas partes porque, para ser franco, nenhuma parte desta conduta era excecionalmente boa.
O HMM previa mal os alinhamentos, o GMM confundia sons semelhantes: /s/ e /f/, /p/ e /t/, e nem sequer me faça começar com as vogais.
E depois o modelo da língua limparia a confusão de fonemas incoerentes para algo mais parecido com uma língua.
ASR de ponta a ponta com aprendizagem profunda
Muitas das partes de uma conduta ASR foram entretanto consolidadas.

Em vez de treinar modelos separados para lidar com a ortografia, o alinhamento e a pronúncia, um único modelo recebe o discurso e produz (esperemos) palavras corretamente escritas e, atualmente, também carimbos de data/hora.
(Embora as implementações corrijam frequentemente, ou "repontuem" este resultado com um modelo de língua adicional).
Isto não quer dizer que outros factores - como o alinhamento e a ortografia - não mereçam uma atenção especial. Ainda há montanhas de literatura centrada na implementação de correcções para problemas muito específicos.
Ou seja, os investigadores encontram formas de alterar a arquitetura de um modelo que visam factores específicos do seu desempenho, como por exemplo:
- Um descodificador RNN-Transducer condicionado por resultados anteriores para melhorar a ortografia.
- Redução da amostragem convolucional para limitar as saídas em branco, melhorando o alinhamento.
Sei que isto é um disparate. Estou apenas a adiantar-me ao meu chefe e a perguntar-lhe "pode dar um exemplo em linguagem simples?"
A resposta é não.
Não, não posso.
Como é medido o desempenho na ASR?
Quando a ASR faz um mau trabalho, sabe-se disso.
Já vi caramelização ser transcrita como asiáticos comunistas. Crispiness to Chris p - já perceberam a ideia.
A métrica que utilizamos para refletir matematicamente os erros é a taxa de erro de palavras (WER). A fórmula para o WER é:

Onde:
- S é o número de substituições (palavras alteradas no texto previsto de modo a corresponder ao texto de referência)
- D é o número de supressões (palavras em falta no resultado, em comparação com o texto de referência)
- I é o número de inserções (palavras adicionais no resultado, em comparação com o texto de referência)
- N é o número total de palavras na referência
Então, digamos que a referência é "o gato sentou-se".
- Se o modelo produzir "o gato afundou-se", trata-se de uma substituição.
- Se o modelo produzir "cat sat", trata-se de uma eliminação.
- Se a mensagem for "o gato sentou-se", trata-se de uma inserção.
Quais são as aplicações da ASR?
A ASR é uma ferramenta muito útil.
Ajudou-nos também a melhorar a nossa qualidade de vida através de uma maior segurança, acessibilidade e eficiência em sectores cruciais.
Cuidados de saúde
Quando digo aos médicos que pesquiso o reconhecimento de voz, eles dizem "oh, como o Dragon".
Antes de termos IA generativa nos cuidados de saúde, os médicos tomavam notas verbais a 30 palavras por minuto com um vocabulário limitado.
A ASR tem tido um enorme sucesso na redução do esgotamento generalizado dos médicos.
Os médicos equilibram montanhas de papelada com a necessidade de atender os seus pacientes. Já em 2018, os investigadores defendiam a utilização da transcrição digital nas consultas para melhorar a capacidade de prestação de cuidados dos médicos.
Isto porque o facto de ter de documentar as consultas retroativamente não só retira tempo de contacto com os doentes, como também é muito menos preciso do que os resumos das transcrições das consultas reais.
Casas inteligentes
Tenho uma piada que faço.
Quando quero apagar as luzes, mas não me apetece levantar, bato palmas duas vezes em rápida sucessão - como se tivesse um badalo.
O meu parceiro nunca se ri.
As casas inteligentes activadas por voz têm tanto de futurista como de vergonhosamente indulgente. Pelo menos é o que parece.
É certo que são cómodos, mas em muitos casos permitem fazer coisas que de outra forma não estariam disponíveis.
Um bom exemplo é o consumo de energia: fazer pequenos ajustes na iluminação e no termóstato seria inviável ao longo do dia se tivesse de se levantar e mexer num botão.
A ativação por voz significa que esses pequenos ajustes não só são mais fáceis de fazer, como também lêem as nuances do discurso humano.
Por exemplo, o utilizador diz "pode tornar isto um pouco mais fresco?". O assistente utiliza o processamento de linguagem natural para traduzir o seu pedido numa alteração de temperatura, tendo em conta uma série de outros dados: a temperatura atual, a previsão meteorológica, os dados de utilização do termóstato de outros utilizadores, etc.
Fazemos a parte humana e deixamos as coisas informáticas para o computador.
Eu diria que isso é muito mais fácil do que ter de adivinhar quantos graus deve baixar o aquecimento com base no seu sentimento.
E é mais eficiente em termos energéticos: há relatos de famílias que reduziram o consumo de energia em 80% com a iluminação inteligente activada por voz, para dar um exemplo.
Apoio ao cliente
Falámos disto com os cuidados de saúde, mas transcrever e resumir é muito mais eficaz do que as pessoas fazerem resumos retroactivos das interações.
Mais uma vez, poupa tempo e é mais exato. O que aprendemos repetidamente é que a automatização liberta tempo para que as pessoas possam fazer melhor o seu trabalho.
E em nenhum outro lugar isso é mais verdadeiro do que no apoio ao cliente, onde o apoio ao cliente impulsionado por ASR tem uma taxa de resolução na primeira chamada 25% mais elevada.
A transcrição e o resumo ajudam a automatizar o processo de encontrar uma solução com base no sentimento e na consulta de um cliente.
Assistentes de bordo
Estamos a pegar no pé dos assistentes domésticos, mas vale bem a pena mencionar.
O reconhecimento de voz reduz a carga cognitiva e as distracções visuais dos condutores.
E como as distracções são responsáveis por cerca de 30% das colisões, a implementação da tecnologia é uma questão de segurança.
Patologia da fala
A ASR tem sido utilizada há muito tempo como uma ferramenta na avaliação e tratamento de patologias da fala.
É útil recordar que as máquinas não se limitam a automatizar tarefas, fazem coisas que os humanos não conseguem fazer.
O reconhecimento da fala pode detetar subtilezas na fala que são quase imperceptíveis ao ouvido humano, captando especificidades da fala afetada que, de outra forma, passariam despercebidas.
O futuro da ASR
O STT tornou-se suficientemente bom para não pensarmos mais nisso.
Mas, nos bastidores, os investigadores estão a trabalhar arduamente para a tornar ainda mais poderosa e acessível - e menos percetível.
Selecionei algumas tendências interessantes que potenciam os avanços na ASR e acrescentei algumas das minhas próprias ideias.
Reconhecimento de voz no dispositivo
A maioria das soluções ASR é executada na nuvem. De certeza que já ouviu isso antes. Isso significa que o modelo é executado num computador remoto, noutro local.
Fazem-no porque o pequeno processador do seu telemóvel não pode necessariamente executar o seu enorme modelo, ou demoraria uma eternidade a transcrever qualquer coisa.
Em vez disso, o seu áudio é enviado, através da Internet, para um servidor remoto com uma GPU demasiado pesada para levar no bolso. A GPU executa o modelo ASR e devolve a transcrição ao seu dispositivo.

Por razões de eficiência energética e de segurança (nem toda a gente quer os seus dados pessoais a flutuar no ciberespaço), tem sido feita muita investigação para criar modelos suficientemente compactos para funcionarem diretamente no seu dispositivo, seja ele um telemóvel, um computador ou um motor de navegação.
O seu autor escreveu uma tese sobre a quantização de modelos ASR para que possam ser executados num dispositivo. A Picovoice é uma empresa canadiana que está a criar IA de voz de baixa latência no dispositivo, e parece ser uma empresa interessante.
A RAS no dispositivo torna a transcrição disponível a um custo mais baixo, com potencial para servir comunidades com baixos rendimentos.
IU de transcrição primeiro
A diferença entre o áudio e as transcrições está a diminuir. O que significa isto?
Os editores de vídeo como o Premiere Pro e o Descript permitem-lhe navegar nas suas gravações através de uma transcrição: clique numa palavra e será levado para o registo de data e hora.
Teve de fazer alguns takes? Escolha o seu favorito e apague os outros, ao estilo de um editor de texto. O vídeo é cortado automaticamente para si.
É muito frustrante fazer esse tipo de edição apenas com uma forma de onda, mas é muito fácil quando se tem editores baseados em transcrições.
Da mesma forma, os serviços de mensagens como o WhatsApp estão a transcrever as suas notas de voz e permitem-lhe percorrê-las através do texto. Deslize o dedo sobre uma palavra e será levado para essa parte da gravação.

Uma história engraçada: Na verdade, construí algo deste género cerca de uma semana antes de a Apple anunciar uma funcionalidade semelhante.
Estes exemplos mostram como as complexas tecnologias subjacentes trazem simplicidade e intuitividade às aplicações do utilizador final.
Equidade, inclusão e línguas de poucos recursos
A batalha ainda não está ganha.
A ASR funciona muito bem em inglês e noutras línguas comuns com bons recursos. Não é necessariamente o caso das línguas com poucos recursos.
Há uma lacuna nas minorias dialectais, na fala afetada e noutras questões relacionadas com a equidade na tecnologia da voz.
Peço desculpa por atrapalhar as boas vibrações. Esta secção chama-se o "futuro" da ASR. E eu escolho olhar para a frente, para um futuro de que nos possamos orgulhar.
Se queremos avançar, temos de o fazer em conjunto, ou arriscamo-nos a aumentar a desigualdade social.
Comece a utilizar o ASR hoje mesmo
Independentemente do seu negócio, a utilização da RAS é uma decisão óbvia - exceto que provavelmente está a pensar como começar. Como é que se implementa a ASR? Como passar esses dados para outras ferramentas?
Botpress é fornecido com cartões de transcrição fáceis de utilizar. Podem ser integrados num fluxo de arrastar e largar, aumentado com dezenas de integrações entre aplicações e canais de comunicação.
Comece a construir hoje. É grátis.
FAQs
Qual a precisão da ASR moderna para diferentes sotaques e ambientes ruidosos?
Os sistemas modernos de ASR são impressionantemente precisos para sotaques comuns nas principais línguas, atingindo taxas de erro de palavras (WER) inferiores a 10% em condições limpas, mas a precisão diminui visivelmente com sotaques pesados, dialectos ou ruído de fundo significativo. Fornecedores como a Google e a Microsoft treinam modelos em diversos dados de voz, mas a transcrição perfeita em ambientes ruidosos continua a ser um desafio.
A ASR é fiável para transcrever jargão especializado ou termos específicos do sector?
A ASR é menos fiável para o jargão especializado ou termos específicos da indústria, porque os seus dados de formação são normalmente orientados para o discurso geral; as palavras desconhecidas podem ser mal transcritas ou omitidas. No entanto, as soluções empresariais permitem vocabulários personalizados, modelos de linguagem específicos do domínio e dicionários de pronúncia para melhorar o reconhecimento de termos técnicos em áreas como a saúde, o direito ou a engenharia.
Qual é a diferença entre as ferramentas ASR gratuitas e as soluções de nível empresarial?
A diferença entre as ferramentas ASR gratuitas e as soluções de nível empresarial reside na precisão, escalabilidade, personalização e controlos de privacidade: as ferramentas gratuitas têm frequentemente taxas de erro mais elevadas, suporte linguístico limitado e limites de utilização, enquanto as soluções empresariais oferecem um WER mais baixo, personalização específica do domínio, integrações, acordos de nível de serviço (SLAs) e funcionalidades de segurança robustas para o tratamento de dados sensíveis.
Como é que a ASR protege a privacidade do utilizador e as informações sensíveis durante a transcrição?
O ASR protege a privacidade do utilizador através da encriptação durante a transmissão de dados e oferece opções como a execução de modelos no dispositivo para evitar o envio de dados de voz para servidores externos. Muitos fornecedores empresariais também cumprem os regulamentos de privacidade, como o RGPD ou a HIPAA, e podem tornar os dados anónimos para salvaguardar informações sensíveis.
Qual é o preço dos serviços ASR baseados na nuvem em comparação com as soluções no dispositivo?
Os serviços de ASR baseados na nuvem cobram normalmente por minuto de áudio ou por níveis de utilização, com custos que variam entre $0,03-$1,00+ por minuto, dependendo da precisão e das funcionalidades, enquanto as soluções no dispositivo envolvem custos de desenvolvimento iniciais e taxas de licenciamento.